AWS机器学习实战，用SageMaker快速构建和部署模型

过去，构建机器学习模型需要深厚的数学功底、大规模的计算资源和复杂的部署流程。AWS SageMaker的出现，将机器学习的门槛大幅降低。从数据标注、模型训练到部署推理，SageMaker提供了端到端的托管服务，让开发者可以专注于业务问题，而不是基础设施。本文将介绍如何用SageMaker快速构建一个图像分类模型，并部署为可调用的API。

一、SageMaker核心组件

1.1 开发环境

SageMaker Studio是一个集成开发环境，提供笔记本、实验跟踪、模型调试等功能。你可以在浏览器中编写代码、训练模型、部署端点，所有资源都由AWS管理。

SageMaker Notebook Instances是传统的笔记本实例，适合临时任务或初学者。

1.2 训练组件

训练作业：指定算法、数据位置、实例类型，SageMaker自动启动训练实例，完成后自动关闭

超参数调优：自动搜索最优超参数组合，可以同时运行多个训练作业

实验：跟踪每次训练的参数、指标和模型，便于对比和选择

1.3 推理组件

端点：部署模型作为REST API，支持自动扩缩

批量转换：对大规模离线数据进行预测，成本更低

模型监控：持续监控模型在生产中的预测质量，检测数据漂移

二、构建图像分类模型

2.1 准备数据

假设我们要构建一个识别猫和狗的图像分类模型。首先需要将图像数据上传到S3，并按照训练集、验证集组织文件夹结构：

text

复制下载

s3://my-bucket/train/cat/s3://my-bucket/train/dog/s3://my-bucket/validation/cat/s3://my-bucket/validation/dog/

2.2 使用内置算法

SageMaker提供了多种内置算法，包括图像分类、目标检测、文本分类等。对于图像分类，可以使用Image Classification算法。

在SageMaker Studio中，创建笔记本实例，选择Image Classification算法镜像，编写训练代码：

python

复制下载

import sagemakerfrom sagemaker import get_execution_rolefrom sagemaker.image_classification import ImageClassificationrole = get_execution_role()# 创建估算器ic = ImageClassification(role=role, instance_count=1, instance_type='ml.p3.2xlarge', output_path='s3://my-bucket/output', num_classes=2, num_training_samples=10000, epochs=20)# 设置数据通道train_data = 's3://my-bucket/train'validation_data = 's3://my-bucket/validation'ic.fit({'train': train_data, 'validation': validation_data})

2.3 使用自己的代码

如果需要自定义模型，可以使用SageMaker的Script Mode。将训练脚本和模型定义放在一个文件夹中，上传到S3，然后创建Estimator指向该脚本：

python

复制下载

from sagemaker.estimator import Estimatorestimator = Estimator(image_uri='your-custom-image', role=role, instance_count=1, instance_type='ml.p3.2xlarge', source_dir='s3://my-bucket/code', entry_point='train.py')estimator.fit()

2.4 超参数调优

使用Hyperparameter Tuning Job自动搜索最优参数：

python

复制下载

from sagemaker.tuner import HyperparameterTuner, IntegerParameter, ContinuousParameterhyperparameter_ranges = { 'learning-rate': ContinuousParameter(0.001, 0.1), 'batch-size': IntegerParameter(16, 128), 'epochs': IntegerParameter(10, 50)}tuner = HyperparameterTuner(estimator=ic, objective_metric_name='validation:accuracy', hyperparameter_ranges=hyperparameter_ranges, max_jobs=20, max_parallel_jobs=2)tuner.fit({'train': train_data, 'validation': validation_data})

三、部署模型为API

3.1 创建端点

训练完成后，可以将最佳模型部署为端点：

python

复制下载

predictor = ic.deploy(initial_instance_count=1, instance_type='ml.t2.medium', endpoint_name='cat-dog-classifier')

部署后，端点会提供一个HTTPS URL，可以接收POST请求并返回预测结果。

3.2 调用端点

在应用中调用端点的示例代码：

python

复制下载

import boto3import jsonruntime = boto3.client('runtime.sagemaker')response = runtime.invoke_endpoint(EndpointName='cat-dog-classifier', ContentType='application/x-image', Body=image_bytes)result = json.loads(response['Body'].read())prediction = result['predicted_label']

3.3 自动扩缩

为端点配置自动扩缩策略，根据请求量动态调整实例数量：

python

复制下载

app_client = boto3.client('application-autoscaling')# 注册目标app_client.register_scalable_target( ServiceNamespace='sagemaker', ResourceId='endpoint/cat-dog-classifier/variant/AllTraffic', ScalableDimension='sagemaker:variant:DesiredInstanceCount', MinCapacity=1, MaxCapacity=10)# 配置扩缩策略app_client.put_scaling_policy( PolicyName='InvocationsScaling', ServiceNamespace='sagemaker', ResourceId='endpoint/cat-dog-classifier/variant/AllTraffic', ScalableDimension='sagemaker:variant:DesiredInstanceCount', PolicyType='TargetTrackingScaling', TargetTrackingScalingPolicyConfiguration={ 'TargetValue': 100.0, # 每个实例每秒100个请求 'PredefinedMetricSpecification': { 'PredefinedMetricType': 'SageMakerVariantInvocationsPerInstance' } })

四、模型监控与持续改进

4.1 数据漂移监控

模型在生产环境中部署后，输入数据的分布可能随时间变化，导致预测质量下降。SageMaker Model Monitor可以自动检测数据漂移：

python

复制下载

from sagemaker.model_monitor import DataCaptureConfig# 启用数据捕获data_capture_config = DataCaptureConfig( enable_capture=True, sampling_percentage=100, destination_s3_uri='s3://my-bucket/data-capture')predictor = ic.deploy(..., data_capture_config=data_capture_config)

4.2 影子模式部署

在将新模型切换到生产之前，可以使用影子模式部署，让新模型与生产模型并行运行，但不返回结果。通过比较两个模型的预测，可以评估新模型的效果。

4.3 A/B测试

SageMaker端点支持A/B测试，可以将部分流量导向新模型，对比真实效果。通过配置生产变体，逐步增加新模型的流量比例。

五、结语

SageMaker将机器学习从“数据科学家专属”变成了“开发者可触及”的能力。通过内置算法、自动调优、一键部署等功能，你可以快速验证想法，将模型投入生产。从图像分类到自然语言处理，从推荐系统到异常检测，SageMaker为各种场景提供了端到端的解决方案。机器学习不再是少数人的特权，而是每个开发者都可以掌握的工具。

如果需要更深入咨询了解可以联系全球代理上TG:@jinniuge 他们在云平台领域有更专业的知识和建议，他们有国际阿里云，国际腾讯云，国际华为云，aws亚马逊，谷歌云一级代理的渠道，客服1V1服务，支持免实名、免备案、免绑卡。开通即享专属VIP优惠、充值秒到账、官网下单享双重售后支持。不懂找他们就对了。

本文由不代表本站立场，转载联系作者并注明出处。

AWS机器学习实战，用SageMaker快速构建和部署模型

AWS机器学习实战，用SageMaker快速构建和部署模型

一、SageMaker核心组件

1.1 开发环境

1.2 训练组件

1.3 推理组件

二、构建图像分类模型

2.1 准备数据

2.2 使用内置算法

2.3 使用自己的代码

2.4 超参数调优

三、部署模型为API

3.1 创建端点

3.2 调用端点

3.3 自动扩缩

四、模型监控与持续改进

4.1 数据漂移监控

4.2 影子模式部署

4.3 A/B测试

五、结语

相关推荐