内页banner>

联系方式

当前位置: 首页 > 公司新闻

公司新闻 News

联系我们Contact Us

鲨鱼加速器[中国官網]|鲨鱼加速器

电话:13594780397

联系人:周经理

邮箱:proportionate@qq.com 

网址:https://www.qiyeseoer.com

地址:福安市艳摘谷187号

Amazon SageMaker HyperPod 引入 Amazon EKS 支持 新闻博客

2026-01-27 11:43:03
24次

Amazon SageMaker HyperPod 支持 Amazon EKS

关键要点

现在 Amazon SageMaker HyperPod 支持 Amazon Elastic Kubernetes Service (EKS),提供强大的基础设施以支持基础模型FM开发。通过集成 EKS,顾客可以使用 Kubernetes 接口管理 HyperPod 集群,实现工作负载的优化。强化的可观察性功能,使用户能够监控整个集群的性能、健康状态和资源利用率。SageMaker HyperPod 可与 SageMaker 的分布式训练库兼容,帮助显著减少训练时间和提高训练效率。新增的 HyperPod CLI 工具和与 Kubeflow 等工具的集成,支持科学家的机器学习工作流自动化。

今天,我们欣然宣布 Amazon Elastic Kubernetes Service (EKS) 支持 Amazon SageMaker HyperPod,这是为基础模型开发而设计的坚韧基础设施。这项新功能使顾客能够利用 EKS 进行 HyperPod 集群的管理,结合了 Kubernetes 的强大功能与 Amazon SageMaker HyperPod 设计用于训练大模型的可靠环境。Amazon SageMaker HyperPod 有助于在超过 1000 个人工智能AI加速器之间高效扩展,将训练时间缩短最多达 40。

Amazon SageMaker HyperPod 现在支持顾客通过 Kubernetes 界面管理他们的集群。这种集成允许用户在 Slurm 和 Amazon EKS 之间无缝切换,以优化各种工作负载,包括训练、微调、实验和推理。CloudWatch 观察性 EKS 附加组件提供全面的监控能力,提供 CPU、网络、磁盘及其他低级节点指标的综合视图,增强了故障排除和优化的效率。

在 reInvent 2023 上推出的 Amazon SageMaker HyperPod 已成为 AI 初创企业和大型企业有效训练和部署大规模模型的首选解决方案。它与 SageMaker 的分布式训练库 兼容,这些库提供 模型并行 和 数据并行 优化,帮助将训练时间减少多达 20。SageMaker HyperPod 可以自动检测并修复或替换故障实例,使数据科学家能够在数周或数月内持续训练模型,而无需关心基础设施管理。

Amazon EKS 与 Amazon SageMaker HyperPod 的集成利用了 Kubernetes 的优势,该平台因其可扩展性和丰富的开源工具而在机器学习ML工作负载中受到欢迎。组织通常选择 Kubernetes 来构建用于生成 AI 用例的应用程序,因为它允许在多个环境中重用功能,同时满足合规和治理标准。今天的公告使顾客能够在超过 1000 个 AI 加速器上扩展和优化资源利用率。这种灵活性增强了开发者体验、容器化应用管理及 FM 训练和推理工作负载的动态扩展能力。

Amazon EKS 支持 Amazon SageMaker HyperPod 通过深层健康检查、自动节点恢复和作业自动恢复能力加强了弹性,确保大规模和/或长期运行作业的训练不中断。作业管理可以通过可选的 HyperPod CLI 进行简化,该工具专为 Kubernetes 环境设计,客户也可以使用自己的 CLI 工具。与 Amazon CloudWatch Container Insights 的集成提供了高级观察性,深入洞察集群性能、健康和利用率。此外,数据科学家可以使用 Kubeflow 等工具实现机器学习工作流的自动化。该集成还包括 Amazon SageMaker 管理的 MLflow,提供强大的实验跟踪和模型管理解决方案。

高层次上,Amazon SageMaker HyperPod 集群由云管理员通过 HyperPod 集群 API 创建,并由 HyperPod 服务完全管理,消除了构建和优化 ML 基础设施时所需的无差异重型工作。Amazon EKS 用于协调这些 HyperPod 节点,类似于 Slurm 协调 HyperPod 节点的方式,为客户提供熟悉的基于 Kubernetes 的管理员体验。

让我们探索如何开始使用 Amazon EKS 支持的 Amazon SageMaker HyperPod我首先准备场景,检查 先决条件,并按照 Amazon SageMaker HyperPod EKS 研讨会 的指示创建一个包含单个 AWS CloudFormation 堆栈的 Amazon EKS 集群,配置了 VPC 和存储资源。

香港加速器下载

Amazon SageMaker HyperPod 引入 Amazon EKS 支持 新闻博客

为了创建和管理 Amazon SageMaker HyperPod 集群,我可以使用 AWS 管理控制台 或 AWS 命令行界面 (AWS CLI)。使用 AWS CLI,我在 JSON 文件中指定我的集群配置。我选择先前创建的 Amazon EKS 集群作为 SageMaker HyperPod 集群的协调者。然后,我创建被称为“workergroup1”的集群工作节点,设置采用私有 Subnet,NodeRecovery 设置为 Automatic 以启用自动节点恢复,同时为 OnStartDeepHealthChecks 添加 InstanceStress 和 InstanceConnectivity 以启用深度健康检查。

jsoncat gt eliclusterconfigjson ltlt EOL{ ClusterName examplehpcluster Orchestrator { Eks { ClusterArn {EKSCLUSTERARN} } } InstanceGroups [ { InstanceGroupName workergroup1 InstanceType mlp548xlarge InstanceCount 32 LifeCycleConfig { SourceS3Uri s3//{BUCKETNAME} OnCreate oncreatesh } ExecutionRole {EXECUTIONROLE} ThreadsPerCore 1 OnStartDeepHealthChecks [ InstanceStress InstanceConnectivity ] } ] VpcConfig { SecurityGroupIds [ SECURITYGROUP ] Subnets [ SUBNETID ] } ResilienceConfig { NodeRecovery Automatic }}EOL

你可以添加 InstanceStorageConfigs 以在 HyperPod 节点上配置和挂载额外的 Amazon EBS 卷。

要通过 SageMaker HyperPod APIs 创建集群,我运行以下 AWS CLI 命令:

bashaws sagemaker createcluster cliinputjson file//eliclusterconfigjson

AWS 命令返回新 HyperPod 集群的 ARN。

json{ ClusterArn arnawssagemakeruseast2ACCOUNTIDcluster/wccy5z4n4m49}

然后,我在 SageMaker 控制台 验证 HyperPod 集群的状态,等待状态更改为 InService。

另外,你也可以使用 AWS CLI 运行 describecluster 命令来检查集群状态:

bashaws sagemaker describecluster clustername myhyperpodcluster

一旦集群准备就绪,我可以访问 SageMaker HyperPod 集群节点。对于大多数操作,我可以使用 kubectl 命令从我的开发环境管理资源和作业,充分利用 Kubernetes 的编排能力,同时享受 SageMaker HyperPod 的管理基础设施。这时,出于高级故障排除或直接访问节点的需要,我使用 AWS Systems Manager (SSM) 登录到单个节点,按照 访问 SageMaker HyperPod 集群节点 页面中的说明进行操作。

要在由 EKS 协调的 SageMaker HyperPod 集群上运行作业,我遵循 通过 Amazon EKS 在 SageMaker HyperPod 集群上运行作业 页面中概述的步骤。你可以使用 HyperPod CLI 和原生 kubectl 命令找到可用的 HyperPod 集群并提交训练任务Pods。在管理 ML 实验和训练运行方面,你可以使用 Kubeflow 训练操作符、Kueue 以及 Amazon SageMaker 管理的 MLflow。

最后,在 SageMaker 控制台中,我可以查看最近添加的 EKS 集群的 状态 和 Kubernetes 版本,提供对我的 SageMaker HyperPod 环境的全面概述。

我还可以使用 Amazon CloudWatch Container Insights 监控集群性能和健康指标。

注意事项

以下是一些关于 Amazon EKS 支持的 Amazon SageMaker HyperPod 的重要信息:

可靠的环境 这一集成提供了更具弹性的训练环境,深层健康检查、自动节点恢复和作业自动恢复。SageMaker HyperPod 自动检测、诊断和修复故障,允许你在数周或数月内持续不断地训练基础模型,从而将训练时间减少多达 40。

增强的 GPU 可观察性 Amazon CloudWatch Container Insights 提供详细的指标和日志,适用于你的容器化应用程序和微服务。这使得对集群性能和健康状况的监控更加全面。

科学家友好的工具 此发布包括用于作业管理的自定义 HyperPod CLI、用于分布式训练的 Kubeflow 训练操作符、调度用的 Kueue,以及与 SageMaker 管理的 MLflow 的集成以实现实验跟踪。它还与 SageMaker 的分布式训练库兼容,提供模型并行和数据并行优化以显著减少训练时间。这些库结合自动恢复作业的能力,能够高效且不中断地训练大型模型。

灵活的资源利用 此集成提升了开发人员体验和 FM 工作负载的可扩展性。数据科学家可以高效地在训练和推理任务中共享计算能力。你可以使用现有的 Amazon EKS 集群,或创建并附加新的集群到 HyperPod 计算,带上你自己的工具进行作业提交、排队和监控。

要开始在 Amazon EKS 上使用 Amazon SageMaker HyperPod,可以探索以下资源,如 SageMaker HyperPod EKS 研讨会、awsdohyperpod 项目 以及 awsomedistributedtraining 项目。此版本在 Amazon SageMaker HyperPod 可用的 AWS 区域普遍可用,但不包括欧洲伦敦。有关定价信息,请访问 Amazon SageMaker 定价页面。

这篇博客文章是一个协作工作。我要感谢 Manoj Ravi、Adhesh Garg、Tomonori Shimomura、Alex Iankoulski、Anoop Saha 以及整个团队在汇编和提炼本文信息方面的重大贡献。他们的集体专业知识对于创建这篇全面的文章至关重要。

Eli

关于作者

我的使命是将复杂的概念转化为易于理解的解释,激励开发人员不断扩展他们的技能和知识。通过会议、教程和在线资源,我与全球开发者社区分享我的专业知识,向他们提供达到其全部潜力的工具和信心。通过实践的方法和对简化复杂问题的承诺,我努力在 AWS 技术的世界中成为成长和学习的催化剂。

鲨鱼加速器[中国官網]|鲨鱼加速器

电话:13594780397

联系人:周经理

邮箱:proportionate@qq.com 

网址:https://www.qiyeseoer.com

地址:福安市艳摘谷187号

在线留言

  • 体验移动端

    体验移动端

  • 联系客服

    联系客服