데이터 과학자가 일정과 예산 내에서 대규모 파운데이션 모델(FM)을 훈련하고 컴퓨팅 가용성을 기반으로 훈련 프로세스를 관리하는 데 드는 몇 주 간의 노력을 절감할 수 있도록 Amazon SageMaker HyperPod 유연한 훈련 플랜의 정식 출시를 오늘 발표합니다.
AWS re:Invent 2023에서는 FM을 훈련하는 데 걸리는 시간을 최대 40% 줄이고 사전 구성된 분산 훈련 라이브러리 및 내장된 복원력을 통해 수천 개의 컴퓨팅 리소스로 병렬로 규모를 조정하도록 SageMaker HyperPod를 소개했습니다. 대부분의 생성형 AI 모델 개발 작업에는 가속화된 컴퓨팅 리소스가 병렬로 필요합니다. 고객은 제한된 일정과 예산 내에서 훈련을 완료하기 위해 컴퓨팅 리소스에 적시에 액세스할 수 있는 방법을 찾는 데 어려움을 겪고 있습니다.
오늘 발표를 통해 훈련에 필요한 가속화된 컴퓨팅 리소스를 찾고, 최적의 훈련 플랜을 생성하고, 컴퓨팅 리소스의 가용성을 기반으로 다양한 용량 블록에 걸쳐 훈련 워크로드를 실행할 수 있습니다. 몇 단계만 거치면 수동 개입 없이 훈련 완료 날짜, 예산, 컴퓨팅 리소스 요구 사항을 식별하고, 최적의 훈련 플랜을 생성하고, 완전 관리형 훈련 작업을 실행할 수 있습니다.
SageMaker HyperPod 훈련 플랜의 작동 방식
시작하려면 Amazon SageMaker AI 콘솔로 이동하여 왼쪽 탐색 창에서 훈련 플랜을 선택하고 훈련 플랜 생성을 선택합니다.
예를 들어, SageMaker HyperPod 클러스터에 대해 원하는 훈련 날짜 및 시간(10일), 인스턴스 유형 및 개수(ml.p5.48xlarge 16개)를 선택하고 훈련 플랜 찾기를 선택합니다.
SageMaker HyperPod는 두 개의 5일 세그먼트로 나누어진 훈련 플랜을 제안합니다. 여기에는 플랜의 총 선결제 가격이 포함됩니다.
이 훈련 플랜을 수락한 경우 다음 단계에서 훈련 세부 정보를 추가하고 플랜 생성을 선택합니다.
훈련 플랜을 생성하고 나면 훈련 플랜 목록을 볼 수 있습니다. 훈련 플랜을 생성한 경우 12시간 이내에 플랜에 대한 선결제를 해야 합니다. 플랜 하나가 활성 상태이고 이미 시작되었으며, 모든 인스턴스가 사용되고 있습니다. 두 번째 플랜은 나중에 시작하도록 예약되어 있지만 플랜 시작 시 자동으로 시작되는 작업을 제출할 수 있습니다.
활성 상태에서는 SageMaker HyperPod에서 컴퓨팅 리소스를 사용할 수 있으며, 가용성이 일시 중지되면 자동으로 재개되고 플랜 종료 시 종료됩니다. 현재 실행 중인 첫 번째 세그먼트와 현재 세그먼트 다음에 실행하기 위해 대기열에 추가된 다른 세그먼트가 있습니다.
이는 SageMaker AI가 인스턴스 중단을 처리하고 수동 개입 없이 학습을 계속하는 SageMaker AI의 관리형 스팟 훈련과 유사합니다. 자세히 알아보려면 Amazon SageMaker AI 개발자 안내서의 SageMaker HyperPod 훈련 플랜을 참조하세요.
지금 이용 가능
Amazon SageMaker HyperPod 훈련 플랜은 이제 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건) AWS 리전에서 이용할 수 있으며 ml.p4d.48xlarge, ml.p5.48xlarge, ml.p5e.48xlarge, ml.p5en.48xlarge 및 ml.trn2.48xlarge 인스턴스를 지원합니다. Trn2 및 P5en 인스턴스는 미국 동부(오하이오) 리전에만 있습니다. 자세히 알아보려면 SageMaker HyperPod 제품 페이지 및 SageMaker AI 요금 페이지를 방문하세요.
Amazon SageMaker AI 콘솔에서 HyperPod 훈련 플랜을 사용해 보고 피드백을 전달하려면 SageMaker AI용 AWS re:Post를 이용하거나 평소 교류하는 AWS Support 담당자를 통해 피드백을 보내주세요.
– Channy