오늘 Amazon SageMaker Lakehouse의 정식 출시를 발표합니다. Amazon SageMaker Lakehouse는 Amazon Simple Storage Service(Amazon S3) 데이터 레이크와 Amazon Redshift 데이터 웨어하우스 전반의 데이터를 통합하여 단일 데이터 사본을 대상으로 강력한 분석, 인공 지능 및 기계 학습(AI/ML) 애플리케이션을 구축할 수 있도록 지원합니다. SageMaker Lakehouse는 데이터, 분석 및 AI를 위한 통합 플랫폼인 차세대 Amazon SageMaker의 일부로, 널리 채택된 AWS 기계 학습 및 분석 기능을 통합하고 분석 및 AI를 위한 통합 환경을 제공합니다.
고객은 데이터를 다양하게 활용하기를 원하며, 분석 과정을 더 빠르게 진행하기 위해 데이터를 저장할 적합한 스토리지와 데이터베이스를 선택하고 있습니다. 데이터가 데이터 레이크, 데이터 웨어하우스 및 다양한 애플리케이션에 분산되어 있기 때문에 데이터 사일로가 생성되어 액세스하고 활용하기 어렵습니다. 이러한 단편화로 인해 중복 데이터 사본이 발생하고 데이터 파이프라인의 복잡성을 초래하며, 결국 조직의 비용이 증가하게 됩니다. 또한 데이터 저장 방식과 위치에 따라 옵션이 제한되기 때문에 고객은 특정 쿼리 엔진 및 도구를 사용해야 합니다. 이러한 제한은 고객이 원하는 대로 데이터를 사용하는 데 방해가 됩니다. 마지막으로, 일관되지 않은 데이터 액세스로 인해 고객이 정보에 입각한 비즈니스 결정을 내리기 어렵습니다.
SageMaker Lakehouse는 Amazon S3 데이터 레이크와 Amazon Redshift 데이터 웨어하우스 전반에서 데이터를 통합할 수 있도록 지원하여 이러한 문제를 해결하며, Apache Iceberg와 호환되는 모든 엔진 및 도구를 사용하여 데이터를 즉시 액세스하고 쿼리할 수 있는 유연성을 제공합니다. SageMaker Lakehouse를 사용하면 세분화된 권한을 중앙에서 정의하고, 권한을 여러 AWS 서비스에 적용하여 데이터 공유 및 협업을 간소화할 수 있습니다. SageMaker Lakehouse로 데이터를 가져오는 일은 간단합니다. 기존 데이터 레이크 및 데이터 웨어하우스의 데이터에 원활하게 액세스할 수 있을 뿐만 아니라 Amazon Aurora, Amazon RDS for MySQL, Amazon DynamoDB와 같은 운영 데이터베이스 및 Salesforce와 SAP 등의 애플리케이션에서 제로 ETL을 사용할 수 있습니다. SageMaker Lakehouse는 기존 환경에 적합합니다.
SageMaker Lakehouse 시작하기
이 데모에서는 다수의 AWS 데이터 소스가 있는 사전 구성된 환경을 사용합니다. Amazon SageMaker Unified Studio(평가판) 콘솔을 살펴보겠습니다. 이 콘솔은 모든 데이터 및 AI에 대한 통합 개발 환경을 제공합니다. Unified Studio를 사용하면 분석 및 AI/ML을 위한 익숙한 AWS 도구를 사용하면서 SageMaker Lakehouse를 통해 다양한 소스의 데이터에 원활하게 액세스하고 쿼리할 수 있습니다.
여기에서 공유 워크스페이스 역할을 하는 프로젝트를 생성하고 관리할 수 있습니다. 이러한 프로젝트를 통해 팀원은 협업하고, 데이터로 작업하고, AI 모델을 함께 개발할 수 있습니다. 프로젝트를 생성하면 AWS Glue Data Catalog 데이터베이스를 자동으로 설정하고, Redshift Managed Storage(RMS) 데이터를 위한 카탈로그를 설정하고, 필요한 권한을 프로비저닝합니다. 새 프로젝트를 만들어 시작하거나 기존 프로젝트를 계속할 수 있습니다.
새 프로젝트를 만들려면 프로젝트 생성을 선택합니다.
레이크하우스를 구축하고 상호 작용할 수 있는 프로젝트 프로필 옵션에는 두 가지가 있습니다. 첫 번째는 데이터 분석 및 AI-ML 모델 개발로, 데이터를 분석하고 Amazon EMR, AWS Glue, Amazon Athena, Amazon SageMaker AI 및 SageMaker Lakehouse를 지원하는 ML 및 생성형 AI 모델을 구축할 수 있습니다. 두 번째는 SQL 분석으로, SQL을 사용하여 SageMaker Lakehouse의 데이터를 분석할 수 있습니다. 이 데모에서는 SQL 분석을 진행하겠습니다.
프로젝트 이름 필드에 프로젝트 이름을 입력하고 프로젝트 프로필에서 SQL 분석을 선택합니다. 계속을 선택합니다.
도구 사용에서 모든 매개변수의 값을 입력합니다. 값을 입력하여 레이크하우스 데이터베이스를 생성합니다. 값을 입력하고 Redshift 서버리스 리소스를 생성합니다. 마지막으로 레이크하우스 카탈로그에 카탈로그 이름을 입력합니다.
다음 단계에서는 리소스를 검토하고 프로젝트 생성을 선택합니다.
프로젝트를 만든 후 프로젝트 세부 정보를 봅니다.
탐색 창의 데이터로 이동하고 +(더하기) 기호를 선택하여 데이터를 추가합니다. 카탈로그 생성을 선택하여 새 카탈로그를 생성하고 데이터 추가를 선택합니다.
RMS 카탈로그를 만든 후 탐색 창에서 구축을 선택한 다음, 데이터 분석 및 통합에서 쿼리 편집기를 선택하여 RMS 카탈로그에서 스키마를 생성하고 테이블을 만든 다음, 샘플 판매 데이터가 포함된 테이블을 로드합니다.
지정한 셀에 SQL 쿼리를 입력한 후 오른쪽 드롭다운 메뉴에서 데이터 소스 선택을 선택하여 Amazon Redshift 데이터 웨어하우스의 데이터베이스 연결을 설정합니다. 연결하면 쿼리를 실행하고 데이터베이스에서 원하는 데이터를 검색할 수 있습니다.
데이터베이스 연결이 설정되면 모두 실행을 선택하여 모든 쿼리를 실행하며, 모든 결과가 표시될 때까지 실행 진행 상황을 모니터링할 수 있습니다.
이 데모에서는 사전 구성된 카탈로그 두 개를 추가로 사용합니다. 카탈로그란 스키마와 테이블 같은 레이크하우스 객체 정의를 구성하는 컨테이너로, 첫 번째 카탈로그는 세부적인 거래 및 인구 통계 정보가 포함된 고객 기록을 저장하는 Amazon S3 데이터 레이크 카탈로그(test-s3-catalog), 두 번째 카탈로그는 고객 이탈 데이터를 저장하고 관리하는 전용 레이크하우스 카탈로그(churn_lakehouse)입니다. 이러한 통합을 통해 고객 이탈을 예측하는 동시에 고객 행동을 분석할 수 있는 통합 환경을 구축할 수 있습니다.
탐색 창에서 데이터를 선택하고 레이크하우스 섹션에서 카탈로그를 찾습니다. SageMaker Lakehouse는 Athena를 사용하여 쿼리, Redshift를 사용하여 쿼리, Jupyter Lab 노트북에서 열기 등 다양한 분석 옵션을 제공합니다.
참고로 Jupyter Lab 노트북에서 열기 옵션을 사용하려면 프로젝트를 생성할 때 데이터 분석 및 AI-ML 모델 개발 프로필을 선택해야 합니다. Jupyter Lab 노트북에서 열기를 선택한 경우 Iceberg REST 카탈로그를 구성하여 EMR 7.5.0 또는 AWS Glue 5.0을 통해 Apache Spark를 사용해 SageMaker Lakehouse와 상호 작용할 수 있으므로 데이터 레이크 및 데이터 웨어하우스 전반에서 통합된 방식으로 데이터를 처리할 수 있습니다.
Jupyter Lab 노트북을 쿼리하는 방법은 다음과 같습니다.
계속해서 Athena를 사용하여 쿼리를 선택합니다. 이 옵션을 사용하면 SageMaker Lakehouse 내에서 Amazon Athena의 서버리스 쿼리 기능을 사용하여 판매 데이터를 직접 분석할 수 있습니다. Athena를 사용하여 쿼리를 선택하면 쿼리 편집기가 자동으로 실행되어 레이크하우스에 대한 SQL 쿼리를 작성 및 실행할 수 있는 워크스페이스가 제공됩니다. 이 통합 쿼리 환경은 데이터 탐색 및 분석을 위한 원활한 환경을 제공하며 생산성 향상을 위한 구문 강조 및 자동 완성 기능을 제공합니다.
Redshift를 사용하여 쿼리 옵션을 통해 레이크하우스에 대해 SQL 쿼리를 실행할 수도 있습니다.
SageMaker Lakehouse는 최신 데이터 관리 및 분석을 위한 포괄적인 솔루션을 제공합니다. SageMaker Lakehouse는 여러 소스의 데이터에 대한 액세스를 통합하고, 광범위한 분석 및 ML 엔진을 지원하고, 세분화된 액세스 제어를 제공하여 데이터 자산을 최대한 활용할 수 있도록 도와줍니다. Amazon S3의 데이터 레이크, Amazon Redshift의 데이터 웨어하우스, 운영 데이터베이스 및 애플리케이션 등 어떤 기능을 사용하든 SageMaker Lakehouse는 혁신을 주도하고 데이터 기반 의사 결정을 내리는 데 필요한 유연성과 보안성을 제공합니다. 수백 개의 커넥터를 사용하여 다양한 소스의 데이터를 통합할 수 있습니다. 또한 타사 데이터 소스 전반의 통합 쿼리 기능을 통해 데이터를 즉시 액세스하고 쿼리할 수 있습니다.
정식 출시
AWS Management Console, API, AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용하여 SageMaker Lakehouse에 액세스할 수 있습니다. AWS Glue Data Catalog와 AWS Lake Formation을 통해서도 액세스할 수 있습니다. SageMaker Lakehouse는 미국 동부(버지니아 북부), 미국 서부(오리건), 미국 동부(오하이오), 유럽(아일랜드), 유럽(프랑크푸르트), 유럽(스톡홀름), 아시아 태평양(시드니), 아시아 태평양(홍콩), 아시아 태평양(도쿄) 및 아시아 태평양(싱가포르)의 AWS 리전에서 정식 출시되었습니다.
요금 정보는 Amazon SageMaker 요금을 참조하십시오.
Amazon SageMaker Lakehouse와 이를 이용해 데이터 분석 및 AI/ML 워크플로를 간소화하는 방법에 대한 자세한 내용은 Amazon SageMaker Lakehouse 문서를 참조하십시오.