오늘 애플리케이션의 제로 ETL 통합을 위해 Amazon SageMaker Lakehouse와 Amazon Redshift 지원의 정식 출시를 발표했습니다. Amazon SageMaker Lakehouse는 Amazon Simple Storage Service(Amazon S3) 데이터 레이크와 Amazon Redshift 데이터 웨어하우스 전반의 모든 데이터를 통합하여 단일 데이터 사본에 강력한 분석 및 AI/ML 애플리케이션을 구축할 수 있도록 지원합니다. SageMaker Lakehouse는 모든 Apache Iceberg 호환 도구 및 엔진을 사용하여 데이터를 현재 위치에서 액세스하고 쿼리할 수 있는 유연성을 제공합니다. 제로 ETL은 일반적인 수집 및 복제 사용 사례에 맞게 ETL 데이터 파이프라인을 구축할 필요성을 최소화하는 AWS의 완전 관리형 통합 세트입니다. Salesforce, SAP 및 Zendesk와 같은 애플리케이션의 제로 ETL 통합을 통해 데이터 파이프라인을 구축하는 데 소요되는 시간을 줄이고 Amazon SageMaker Lakehouse와 Amazon Redshift에 있는 모든 데이터에 대해 통합 분석을 실행하는 데 집중할 수 있습니다.
기업이 점점 더 다양한 디지털 시스템에 의존함에 따라 데이터 단편화는 중요한 과제로 떠올랐습니다. 중요한 정보가 데이터베이스, 애플리케이션 및 기타 플랫폼을 비롯한 여러 리포지토리에 흩어져 있는 경우가 많습니다. 데이터의 잠재력을 최대한 활용하려면 기업은 이러한 다양한 소스에서 액세스 및 통합을 지원할 수 있어야 합니다. 이러한 문제에 대응하기 위해 사용자는 데이터 파이프라인을 구축하여 여러 애플리케이션에서 중앙 집중식 데이터 레이크 및 데이터 웨어하우스로 추출 및 로드(EL)합니다. 제로 ETL을 사용하면 분석 및 AI/ML을 위한 고객 지원, 관계 관리, 전사적 자원 관리(ERP) 애플리케이션의 중요한 데이터를 데이터레이크 및 데이터 웨어하우스로 효율적으로 복제하여 데이터 파이프라인을 설계, 구축 및 테스트하는 데 필요한 엔지니어링 노력을 몇 주 절감할 수 있습니다.
사전 조건
AWS Glue Data Catalog 및 AWS Lake Formation을 통해 구성된 Amazon SageMaker Lakehouse 카탈로그.
데이터가 저장될 Amazon S3에 맞게 구성된 AWS Glue 데이터베이스.
데이터 소스에 연결하는 데 사용할 AWS Secret Manager의 암호. 자격 증명에는 애플리케이션에 로그인하는 데 사용하는 사용자 이름과 암호가 포함되어야 합니다.
Amazon SageMaker Lakehouse 또는 Amazon Redshift 작업에서 사용할 AWS Identity and Access Management(IAM) 역할. 역할은 Amazon S3와 AWS Secrets Manager를 포함하여 작업에 사용되는 모든 리소스에 대한 액세스 권한을 부여해야 합니다.
원하는 애플리케이션에 대한 유효한 AWS Glue 연결.
작동 방식 — Glue 연결 사전 조건 생성
먼저 AWS Glue 콘솔을 사용하여 연결을 생성합니다. Salesforce 통합을 데이터 소스로 선택합니다.
다음으로 연결에 사용할 Salesforce 인스턴스의 위치와 나머지 필수 정보를 함께 제공합니다. .force.com 대신 .salesforce.com 도메인을 사용해야 합니다. 사용자는 Salesforce 액세스 토큰을 통해 획득한 JSON Web Token(JWT) 또는 브라우저를 통한 OAuth 로그인이라는 두 가지 인증 방법 중에서 선택할 수 있습니다.
모든 정보를 검토한 다음 연결 생성을 선택합니다.
팝업(여기에 표시되지 않음)을 통해 Salesforce 인스턴스에 로그인하면 연결이 성공적으로 생성됩니다.
작동 원리 — 제로 ETL 통합 생성
이제 연결이 되었으므로 왼쪽 탐색 패널에서 제로 ETL 통합을 선택한 다음 제로 ETL 통합 생성을 선택합니다.
먼저 통합을 위한 소스 유형을 선택합니다. 이 경우에는 최근에 생성한 연결을 사용할 수 있도록 Salesforce를 선택합니다.
다음으로, AWS Glue의 대상 데이터베이스에 복제하려는 데이터 소스의 객체를 선택합니다.
객체를 추가하는 동안 데이터와 메타데이터를 모두 빠르게 미리 보고 올바른 객체를 선택하고 있는지 확인할 수 있습니다.
기본적으로 제로 ETL 통합은 60분마다 소스에서 대상으로 데이터를 동기화합니다. 하지만 자주 업데이트할 필요가 없는 경우에는 이 간격을 변경하여 복제 비용을 줄일 수 있습니다.
검토한 다음 통합 생성 및 실행을 선택합니다.
소스(Salesforce 인스턴스)의 데이터가 이제 제 AWS 계정의 대상 데이터베이스 salesforcezeroETL에 복제되었습니다. 이 통합에는 두 단계가 있습니다. 1단계: 초기 로드에서는 선택한 객체의 모든 데이터를 수집하고, 이러한 객체의 데이터 크기에 따라 15분에서 몇 시간이 걸릴 수 있습니다. 2단계: 증분 로드는 모든 변경 사항(예: 새 레코드, 업데이트된 레코드 또는 삭제된 레코드)을 감지하여 대상에 적용합니다.
앞에서 선택한 각 객체는 데이터베이스의 해당 테이블에 저장되었습니다. 여기서는 데이터 소스에서 복제된 각 객체의 테이블 데이터를 볼 수 있습니다.
마지막으로 다음은 Salesforce의 데이터 뷰입니다. 새 엔터티가 생성되거나 Salesforce에서 기존 엔터티가 업데이트 또는 변경되면 데이터 변경 사항이 AWS Glue의 대상으로 자동으로 동기화됩니다.
정식 출시
제로 ETL 통합을 위한 Amazon SageMaker Lakehouse 및 Amazon Redshift 지원은 현재 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건), 아시아 태평양(홍콩), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(스톡홀름) AWS 리전에서 정식 출시되었습니다. 요금 정보는 AWS Glue 요금 페이지를 참조하세요.
자세히 알아보려면 AWS Glue 사용 설명서를 참조하세요. AWS re:Post for AWS Glue로 또는 AWS Support 담당자를 통해 피드백을 보내주세요. 지금 바로 새로운 제로 ETL 통합을 생성하여 시작하세요.
– Veliswa