오늘은 최고의 인텔리전스와 업계 최고의 가격 대비 성능을 제공하는 차세대 최첨단 파운데이션 모델(FM)인 Amazon Nova를 발표하게 되어 매우 기쁩니다. 이 모델은 Amazon Bedrock에서만 독점적으로 사용할 수 있습니다.
Amazon Nova를 사용하여 거의 모든 생성형 AI 작업의 비용과 지연 시간을 줄일 수 있습니다. Amazon Nova를 기반으로 엔터프라이즈 워크로드에 최적화된 다양한 인텔리전스 클래스에서 복잡한 문서 및 동영상을 분석하고, 차트와 다이어그램을 이해하고, 매력적인 동영상 콘텐츠를 생성하고, 정교한 AI 에이전트를 빌드할 수 있습니다.
이미지와 텍스트를 처리해야 하는 문서 처리 애플리케이션을 개발하든, 대규모 마케팅 콘텐츠를 생성하든, 시각적 정보를 이해하고 이에 따라 조치를 취할 수 있는 AI 어시스턴트를 빌드하든, Amazon Nova는 이해와 창의적인 콘텐츠 생성이라는 두 가지 범주의 모델을 통해 필요한 인텔리전스와 유연성을 제공합니다.
Amazon Nova 이해 모델은 텍스트, 이미지 또는 동영상 입력을 받아들여 텍스트 출력을 생성합니다. Amazon 크리에이티브 콘텐츠 생성 모델은 텍스트 및 이미지 입력을 받아들여 이미지 또는 동영상 출력을 생성합니다.
모델 이해: 텍스트 및 시각적 인텔리전스
Amazon Nova 모델에는 다양한 요구 사항을 충족하도록 설계된 세 가지 이해 모델(네 번째 모델도 곧 제공될 예정)이 포함됩니다.
Amazon Nova Micro – Amazon Nova 모델 제품군 중 지연 시간이 가장 짧은 응답을 매우 저렴한 비용으로 제공하는 텍스트 전용 모델입니다. 컨텍스트 길이가 128K 토큰이고 속도와 비용에 최적화된 Amazon Nova Micro는 텍스트 요약, 번역, 콘텐츠 분류, 대화형 채팅 및 브레인스토밍, 간단한 수학적 추론 및 코딩과 같은 작업에서 탁월한 성능을 발휘합니다. 또한 Amazon Nova Micro는 정확도를 높이기 위해 미세 조정 및 모델 증류를 사용하여 독점 데이터에 대한 사용자 지정을 지원합니다.
Amazon Nova Lite – 이미지, 동영상 및 텍스트 입력을 매우 빠르게 처리하여 텍스트 출력을 생성하는 매우 저렴한 멀티모달 모델입니다. Amazon Nova Lite는 실시간 고객 상호 작용, 문서 분석 및 시각적 질문-답변 작업을 높은 정확도로 처리할 수 있습니다. 이 모델은 최대 300K 토큰 길이의 입력을 처리하고 단일 요청으로 여러 이미지 또는 최대 30분 분량의 동영상을 분석할 수 있습니다. 또한 Amazon Nova Lite는 텍스트 및 멀티모달 미세 조정을 지원하며 모델 증류와 같은 기술을 사용하여 사용 사례에 맞는 최상의 품질과 비용을 제공하도록 최적화할 수 있습니다.
Amazon Nova Pro – 다양한 작업에 대해 정확성, 속도 및 비용을 최적으로 조합한 고성능 멀티모달 모델입니다. Amazon Nova Pro는 최대 300K 입력 토큰을 처리할 수 있으며 복잡한 워크플로를 완료하기 위해 API와 도구를 직접 호출해야 하는 멀티모달 인텔리전스 및 에이전트 워크플로의 새로운 표준을 제시합니다. 시각적 질문 답변(TextVQA) 및 동영상 이해(VATEX)를 비롯한 주요 벤치마크에서 최첨단 성능을 제공합니다. Amazon Nova Pro는 시각적 정보와 텍스트 정보를 모두 처리하는 강력한 기능을 보여주며 재무 문서 분석에도 탁월합니다. 300K 토큰의 입력 컨텍스트를 사용하여 15,000줄 이상의 코드가 포함된 코드베이스를 처리할 수 있습니다. 또한 Amazon Nova Pro는 Amazon Nova Micro 및 Lite의 맞춤형 변형을 증류하는 교사 모델로도 사용됩니다.
Amazon Nova Premier – 복잡한 추론 작업을 수행하고 사용자 지정 모델을 분석하기 위한 최고의 교사로 사용할 수 있는 가장 유능한 멀티모달 모델입니다. Amazon Nova Premier는 아직 훈련 중이며 2025년 초 출시를 목표로 하고 있습니다.
Amazon Nova 이해 모델은 검색 증강 생성(RAG), 함수 직접 호출 및 에이전트 애플리케이션에서 탁월한 성능을 발휘합니다. 이러한 성능은 포괄적인 RAG 벤치마크(CRAG) 평가, 버클리 함수 직접 호출 리더보드(BFCL), VisualWebBench 및 Mind2Web의 Amazon Nova 모델 점수에 반영됩니다.
Amazon Nova가 기업에 특히 강력한 이유는 사용자 지정 기능 때문입니다. 정장을 맞춤 제작하는 과정으로 생각하면 됩니다. 고품질 파운데이션으로 시작하여 정확한 요구 사항에 맞게 조정하는 과정입니다. 텍스트, 이미지 및 동영상을 사용하여 모델을 미세 조정하여 업계의 용어를 이해하고 브랜드 톤에 맞게 조정하고 특정 사용 사례에 맞게 최적화할 수 있습니다. 예를 들어 법률 회사는 법률 용어와 문서 구조를 더 적절히 이해하도록 Amazon Nova를 사용자 지정할 수 있습니다.
Amazon Nova 제품 페이지에서 이러한 모델의 최신 벤치마크 점수를 확인할 수 있습니다.
창의적인 콘텐츠 생성: 컨셉 구현
Amazon Nova 모델에는 두 가지 크리에이티브 콘텐츠 생성 모델도 포함됩니다.
Amazon Nova Canvas – 복원, 향상, 배경 제거와 같은 다양한 편집 기능을 비롯해 스타일 및 콘텐츠를 정밀하게 제어하여 스튜디오 품질의 이미지를 생성하는 최첨단 이미지 생성 모델입니다. Amazon Nova Canvas는 질문에 대한 답변을 통해 텍스트-이미지 충실도 평가(TIFA), ImageReward 등의 주요 벤치마크 및 사람 평가에서 탁월한 성능을 발휘합니다.
Amazon Nova Reel – 최첨단 동영상 생성 모델입니다. Amazon Nova Reel을 사용하면 텍스트 프롬프트 및 이미지를 통해 짧은 동영상을 생성하고, 시각적 스타일과 속도를 제어하고, 마케팅, 광고 및 엔터테인먼트를 위한 전문가 수준의 동영상 콘텐츠를 생성할 수 있습니다. Amazon Nova Reel은 동영상 품질 및 동영상 일관성에 대한 사람의 평가에서 기존 모델을 능가합니다.
모든 Amazon Nova 모델에는 안전 제어 기능이 내장되어 있으며 크리에이티브 콘텐츠 생성 모델에는 책임 있는 AI 사용을 장려하는 워터마킹 기능이 포함되어 있습니다.
몇 가지 사용 사례에서 이러한 모델이 실제로 어떻게 작동하는지 살펴보겠습니다.
문서 분석을 위해 Amazon Nova Pro 사용
문서 분석의 기능을 시연하기 위해 AWS 설명서에서 생성형 AI 서비스 선택 의사 결정 가이드를 PDF 형식으로 다운로드했습니다.
먼저 Amazon Bedrock 콘솔 탐색 창에서 모델 액세스를 선택하고 새로운 Amazon Nova 모델에 대한 액세스를 요청합니다. 그런 다음 탐색 창의 플레이그라운드 섹션에서 채팅/텍스트를 선택하고 Amazon Nova Pro 모델을 선택합니다. 채팅에서 저는 의사 결정 가이드 PDF를 업로드하고 다음과 같이 질문하겠습니다.
이 문서의 요약을 100단어로 작성해 줘. 그런 다음 의사 결정 트리를 생성해 줘.
출력으로, 저의 지침에 따라 문서를 읽기 전에 미리 볼 수 있는 구조화된 의사 결정 트리를 생성합니다.
동영상 분석을 위해 Amazon Nova Pro 사용
동영상 분석을 설명하기 위해 두 개의 짧은 클립을 결합한 동영상을 준비했습니다(자세한 내용은 다음 섹션 참조).
이번에는
AWS SDK for Python(Boto3)을 사용하여
Amazon Bedrock Converse API로 Amazon Nova Pro 모델을 간접 호출하고 동영상을 분석해보겠습니다.
import boto3
AWS_REGION = “us-east-1”
MODEL_ID = “amazon.nova-pro-v1:0”
VIDEO_FILE = “the-sea.mp4”
bedrock_runtime = boto3.client(“bedrock-runtime”, region_name=AWS_REGION)
with open(VIDEO_FILE, “rb”) as f:
video = f.read()
user_message = “Describe this video.”
messages = [ { “role”: “user”, “content”: [
{“video”: {“format”: “mp4”, “source”: {“bytes”: video}}},
{“text”: user_message}
] } ]
response = bedrock_runtime.converse(
modelId=MODEL_ID,
messages=messages,
inferenceConfig={“temperature”: 0.0}
)
response_text = response[“output”][“message”][“content”][0][“text”]
print(response_text)
Amazon Nova Pro는 API로 업로드되거나(이전 코드에서와 마찬가지로) Amazon Simple Storage Service(Amazon S3) 버킷에 저장된 동영상을 분석할 수 있습니다.
스크립트에서 저는 동영상을 설명하도록 요청하겠습니다. 명령줄에서 스크립트를 실행하겠습니다. 결과는 다음과 같습니다.
동영상은 바다의 바위투성이 해안을 바라보는 것으로 시작해서 모래사장에서 놓여 있는 커다란 조개껍데기를 클로즈업하는 장면으로 넘어갑니다.
좀 더 자세한 프롬프트를 사용하여 동영상에서 객체 또는 텍스트와 같은 특정 정보를 추출할 수 있습니다. 참고로 Amazon Nova는 현재 동영상의 오디오를 처리하지 않습니다.
동영상 제작에 Amazon Nova 사용
이제 Amazon Nova Reel을 사용하여 텍스트 전용 프롬프트에서 시작한 다음 참조 이미지를 제공하는 동영상을 생성해보겠습니다.
동영상 생성에는 몇 분이 걸리기 때문에 Amazon Bedrock API에는 다음과 같은 세 가지 새로운 작업이 도입되었습니다.
StartAsyncInvoke – 비동기식 간접 호출 시작
GetAsyncInvoke – 특정 비동기식 간접 호출의 현재 상태 확인
ListAsyncInvokes – 상태 또는 날짜와 같은 선택적 필터를 사용하여 모든 비동기식 간접 호출의 상태 나열
Amazon Nova Reel은 카메라 확대/축소 또는 이동과 같은 카메라 제어 작업을 지원합니다. 이 Python 스크립트는 다음 텍스트 프롬프트를 사용하여 동영상을 생성합니다.
모래 속의 큰 조개 껍질을 클로즈업한다. 껍질 주위에는 잔잔한 파도가 흐른다. 밝기는 일몰 수준이다. 아주 가깝게 카메라로 확대한다.
첫 번째 간접 호출 후 스크립트는 동영상 생성이 완료될 때까지 주기적으로 상태를 확인합니다. 코드가 실행될 때마다 다른 결과를 얻기 위해 임의의 시드를 전달합니다.
import random
import time
import boto3
AWS_REGION = “us-east-1”
MODEL_ID = “amazon.nova-reel-v1:0”
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = “<BUCKET>”
video_prompt = “모래 속의 큰 조개 껍질을 클로즈업한다. 껍질 주위에는 잔잔한 파도가 흐른다. 밝기는 일몰 수준이다. 아주 가깝게 카메라로 확대한다.”
bedrock_runtime = boto3.client(“bedrock-runtime”, region_name=AWS_REGION)
model_input = {
“taskType”: “TEXT_VIDEO”,
“textToVideoParams”: {“text”: video_prompt},
“videoGenerationConfig”: {
“durationSeconds”: 6,
“fps”: 24,
“dimension”: “1280×720”,
“seed”: random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={“s3OutputDataConfig”: {“s3Uri”: f”s3://{S3_DESTINATION_BUCKET}”}}
)
invocation_arn = invocation[“invocationArn”]
s3_prefix = invocation_arn.split(‘/’)[-1]
s3_location = f”s3://{S3_DESTINATION_BUCKET}/{s3_prefix}”
print(f”nS3 URI: {s3_location}”)
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response[“status”]
print(f”Status: {status}”)
if status != “InProgress”:
break
time.sleep(SLEEP_TIME)
if status == “Completed”:
print(f”nVideo is ready at {s3_location}/output.mp4″)
else:
print(f”nVideo generation status: {status}”)
다음 스크립트를 실행하겠습니다.
Status: InProgress
. . .
Status: Completed
Video is ready at s3://BUCKET/PREFIX/output.mp4
몇 분 후 스크립트가 완료되고 Amazon Simple Storage Service(Amazon S3) 위치에 출력됩니다. AWS Command Line Interface(AWS CLI)를 사용하여 출력 동영상을 다운로드하겠습니다.
결과 동영상은 다음과 같습니다. 요청에 따라 카메라가 피사체를 확대합니다.
참조 이미지에 Amazon Nova Reel 사용
동영상 생성을 더 효과적으로 제어하기 위해 Amazon Nova Reel에 다음과 같은 참조 이미지를 제공할 수 있습니다.
이 스크립트는 참조 이미지와 카메라 동작(해안 풍경 위를 비행하는 드론의 시점)이 포함된 텍스트 프롬프트를 사용하여 동영상을 생성합니다.
import base64
import random
import time
import boto3
S3_DESTINATION_BUCKET = “<BUCKET>”
AWS_REGION = “us-east-1”
MODEL_ID = “amazon.nova-reel-v1:0”
SLEEP_TIME = 30
input_image_path = “seascape.png”
video_prompt = “drone view flying over a coastal landscape”
bedrock_runtime = boto3.client(“bedrock-runtime”, region_name=AWS_REGION)
#입력 이미지를 Base64 문자열로 로드합니다.
with open(input_image_path, “rb”) as f:
input_image_bytes = f.read()
input_image_base64 = base64.b64encode(input_image_bytes).decode(“utf-8”)
model_input = {
“taskType”: “TEXT_VIDEO”,
“textToVideoParams”: {
“text”: video_prompt,
“images”: [{ “format”: “png”, “source”: { “bytes”: input_image_base64 } }]
},
“videoGenerationConfig”: {
“durationSeconds”: 6,
“fps”: 24,
“dimension”: “1280×720”,
“seed”: random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={“s3OutputDataConfig”: {“s3Uri”: f”s3://{S3_DESTINATION_BUCKET}”}}
)
invocation_arn = invocation[“invocationArn”]
s3_prefix = invocation_arn.split(‘/’)[-1]
s3_location = f”s3://{S3_DESTINATION_BUCKET}/{s3_prefix}”
print(f”nS3 URI: {s3_location}”)
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response[“status”]
print(f”Status: {status}”)
if status != “InProgress”:
break
time.sleep(SLEEP_TIME)
if status == “Completed”:
print(f”nVideo is ready at {s3_location}/output.mp4″)
else:
print(f”nVideo generation status: {status}”)
다시 말하지만, AWS CLI를 사용하여 출력을 다운로드하겠습니다.
결과 동영상은 다음과 같습니다. 카메라가 참조 이미지에서 시작하여 앞으로 이동합니다.
책임 있게 AI 빌드
Amazon Nova 모델은 모델 개발 단계 전반에 걸쳐 고객 안전, 보안 및 신뢰에 중점을 두고 빌드되었으므로 고유한 사용 사례를 지원할 수 있도록 적절히 제어할 수 있을 뿐만 아니라 안심할 수 있습니다.
포괄적인 안전 기능과 콘텐츠 조정 기능을 내장하여 AI를 책임 있게 사용하는 데 필요한 제어 기능을 제공합니다. 생성된 모든 이미지와 동영상에는 디지털 워터마킹이 포함됩니다.
Amazon Nova 파운데이션 모델은 향상된 기능에 맞는 보호 기능을 갖추고 있습니다. Amazon Nova는 안전 조치를 확대하여 잘못된 정보, 아동 성 학대 자료(CSAM), 화학적, 생물학적, 방사학적 또는 핵(CBRN) 위험의 확산을 방지합니다.
알아야 할 사항
Amazon Nova 모델은 미국 동부(버지니아 북부) AWS 리전의 Amazon Bedrock에서 사용할 수 있습니다. Amazon Nova Micro, Lite 및 Pro는 교차 리전 추론을 통해 미국 서부(오리건) 및 미국 동부(오하이오) 리전에서도 사용할 수 있습니다. Amazon Bedrock과 마찬가지로 요금은 종량제 요금 모델을 따릅니다. 자세한 내용은 Amazon Bedrock 요금 페이지를 참조하세요.
차세대 Amazon Nova 이해 모델은 사용자의 언어를 구사합니다. 이러한 모델은 200개 이상의 언어로 콘텐츠를 이해하고 생성하며, 특히 영어, 독일어, 스페인어, 프랑스어, 이탈리아어, 일본어, 한국어, 아랍어, 중국어 간체, 러시아어, 힌디어, 포르투갈어, 네덜란드어, 터키어 및 히브리어 기능이 뛰어납니다. 즉, 언어 장벽에 대해 걱정하거나 리전별로 별도의 모델을 유지하지 않고도 진정한 글로벌 애플리케이션을 빌드할 수 있습니다. 크리에이티브 콘텐츠 생성을 위한 Amazon Nova 모델은 영어 프롬프트를 지원합니다.
Amazon Nova를 살펴보다 보면 점점 더 복잡해지는 작업을 처리할 수 있는 기능을 발견하게 될 것입니다. 이러한 모델을 사용하여 최대 300K 토큰의 긴 문서를 처리하고, 단일 요청으로 여러 이미지를 분석하고, 최대 30분 분량의 동영상 콘텐츠를 이해하고, 자연어를 기반으로 대규모 이미지 및 동영상을 생성할 수 있습니다. 따라서 이러한 모델은 빠른 고객 서비스 상호 작용부터 기업 문서의 심층 분석 및 광고, 전자 상거래 및 소셜 미디어 애플리케이션을 위한 자산 생성에 이르기까지 다양한 비즈니스 사용 사례에 적합합니다.
Amazon Bedrock과의 통합을 통해 배포 및 확장이 간편해집니다. Amazon Bedrock 지식 기반과 같은 기능을 활용하여 독점 정보로 모델을 개선하고, Amazon Bedrock Agent를 사용하여 복잡한 워크플로를 자동화하고, Amazon Bedrock Guardrails를 구현하여 책임 있는 AI 사용을 장려할 수 있습니다. 이 플랫폼은 대화형 애플리케이션을 위한 실시간 스트리밍, 대용량 워크로드의 일괄 처리, 상세한 모니터링을 지원하여 성능을 최적화합니다.
Amazon Nova로 빌드를 시작할 준비가 되셨나요? 지금 Amazon Bedrock 콘솔에서 새로운 모델을 사용해 보고, Amazon Bedrock 설명서의 Amazon Nova 모델 섹션을 방문하여 AWS re:Post for Amazon Bedrock에 피드백을 보내주세요. community.aws에서 심층적인 기술 콘텐츠와 함께 빌더 커뮤니티가 Amazon Bedrock을 어떻게 사용하고 있는지 알아볼 수 있습니다. 이러한 새로운 모델로 무엇을 빌드했는지 알려주세요!
– Danilo