Amazon Bedrock Guardrails, 이미지 지원을 통해 멀티모달 유해성 검출 지원(미리보기)

오늘은 Amazon Bedrock Guardrails의 이미지 지원을 통해 멀티모달 유해성 검출 평가판을 발표합니다. 이 새로운 기능은 텍스트뿐만 아니라 원하지 않는 이미지 콘텐츠를 탐지하고 필터링하여 사용자 경험을 개선하고 생성형 AI 애플리케이션에서 모델 출력을 관리하는 데 도움이 됩니다.

Amazon Bedrock Guardrails를 사용하면 원하지 않는 콘텐츠를 필터링하고, 개인 식별 정보(PII)를 삭제하고, 콘텐츠 안전 및 개인 정보 보호를 강화하여 생성형 AI 애플리케이션을 위한 보호 장치를 구현할 수 있습니다. 거부된 주제, 콘텐츠 필터, 단어 필터, PII 수정, 컨텍스트 그라운딩 검사, 자동 추론 검사(평가판)에 대한 정책을 구성하여 특정 사용 사례와 책임 있는 AI 정책에 맞게 보호 조치를 조정할 수 있습니다.

이번 출시로 이제 Amazon Bedrock Guardrails의 기존 콘텐츠 필터 정책을 사용하여 증오, 모욕, 성적, 폭력 등의 범주 전반에서 유해한 이미지 콘텐츠를 탐지하고 차단할 수 있습니다. 애플리케이션의 요구 사항에 맞게 낮은 값부터 높은 값까지 임계값을 구성할 수 있습니다.

이 새로운 이미지 지원은 이미지 데이터를 지원하는 Amazon Bedrock의 모든 파운데이션 모델(FM)은 물론 맞춤형으로 미세 조정된 모델을 가져온 경우에도 작동합니다. 또한 이 지원은 텍스트 및 이미지 양식 전반에 걸쳐 일관된 보호 계층을 제공하므로 책임 있는 AI 애플리케이션을 더 쉽게 빌드할 수 있습니다.

KONE의 전략적 파트너십 책임자 겸 부사장인 Tero Hottinen은 다음과 같은 사용 사례를 구상하고 있습니다.

지속적인 평가에서 KONE은 차세대 AI 애플리케이션 보호(특히 관련성 및 컨텍스트 그라운딩 검사, 멀티모달 보호 장치)에서 핵심 구성 요소 역할을 할 Amazon Bedrock Guardrails의 잠재력을 인식하고 있습니다. 이 회사는 제품 설계 다이어그램과 설명서를 애플리케이션에 통합할 계획이며, Amazon Bedrock Guardrails가 멀티모달 콘텐츠를 보다 정확하게 진단하고 분석하는 데 중요한 역할을 할 예정입니다.

작동 방식은 다음과 같습니다.

멀티모달 유해성 검출 작동
시작하려면 AWS Management Console에서 가드레일을 생성하고 텍스트나 이미지 데이터 또는 둘 다에 대한 콘텐츠 필터를 구성하세요. 또한 AWS SDK를 사용하여 이 기능을 애플리케이션에 통합할 수 있습니다.

가드레일 생성
콘솔에서 Amazon Bedrock으로 이동하여 가드레일을 선택합니다. 여기에서 새 가드레일을 생성하고 기존 콘텐츠 필터를 사용하여 텍스트 데이터뿐만 아니라 이미지 데이터도 탐지하고 차단할 수 있습니다. 텍스트나 이미지 콘텐츠 중 하나 또는 둘 다에 대해 콘텐츠 필터 구성 아래의 증오, 모욕, 성적, 폭력 범주를 구성할 수 있습니다. 불법 행위프롬프트 공격 범주는 텍스트 콘텐츠에 대해서만 구성할 수 있습니다.

사용할 콘텐츠 필터를 선택하고 구성한 후 가드레일을 저장하고 이를 사용하여 안전하고 책임 있는 생성형 AI 애플리케이션을 빌드할 수 있습니다.

콘솔에서 새로운 가드레일을 테스트하려면 가드레일을 선택하고 테스트를 선택합니다. 모델을 선택하고 간접 호출하여 가드레일을 테스트하거나 Amazon Bedrock Guardail 독립 ApplyGuardail API를 사용하여 모델을 간접 호출하지 않고 가드레일을 테스트하는 두 가지 옵션이 있습니다.

ApplyGuardrail API를 사용하면 결과를 처리하거나 사용자에게 제공하기 전에 애플리케이션 흐름의 어느 시점에서든 콘텐츠를 검증할 수 있습니다. 또한 API를 사용하여 기본 인프라에 관계없이 자체 관리형(사용자 지정) 또는 타사 FM의 입력과 출력을 평가할 수 있습니다. 예를 들어 API를 사용하여 Amazon SageMaker에서 호스팅되는 Meta Llama 3.2 모델이나 노트북에서 실행되는 Mistral NeMo 모델을 평가할 수 있습니다.

모델을 선택하고 간접 호출하여 가드레일 테스트
이미지 입력 또는 출력을 지원하는 모델(예: Anthropic의 Claude 3.5 Sonnet)을 선택합니다. 이미지 콘텐츠에 대해 프롬프트 및 응답 필터가 활성화되어 있는지 확인합니다. 그런 다음 프롬프트를 제공하고 이미지 파일을 업로드한 후 실행을 선택합니다.

이 예에서는 Amazon Bedrock Guardrails가 개입했습니다. 자세한 내용을 보려면 추적 보기를 선택합니다.

가드레일 추적은 상호 작용 중에 안전 조치가 어떻게 적용되었는지에 대한 기록을 제공합니다. 이 기록에서는 Amazon Bedrock Guardrails의 개입 여부와 입력(프롬프트)과 출력(모델 응답) 모두에 대해 어떤 평가가 이루어졌는지 보여줍니다. 이 예에서 콘텐츠 필터가 높은 정확도로 이미지에서 모욕 콘텐츠를 탐지했기 때문에 입력 프롬프트를 차단했습니다.

모델을 간접 호출하지 않고 가드레일 테스트
콘솔에서 가드레일 독립 API 사용을 선택하여 모델을 간접 호출하지 않고 가드레일을 테스트합니다. 입력 프롬프트를 검증할지 아니면 모델 생성 출력의 예를 검증할지를 선택합니다. 그런 후 이전 단계를 반복합니다. 이미지 콘텐츠에 대해 프롬프트 및 응답 필터가 활성화되어 있는지 확인하고 검증할 콘텐츠를 제공한 후 실행 을 선택합니다.

제가 데모에 동일한 이미지와 입력 프롬프트를 재사용하자 Amazon Bedrock Guardrails에서 다시 개입했습니다. 자세한 내용을 보려면 추적 보기를 다시 선택합니다.

평가판 사용해 보기
이미지 지원이 포함된 멀티모달 유해성 검출은 현재 미국 동부(북부 버지니아, 오하이오), 미국 서부(오리건), 아시아 태평양(뭄바이, 서울, 싱가포르, 도쿄), 유럽(프랑크푸르트, 아일랜드, 런던) 및 AWS GovCloud(미국 서부) AWS 리전의 Amazon Bedrock Guardrails에서 평가판으로 사용할 수 있습니다. 자세한 내용은 Amazon Bedrock Guardrails를 참조하세요.

오늘은 Amazon Bedrock 콘솔에서 멀티모달 유해성 검출 콘텐츠 필터를 사용해 보고 어떻게 생각하는지 알려주세요! 피드백은 AWS re:Post for Amazon Bedrock 또는 평소에 교류하는 AWS Support 담당자를 통해 보내주세요.

– Antje

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다