GPT-4 Turbo with Vision 개념

아티클
09/30/2024

GPT-4 Turbo with Vision은 이미지를 분석하고 이미지에 대한 질문에 대한 텍스트 응답을 제공할 수 있는 OpenAI에서 개발한 LMM(대형 다중 모드 모델)입니다. 이는 자연어 처리와 시각적 이해를 모두 통합합니다. 이 가이드에서는 GPT-4 Turbo with Vision의 기능 및 제한 사항에 대한 세부 정보를 제공합니다.

GPT-4 Turbo with Vision을 사용해 보려면 빠른 시작을 참조하세요.

비전을 사용하는 채팅

GPT-4 Turbo with Vision 모델은 업로드한 이미지 또는 동영상에 무엇이 있는지에 대한 일반적인 질문에 답합니다.

특별 가격 책정 정보

Important

가격 책정 세부 정보는 나중에 변경될 수 있습니다.

GPT-4 Turbo with Vision은 다른 Azure OpenAI 채팅 모델과 같은 요금이 발생합니다. 가격 책정 페이지에 자세히 설명된 프롬프트 및 완료에 대해 토큰당 요금을 지불합니다. 기본 요금 및 추가 기능은 다음과 같습니다.

GPT-4 Turbo with Vision의 기본 가격은 다음과 같습니다.

입력: 토큰 1000개당 $0.01
출력: 토큰 1000개당 $0.03

텍스트 및 이미지가 토큰으로 변환되는 방법에 대한 내용은 개요의 토큰 섹션을 참조하세요.

이미지 가격 계산 예제

Important

다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.

일반적인 사용 사례의 경우 표시되는 개체와 텍스트, 100개 토큰 프롬프트 입력이 모두 있는 이미지를 사용합니다. 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이미지에서 텍스트와 개체를 모두 검색할 수 있습니다. 이 트랜잭션의 가격은 다음과 같습니다.

Item	세부 정보	비용
텍스트 프롬프트 입력	100개 텍스트 토큰	$0.001
이미지 입력 예제(이미지 토큰 참조)	이미지 토큰 170개 + 85개	$0.00255
OCR에 대한 향상된 추가 기능	1000개 트랜잭션당 $1.50	$0.0015
개체 정보 제공에 대한 향상된 추가 기능	1000개 트랜잭션당 $1.50	$0.0015
출력 토큰	토큰 100개(가정)	$0.003
합계		$0.00955

비디오 가격 계산 예제

Important

다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.

일반적인 사용 사례의 경우 100개 토큰 프롬프트 입력이 포함된 3분 분량의 비디오를 시청하세요. 비디오에는 100개의 토큰 길이의 긴 대본이 있으며 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이 트랜잭션의 가격은 다음과 같습니다.

Item	세부 정보	비용
GPT-4 Turbo with Vision 입력 토큰	100개 텍스트 토큰	$0.001
프레임을 식별하는 추가 비용	입력 토큰 100개 + 토큰 700개 + 비디오 검색 트랜잭션 1개	$0.00825
이미지 입력 및 대본 입력	이미지 20개(각각 토큰 85개) + 대본 토큰 100개	$0.018
출력 토큰	토큰 100개(가정)	$0.003
합계		$0.03025

또한 이 3분 분량의 비디오에 대한 비디오 검색 인덱스를 생성하는 경우 1회 인덱싱 비용이 $0.15입니다. 이 인덱스는 횟수 제한 없는 비디오 검색 및 GPT-4 Turbo with Vision API 호출에서 재사용할 수 있습니다.

입력 제한 사항

이 섹션에서는 GPT-4 Turbo with Vision의 제한 사항에 대해 설명합니다.

이미지 지원

최대 입력 이미지 크기: 입력 이미지의 최대 크기는 20MB로 제한됩니다.
낮은 해상도 정확도: "낮은 해상도" 설정을 사용하여 이미지를 분석하면 응답 속도가 빨라지고 특정 사용 사례에 더 적은 입력 토큰이 사용됩니다. 그러나 이것은 이미지 내의 개체 및 텍스트 인식의 정확도에 영향을 미칠 수 있습니다.
이미지 채팅 제한: Azure OpenAI Studio 또는 API에서 이미지를 업로드하는 경우 채팅 호출당 10개의 이미지로 제한됩니다.

비디오 지원

낮은 해상도: 비디오 프레임은 비디오의 작은 개체 및 텍스트 인식의 정확도에 영향을 줄 수 있는 GPT-4 Turbo with Vision의 "낮은 해상도" 설정을 사용하여 분석됩니다.
비디오 파일 제한: MP4 및 MOV 파일 형식이 모두 지원됩니다. Azure OpenAI Studio에서 비디오의 길이는 3분 미만이어야 합니다. API를 사용하는 경우 이러한 제한이 없습니다.
프롬프트 제한: 비디오 프롬프트에는 하나의 비디오만 포함되고 이미지는 포함되지 않습니다. Azure OpenAI Studio에서 세션을 지우고 다른 비디오 또는 이미지를 사용해 볼 수 있습니다.
제한된 프레임 선택: 서비스는 전체 비디오에서 20개의 프레임을 선택하며, 모든 중요한 순간이나 세부 정보를 캡처하지는 않을 수도 있습니다. 프레임 선택 영역은 프롬프트에 따라 비디오에서 거의 균등하게 분산되거나 특정 비디오 검색 쿼리 시 초점 대상이 될 수 있습니다.
언어 지원: 이 서비스는 주로 대본에 영어로 정보를 제공하도록 지원합니다. 대본은 노래의 가사에 대한 정확한 정보를 제공하지 않습니다.

다음 단계

빠른 시작에 따라 GPT-4 Turbo with Vision 사용을 시작합니다.
API를 좀 더 자세히 살펴보고 채팅에서 비디오 프롬프트를 사용하려면 방법 가이드를 따르세요.
완료 및 포함 API 참조를 참조하세요.

다음을 통해 공유

GPT-4 Turbo with Vision 개념

비전을 사용하는 채팅

특별 가격 책정 정보

이미지 가격 계산 예제

비디오 가격 계산 예제

입력 제한 사항

이미지 지원

비디오 지원

다음 단계

피드백

추가 리소스