你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

GPT-4 Turbo with Vision 概念

GPT-4 Turbo with Vision 是 OpenAI 开发的一个大型多模态模型 (LMM),可以分析图像,并为有关图像的问题提供文本回应。 它结合了自然语言处理和视觉理解。 本指南详细介绍 GPT-4 Turbo with Vision 的功能和限制。

若要试用 GPT-4 Turbo with Vision,请参阅快速入门

具有视觉的聊天

GPT-4 Turbo with Vision 可以回答上传的图像和视频内容的相关问题。

特殊定价信息

重要

定价详细信息将来可能会发生变化。

GPT-4 Turbo with Vision 与其他 Azure OpenAI 聊天模型一样会产生费用。 提示和完成需按令牌付费,详见定价页。 基本费用和附加功能如下所述:

GPT-4 Turbo with Vision 的基本定价为:

  • 输入:每 1000 个令牌 0.01 USDX
  • 输出:每 1000 个令牌 0.03 USDX

有关文本和图像如何转换为令牌的信息,请参阅概述的“令牌”部分

图像价格计算示例

重要

以下内容只是一个示例,价格将来可能会发生变化。

对于典型用例,使用可见对象和文本以及 100 令牌提示输入拍摄图像。 当服务处理提示时,它会生成 100 个输出令牌。 在图像中,可以检测文本和对象。 此事务的价格为:

详细信息 成本
文本提示输入 100 个文本令牌 $0.001
图像输入示例(请参阅图像标记 170 + 85 个图像标记 $0.00255
用于 OCR 的增强加载项功能 每 1000 个事务 1.5 美元 $0.0015
对象地面的增强加载项功能 每 1000 个事务 1.5 美元 $0.0015
输出令牌 100 个令牌(假定) 0.003 USDX
总计 $0.00955

视频价格计算示例

重要

以下内容只是一个示例,价格将来可能会发生变化。

典型用例使用 100 个令牌提示输入和 3 分钟的视频。 视频的脚本长度为 100 个令牌,当服务处理提示时,它将生成 100 个输出令牌。 此事务的定价如下:

详细信息 成本
GPT-4 Turbo with Vision 输入令牌 100 个文本令牌 $0.001
用于确定帧的附加成本 100 个输入令牌 + 700 个令牌 + 1 个视频检索事务 0.00825 USDX
图像输入和脚本输入 20 个图像(每个图像 85 个令牌) + 100 个脚本令牌 0.018 USDX
输出令牌 100 个令牌(假定) 0.003 USDX
总计 0.03025 USDX

此外,还有 0.15 美元的一次性索引成本,用于为此 3 分钟的视频生成视频检索索引。 可以跨任意数量的视频检索和 GPT-4 Turbo with Vision API 调用重复使用此索引。

输入限制

本部分介绍 GPT-4 Turbo with Vision 的限制。

图像支持

  • “最大输入图像大小”:输入图像的最大大小限制为 20 MB。
  • “低分辨率准确度”:使用“低分辨率”设置分析图像可以加快响应速度,且某些用例使用的输入令牌更少。 但是,这可能会影响对图像对象和文本识别的准确性。
  • 图像聊天限制:在 Azure OpenAI Studio 或 API 中上传图像时,每个聊天调用的限制为 10 个图像。

视频支持

  • “低分辨率”:使用 GPT-4 Turbo with Vision 的“低分辨率”设置来分析视频帧可能会影响对视频中小对象和文本识别的准确性。
  • “视频文件限制”:支持 MP4 和 MOV 文件类型。 在 Azure OpenAI Studio 中,视频长度必须小于 3 分钟。 使用 API 时没有此类限制。
  • 提示限制:视频提示仅包含一个视频,不包含图像。 可以在 Azure OpenAI Studio 中清除会话,输入其他视频或图像。
  • “有限的帧选择”:目前服务从整个视频中选择 20 帧,这可能无法捕获所有关键时刻或细节。 帧选择可以大致均匀地分布在整个视频中,也可以通过特定的视频检索查询集中选择,具体取决于提示。
  • “语言支持”:目前,系统主要支持英语以进行脚本定位。 脚本不提供有关歌词的准确信息。

后续步骤