你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

GPT-4 Turbo with Vision 概念

GPT-4 Turbo with Vision 是 OpenAI 开发的一个大型多模态模型 (LMM)，可以分析图像，并为有关图像的问题提供文本回应。它结合了自然语言处理和视觉理解。本指南详细介绍 GPT-4 Turbo with Vision 的功能和限制。

若要试用 GPT-4 Turbo with Vision，请参阅快速入门。

具有视觉的聊天

GPT-4 Turbo with Vision 可以回答上传的图像和视频内容的相关问题。

重要

定价详细信息将来可能会发生变化。

GPT-4 Turbo with Vision 与其他 Azure OpenAI 聊天模型一样会产生费用。提示和完成需按令牌付费，详见定价页。基本费用和附加功能如下所述：

GPT-4 Turbo with Vision 的基本定价为：

有关文本和图像如何转换为令牌的信息，请参阅概述的“令牌”部分。

重要

以下内容只是一个示例，价格将来可能会发生变化。

对于典型用例，使用可见对象和文本以及 100 令牌提示输入拍摄图像。当服务处理提示时，它会生成 100 个输出令牌。在图像中，可以检测文本和对象。此事务的价格为：

重要

以下内容只是一个示例，价格将来可能会发生变化。

典型用例使用 100 个令牌提示输入和 3 分钟的视频。视频的脚本长度为 100 个令牌，当服务处理提示时，它将生成 100 个输出令牌。此事务的定价如下：

此外，还有 0.15 美元的一次性索引成本，用于为此 3 分钟的视频生成视频检索索引。可以跨任意数量的视频检索和 GPT-4 Turbo with Vision API 调用重复使用此索引。

本部分介绍 GPT-4 Turbo with Vision 的限制。

“低分辨率”：使用 GPT-4 Turbo with Vision 的“低分辨率”设置来分析视频帧可能会影响对视频中小对象和文本识别的准确性。
“视频文件限制”：支持 MP4 和 MOV 文件类型。在 Azure OpenAI Studio 中，视频长度必须小于 3 分钟。使用 API 时没有此类限制。
提示限制：视频提示仅包含一个视频，不包含图像。可以在 Azure OpenAI Studio 中清除会话，输入其他视频或图像。
“有限的帧选择”：目前服务从整个视频中选择 20 帧，这可能无法捕获所有关键时刻或细节。帧选择可以大致均匀地分布在整个视频中，也可以通过特定的视频检索查询集中选择，具体取决于提示。
“语言支持”：目前，系统主要支持英语以进行脚本定位。脚本不提供有关歌词的准确信息。