Azure OpenAI 的文本视频摘要

项目
10/09/2024

本文概述了 Azure AI 视频索引器的 Azure OpenAI 文本摘要。

什么是 Azure AI 视频索引器的文本视频摘要？

Azure AI 视频索引器简要概述了视频的内容，而无需观看整个视频。它旨在通过消化长视频并为你提供更短的格式来节省时间。就像有一个朋友看节目的所有情节，然后在几分钟内赶上情节。

该系统旨在成为一种支持工具，它通过将冗长的视频提取到简洁、可消化的摘要中来提高工作效率和学习能力。

它使用摘要算法来识别视频最相关的见解。它涉及基于他们对整体主题的重要性和相关性的评分见解。用户友好的界面允许你输入视频并自定义所需的摘要类型。

系统提供反馈选项，使它可以根据用户交互随时间推移学习和改进。

重要

系统不打算替换完整的查看，尤其是对于细节和细微差别 对做出负责任的决策至关重要的内容。此外，它并不旨在汇总高度敏感或机密的视频，其中上下文和隐私至关重要。

使用关键帧进行文本摘要

带关键帧的文本视频摘要使用视频中的关键帧来生成更全面的摘要。当有有限的音频内容（如听录）或需要更全面的摘要时，此功能特别有用。

用例

基于 AI 的视频摘要系统的预期用途是为用户提供快速高效的方法来了解较长视频的内容，而无需完全观看它们。下面是一些特定的预期用途：

学历。学生和教育工作者可以使用该系统来汇总讲座、研讨会或教育内容，使学习材料更易于访问，更易于审阅，并专注于关键学习点或定义。
公司。专业人员可以生成会议、演示文稿或培训课程的摘要，以突出显示会议中的决策、操作项目或要点。它提供快速回顾并确保不会错过重要信息。
媒体。 记者和广大市民可以使用该系统来获取新闻报道、纪录片或采访的精髓，在保持知情的同时节省时间。它把新闻或纪录片凝结成咬大小的作品，而不会失去叙述。
输出格式 可以设置摘要以使用不同的语言样式：中性、休闲或正式。还可以将摘要的长度设置为短或长。

限制

模型。不支持微调的模型。 Azure OpenAI（AOAI）中的微调模型是预先训练的 AI 模型，通过对个性化数据集进行训练，从而进一步优化了特定任务，从而提高了该特定应用程序的性能和准确性。
非英语语言。文本摘要针对英语进行优化。但是，它与正在使用的特定 GenAI 模型支持的所有语言兼容，即 GPT3.5 Turbo 或 GPT4.0。因此，当应用于非英语语言时，摘要的准确性和质量可能会有所不同。若要缓解此限制，请格外小心，并验证生成的摘要的准确性和完整性。
具有多种语言的视频。如果视频包含多种语言的语音，文本摘要可能难以准确识别视频中提供的所有语言。在对多语言视频使用文本视频摘要功能时，请注意此潜在限制。
高度专业化或技术视频。视频摘要 AI 模型通常针对各种视频（包括新闻、电影和其他常规内容）进行训练。如果视频高度专用或技术化，则模型可能无法准确提取视频摘要。
音频质量差或光学字符识别（OCR）的视频。文本摘要 AI 模型还依赖于音频（以及其他见解）从视频或 OCR 中提取摘要，以提取屏幕上显示的文本。如果音频质量不佳且未识别 OCR，则模型可能无法从视频中准确提取摘要。
具有低照明或快速运动的视频。在低照明中拍摄或具有快速运动的视频可能很难处理模型，从而导致性能不佳。
带有不常见的口音或方言的视频。 AI 模型通常根据各种语音（包括不同的口音和方言）进行训练。但是，如果视频包含在训练数据中表现不佳的口音或方言的语音，则模型可能难以从视频中准确提取脚本。
包含有害内容的视频。包含有害或敏感内容的视频可能会导致部分摘要，因为可能包含敏感内容或有害内容的部件可能被排除。

Arc 启用的 VI 的文本摘要

如果使用的是 Arc 扩展的 VI，则可以从 Web 门户中的视频页面生成摘要，并使用相同的功能（如自定义项），但无法更改模型部署。 相反，创建的每个新扩展都包含由Microsoft开发的本地 Phi-3-mini-4k-指令模型。向模型发出的请求不收取任何费用。

规范

支持的硬件：目前仅支持 Intel CPU 和 Nvidia GPU。
- CPU 测试： Standard_F64s_v2 （利用率：约 30-32 核）
- GPU 已测试： Standard_NC6s_v3
CPU 上视频长度的 46-57% 或 GPU 上的 15-17% 之间的平均运行时范围。

已知限制和已知问题

目前，在 AMD CPU 上运行 VI 可能会导致运行时明显更长，目前不受支持。
摘要功能由 AI 语言模型创建，用于提供一般概述。虽然我们的目标是准确性和可靠性，但内容可能不会完全封装原始材料的本质。建议在使用之前对摘要进行人工评审和编辑。不应将其视为专业或个性化建议。
摘要结果通常在每个汇总设置内保持一致。但是，编辑脚本或重新编制视频索引可能会导致不同的输出结果。
使用摘要设置时，中性样式有时可能类似于“正式”样式。休闲样式可能包括与内容相关的井号标签。此外，在某些情况下，“中等”长度摘要可能比“短”摘要短。
通常不汇总内容很少（如非常简短的视频）的视频，以缓解处理短输入时可能发生的潜在模型不准确情况。
摘要有时可能包含或引用提供给它的内部说明（称为“元提示”）。这可能包含排除有害内容的指令。
摘要的长度可能会影响从视频摘要中提取的详细信息级别。较长的摘要可能会导致包含不太具体的细节。
生成的摘要可能包含不准确之处，例如性别、年龄和其他个人特征的不正确标识。
如果原始视频包含不适当的内容，则视频摘要输出提取可能会受到以下方面的影响：它可能不完整，包含有关不当内容的免责声明，在某些情况下，它可能包括实际的不当引用，这些引用可能带有或没有免责声明。

透明度说明

有关文本摘要的使用方式的详细信息，请参阅文本摘要的透明度说明。

尝试文本视频摘要

请尝试使用文本视频摘要。

通过