具有提示的自動化人工審查

本文強調人工審查在 Power Automate 中部署使用 GPT 建立文字功能中的關鍵作用。 此功能利用 AI Builder 中的文字產生模型,由 Azure OpenAI 服務提供支援。 儘管這些模型非常有效,但它們有時會產生錯誤資訊或捏造的訊息,並且容易受到提示注入攻擊。

重要

提示注入攻擊

當協力廠商利用模型對所有輸入來源的固有信任時,就會發生提示注入攻擊。 攻擊者將提示注入到合法使用者要求 AI 解決方案進行互動的內容中,從而導致 AI 解決方案的輸出發生變化,並可能導致其動作發生變化。

例如,考慮以下情境:公民開發人員使用使用 GPT 建立文字動作來製定對從電子郵件、社群媒體或論壇等各種平台所收集客戶投訴的回應。 攻擊者可以將提示插入到這些來源的內容中。 這種情況可能會欺騙模型產生與預期不同的回應。 回應可能不適當、不正確或有害。 向客戶發送不正確的資訊可能會對公司的聲譽和客戶關係產生負面影響。

AI 模型中的捏造

捏造,也稱為幻覺,是 AI 模型 (包括文字產生模型) 面臨的另一個挑戰。 當 AI 模型並非基於提供的輸入或預先存在的資料產生資訊時,就會發生這種本質上是發明幻覺資訊的捏造現象。

例如,如果 AI 模型被要求根據指定的文字生成歷史事件摘要,它可能包括來源文字中未提及的細節或事件。 例如,流程會根據錄製的文字記錄建立會議概要。 輸入資料包括有關與會者、討論文章和所做決定的詳細資訊。 但是,該模型可能會產生一個摘要,其中包含會議中從未討論過的動作項目或決策。 這種情況就是捏造的例子,模型產生了輸入資料中不存在的幻覺資訊。

為了降低造假風險,實施負責任的 AI 實踐至關重要。 這包括對提示和流程進行嚴格測試,為模型提供盡可能多的基礎資訊,並最終實施強大的人工監督系統。

透過負責任的 AI 實踐來應對風險

我們提倡負責任的 AI 實踐,以此作為降低風險的手段。 儘管制定了適當的策略來調節模型產生的內容,但管理模型產生偽造回應或屈服於提示注入攻擊的傾向仍然是一個複雜的挑戰。 我們承認這些風險,並重申我們對人類監督和控制的承諾。

認識到無縫自動化的必要性,我們正在積極增強安全系統,並尋求更深入了解這些挑戰。 我們的目標是透過適當的安全措施進一步完善文字產生模型,符合負責任的 AI 設計原則,在可行的情況下將控制權歸還給開發人員。

負責任的 AI - 常見問題集