Azure AI Studio 安全評估的透明度資訊

發行項
10/16/2024

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。此預覽版本沒有服務等級協定，不建議將其用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

什麼是透明度資訊

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。建立適合其預期用途的系統，需要了解技術的運作方式、其功能和限制，以及如何達到最佳效能。 Microsoft 的透明度資訊目的在協助您了解 AI 技術的運作方式、系統擁有者可能會影響系統效能和行為的選擇，以及考慮整個系統的重要性，包括技術、人員和環境。您可以在開發或部署自己的系統時使用透明度資訊，或將該資訊與將使用或受到系統影響的人員共用。

Microsoft 努力將 AI 原則付諸實踐，而 Microsoft 的透明度資訊則是其中的一部分。若要深入了解，請參閱 Microsoft AI 準則。

Azure AI Studio 安全評估的基本概念

簡介

Azure AI Studio 安全評估可讓使用者針對文字內容風險評估其生成式 AI 應用程式的輸出: 仇恨和不公平的內容、性內容、暴力內容、自我傷害相關內容、越獄弱點。安全評估也可協助產生對抗資料集，以協助您加速和增強紅隊作業。 Azure AI Studio 安全評估反映了 Microsoft 對於確保 AI 系統安全且負責任建置的承諾，讓我們的負責任 AI 原則能夠運作。

關鍵字詞

仇恨和不公平的內容是指與個人和社會群體的仇恨或不公平表述相關的任何語言，其因素包括但不限於種族、民族、國籍、性別、性取向、宗教、移民身份、能力、個人外貌和身型大小。當 AI 系統不公平地處理或代表社會群體，從而造成或加劇社會不平等時，就會發生不公平的情況。
性內容包括與解剖器官和生殖器、浪漫關係、色情術語、懷孕、身體性行為 (包括攻擊或性暴力)、賣淫、色情和性虐待有關的語言。
暴力內容包括有關意圖損害、傷害、毀壞或殺死某人或某物之身體動作的語言。它還包括武器和槍支的描述 (以及製造商和關聯組織等相關實體)。
自我傷害相關內容包括有關意圖損害、傷害或毀壞自己身體或自殺行為的語言。
越獄、直接提示攻擊或使用者提示插入式攻擊，是指使用者操作提示，將有害的輸入插入 LLM 以扭曲動作和輸出。越獄命令的範例是 ‘DAN’ (立即執行任何動作) 攻擊，可誘使 LLM 產生不適當的內容，或忽略系統強加的限制。
瑕疵率 (內容風險) 定義為測試資料集中超越嚴重性級別閾值之執行個體佔整個資料集大小的百分比。
紅隊一詞過去用於描述測試安全性弱點的系統化對抗性攻擊。隨著大型語言模型 (LLM) 的興起，這個字詞不再侷限於傳統網路安全性領域，而是演變為描述 AI 系統多種探查、測試和攻擊的常見用法。使用 LLM 時，無論是良性或對抗性使用方式都可能造成潛在的有害輸出，包括許多不同輸出形式，例如仇恨演說、煽動或美化暴力或性內容等有害內容。

功能

系統行為

Azure AI Studio 會佈建 Azure OpenAI GPT-4 模型，並針對您的應用程式協調對立攻擊，以產生高品質的測試資料集。然後，它會佈建另一個 GPT-4 模型，以標註測試資料集的內容和安全性。使用者提供想要測試的生成式 AI 應用程式端點，而安全評估會針對該端點輸出靜態測試資料集，以及其內容風險標籤 (非常低、低、中、高) 和 AI 產生的標籤推理。

使用案例

預定用途

除了評估生成式 AI 應用程式的內容風險和越獄弱點之外，安全評估無意用於任何其他目的:

評估您的生成式 AI 應用程式預先部署：使用 Azure AI Studio 或 Azure AI Python SDK 中的評估精靈，安全評估可以自動化方式評估潛在內容或安全性風險。
增強您的紅隊作業: 使用對抗模擬器，安全評估可以模擬與生成式 AI 應用程式的對立互動，以嘗試找出內容和安全性風險。
向專案關係人傳達內容和安全性風險：使用 Azure AI Studio，您可以與稽核人員或合規性專案關係人共用對 Azure AI Studio 專案的存取權以及安全評估結果。

選擇使用案例時的考量

我們鼓勵客戶在其創新解決方案或應用程式中運用 Azure AI Studio 安全評估。不過，以下是選擇使用案例時的一些考量：

安全性評估應包含人機互動: 使用 Azure AI Studio 安全評估等自動化評估應包含人類檢閱者，例如領域專家，以評估您的生成式 AI 應用程式是否已在部署給終端使用者之前經過徹底測試。
安全評估不包含完整的涵蓋範圍: 雖然安全評估可以提供一種方法來增強測試潛在內容或安全性風險，但它並非設計來取代專為應用程式領域、使用案例和終端使用者類型而特別設計的手動紅隊作業。
支援的情節：
- 針對對立模擬: 問題解答、多回合聊天、摘要、搜尋、文字重寫、沒有根據和有根據的內容產生。
- 針對自動化註釋：問題解答和多回合聊天。
此服務目前最適合與英文網域一起使用，僅用於文字生成。未來版本將考慮包含多模型支援的其他功能。
安全評估中提供的內容風險涵蓋範圍是從有限數量的邊緣化群體和主題中二次抽樣的:
- 仇恨和不公平指標包括對性別 (例如男性、女性、非二元性別人群) 以及種族、血統、民族和國籍 (例如黑人、墨西哥人、歐洲人) 等人口統計因素的有限數量的邊緣化群體的覆蓋。並非所有性別和種族、血統、民族和國籍的邊緣化群體都涵蓋在內。與仇恨和不公平相關的其他人口統計因素目前尚未涵蓋 (例如殘疾、性、宗教)。
- 性、暴力和自我傷害相關內容的指標是基於這些傷害的初步概念化，這些傷害的發展不如仇恨和不公平。這表示我們可以對測量涵蓋範圍做出較不強烈的宣告，以及測量在多大程度上代表這些傷害可能發生的不同方式。這些內容類型的涵蓋範圍包括與性 (例如，性暴力、人際關係、性行為)、暴力 (例如虐待、傷害他人、綁架) 和自我傷害 (例如故意死亡、故意自殘、飲食失調)相關的有限主題。
Azure AI Studio 安全評估目前不允許外掛程式或擴充性。
為了保持品質在最新狀態並改善涵蓋範圍，我們將致力於在未來版本中改進服務的對抗模擬和註釋功能。

技術限制、操作因素和範圍

大型語言模型（LLM）領域會以快速的速度發展，需要持續改善評估技術，以確保安全且可靠的 AI 系統部署。 Azure AI Studio 安全評估反映了 Microsoft 承諾在 LLM 評估領域繼續創新。我們的目標是提供最佳工具，協助您評估生成式 AI 應用程式的安全性，但辨識有效評估是持續進行的工作。
Azure AI Studio 安全評估的自訂目前有限。我們只希望使用者提供其輸入生成式 AI 應用程式端點，而我們的服務將輸出標示為內容風險的靜態資料集。
最後，請注意，此系統不會自動執行任何動作或工作，它只會提供您生成式 AI 應用程式輸出的評估，此輸出應該由迴圈中的人類決策者檢閱，再選擇將生成式 AI 應用程式或系統部署到終端使用者的生產環境。

系統效能

改善系統效能的最佳做法

當您考慮網域時，可能會比其他內容更敏感地處理某些內容時，請考慮調整計算瑕疵率的閾值。
使用自動化安全評估時，您的 AI 產生的標籤有時會因內容風險或其推理嚴重性而發生錯誤。有一個手動人工意見反應資料行，可啟用自動化安全評估結果的人機互動驗證。

Azure AI Studio 安全評估的評估

評估方法

針對所有支援的內容風險類型，我們已在內部檢查品質，透過比較使用 0-7 嚴重性等級的標籤人員，與使用相同資料集上的 0-7 嚴重性等級的自動化標註工具之間的近似比對率。對於每個風險區域，我們都有標籤人員和自動標註工具標記 500 個英文單回合文字。標籤人員和自動化標註工具沒有使用完全相同版本的註釋指導方針; 雖然自動化標註工具的指導方針源於人類的指導方針，但它們在不同程度上出現了分歧 (仇恨和不公平準則的分歧最多)。儘管存在這些輕微到中等的差異，但我們相信，從近似相符的比較中分享一般趨勢和見解仍然很有用。在我們的比較中，我們尋找具有 2 級容錯的比對 (其中人工標籤完全符合自動化註釋工具標籤，或嚴重性低於 2 個級別）、符合 1 級容錯，以及符合 0 級容錯。

評估結果

整體而言，我們看到在所有容忍度下，自我傷害和性內容風險的近似比對率很高。針對暴力和仇恨和不公平性，容忍程度之間的近似比對率較低。這些結果部分原因是標籤人員的註釋指導方針內容與自動化標註工具的差異增加，部分原因是特定指導方針的內容和複雜度增加。

雖然我們的比較稍微用於適度不同註釋指導方針的實體之間 (因此不是標準的人類模型合約比較)，但是這些比較會根據其參數，提供我們可以預期從 Azure AI Studio 安全評估中獲得的品質估計。具體而言，我們只查看了英文樣本，因此我們的發現可能無法推廣至其他語言。此外，每個資料集範例只包含單一回合，因此需要更多實驗來驗證評估結果對多回合案例的普遍性 (例如，包含使用者查詢和系統回應的來回交談)。這些評估資料集中使用的樣本類型也可能大幅影響人工標籤與自動化註釋工具之間的近似比對率，如果樣本更容易標記 (例如，如果所有樣本都沒有內容風險)，我們可能會預期近似比對率會更高。用於評估的人工標籤的品質也可能影響我們調查結果的普遍性。

評估及整合 Azure AI Studio 安全評估以供使用

測量和評估您的生成式 AI 應用程式是 AI 風險管理整體方法的重要部分。 Azure AI Studio 安全評估是互補的，應該與其他 AI 風險管理做法搭配使用。領域專家和人機互動檢閱者在生成式 AI 應用程式設計、開發和部署週期中使用 AI 輔助安全評估時，應該提供適當的監督。您應該了解安全評估的限制和預定用途，請小心不要依賴 Azure AI Studio AI 輔助安全評估單獨所產生的輸出。

由於 LLM 的非決定性本質，您可能會遇到誤否定或正面結果，例如評分為「非常低」或「低」的暴力內容的高嚴重性層級。此外，評估結果對於不同的受衆可能有不同的意義。例如，安全評估可能會為暴力內容產生「低」嚴重性的標籤，該標籤可能與人工檢閱者對特定暴力內容定義的嚴重程度不一致。在 Azure AI Studio，在檢閱您的評估結果時，我們會提供一個人工意見反應資料行，其中包含贊成和反對的選項，以顯示哪些執行個體被人工檢閱者批准或標記為不正確。請考慮如何解譯結果以供其他人進行決策的內容，您可以與其他人共享評估，並以適當的審查層級來驗證您的評估結果，以瞭解每個生成式 AI 應用程式在環境中運作的風險層級。

共用方式為