揭發 AI 代理的漏洞 (5-3):資料外傳

在本系列的第三篇文章,我們將示範多模態 AI 代理如何使得風險加劇,一些看似無害的圖片或文件當中暗藏的指令如何在沒有使用者互動的情況下觸發機敏資料外傳。

AI 代理有可能變成網路攻擊的入口嗎?駭客可能挾持可執行程式碼的大型語言模型 (LLM) 來執行有害指令嗎?Microsoft Office 文件中暗藏的指令有可能騙過 AI 代理,讓 AI 代理洩漏敏感的資料嗎?駭客有多容易篡改資料庫查詢敘述來取得管制的資訊?

這些都是 AI 代理今日面臨的一些根本挑戰。本系列文章討論 AI 代理的重大漏洞,深入揭發看似聰明的回應底下所潛藏的威脅。下載研究報告

主要重點

  • 間接提示注入 (indirect prompt injection) 手法使用外部來源 (如網頁、圖片和文件) 來暗中操弄 AI 代理。
  • 具備多模態輸入 (如文字和圖片) 解讀能力的 AI 代理越來越容易遭到內容當中隱藏的提示攻擊。這類漏洞可能導致機敏資料在無需使用者互動的情況下遭到外傳。
  • Pandora 概念驗證 (Proof-of-Concept) AI 代理示範了進階 AI 系統如何因為處理了 MS Word 文件暗藏的惡意內容而執行有害的指令,突顯出企業迫切需要服務層次的安全機制。
  • 企業必須強制執行嚴格的資安措施,包括:存取控管、進階過濾,以及即時監控系統,來防範 AI 驅動的系統發生資料外洩或執行未經授權的動作。

隨著 AI 系統日益融入我們的日常生活當中,間接提示注入 (indirect prompt injection) 已成為一項重大威脅。有別於直接的攻擊,這類注入動作通常來自看似無害的外部來源,例如:網頁和下載的文件,但卻能夠操弄 AI 代理來執行有害或非預期的動作。

這項漏洞起因於大型語言模型 (LLM) 本身的一項限制:他們無法分辨真正的使用者輸入與被駭客注入的惡意提示。因此,LLM 及 LLM 驅動的 AI 代理便特別容易遭遇到間接提示注入攻擊。

本文將示範多模態 AI 代理的如何使得這項風險加劇,一些看似無害的圖片或文件當中暗藏的指令如何在沒有使用者互動的情況下觸發機敏資料外傳。這突顯出企業迫切需要 AI 代理層次的安全機制以及主動式資安策略來防範隱藏在內容當中的提示攻擊。

趨勢科技的 研究報告針對這些問題以及其廣泛的影響提出了一份完整的分析。

本文是一系列探討真實世界 AI 代理漏洞並評估其潛在衝擊的第三篇文章。本系列其他文章還有:

  • 第一篇:揭發 AI 代理的漏洞 ─ 介紹 AI 代理的主要資安風險,例如:提示注入與執行未經授權的程式碼,並摘要說明後續討論的議題架構,包括:資料外傳、資料庫漏洞攻擊,以及防範策略。
  • 第二篇:程式碼執行漏洞 ─ 探討駭客將如何利用 LLM 驅動服務的弱點來執行未經授權的程式碼、避開沙盒模擬環境的限制,以及利用錯誤處理機制的漏洞,進而導致資料外洩、未經授權的資料傳輸,以及取得執行環境的永久存取權限。
  • 第四篇:資料庫存取漏洞 ─ 探討駭客如何攻擊與 LLM 整合的資料庫系統,透過 SQL 隱碼注入、預先儲存的提示注入,以及向量儲存下毒來取得管制的資料,同時還能避開認證機制。駭客可利用提示篡改來影響查詢結果、取得機密資訊,或者插入永久性漏洞來影響未來的查詢。

使用網頁、圖片和文件來間接注入提示

間接提示注入是一種隱匿的攻擊手法,駭客將惡意指令隱藏在外部資料 (如網頁內容、圖片或文件) 當中,藉此操弄 AI 的行為,而使用者卻渾然不知。這類攻擊通常分為:網頁式、圖片式、文件式三類。

網頁式攻擊

AI 代理在解讀網頁內容時會讀取到被嵌入的惡意提示 (例如:將記憶體內的資料傳送到駭客的電子郵件地址)。如果 AI 服務允許對外發送流量並提供電子郵件功能的話,一些機敏資訊 (如 API 金鑰或聯絡資訊) 就可能因而外洩。

圖片式攻擊 (Zero-click 零點選攻擊)

像 GPT-4o 這類多模態模型可擷取出隱藏在圖片中的文字 (甚至是看似空白的圖片)。當這類圖片被上傳時,AI 模型可能會在完全不經使用者介入的情況下執行有害的指令,造成嚴重的資安風險。

Figure 1. The injected prompt within a seemingly blank image (top), but contains hidden text (bottom)

Figure 1. The injected prompt within a seemingly blank image (top), but contains hidden text (bottom)
圖 1:看似空白的圖片當中被注入了提示 (上),但其實暗藏了文字 (下)。

文件式攻擊

ChatGPT 可支援文件上傳並從 Microsoft Word 這類應用程式取得其隱藏的文字。該模型甚至可以讀取在格式設定時被 (使用 CTRL+SHIFT+H 組合鍵) 標示為「隱藏」的文字,進而採取行動,所以駭客才能暗中注入提示。

以上情境突顯出嚴格的存取控管、監控以及提示檢查的重要性,這樣才能防止資料經由間接提示注入被外傳給駭客。

哪些資料可能面臨風險?

儲存在 LLM 服務內的機敏資料對駭客來說是相當有價值的目標,包括:使用者的對話內容、上傳的文件,以及系統被要求保留的永久性記憶。這類攻擊通常鎖定的資料類型包括:

  • 個人資料:姓名、電子郵件地址、電話號碼、社會安全碼 (SSN)。
  • 金融資訊:銀行資料、信用卡號碼。
  • 醫療記錄:受保護的醫療資訊 (PHI)。
  • 商業機密:商業機密、策略規劃、財務報表。
  • 認證憑證:API 金鑰、存取金鑰 (token)、密碼。
  • 上傳的檔案:機密商業文件、政府記錄、專利研究。

ChatGPT Data Analyst

暗藏指令的特製文件對於可執行程式碼的 AI 代理及工具來說是一項嚴重威脅,例如 ChatGPT 的 Data Analyst 功能。當這類檔案被上傳時,AI 代理服務可能會將內嵌的惡意內容當成正常的提示來解讀,進而在不知情的狀況下執行這些指令。這可能讓 AI 代理執行了非預期的腳本、讓駭客在未經授權的情況下存取使用者的資料,並且將資料編碼後傳送到外部地點。

例如,一個暗藏惡意提示的 Microsoft Word 文件可能導致 ChatGPT 執行了一段程式碼來擷取文件的內容。這是因為系統設定當中的程式碼執行功能已經被手動啟用。在正常情況下,這項功能預設為關閉,目的就是要避免暴露於風險。

儘管 AI 代理通常會建置一些安全機制,例如透過濫用偵測系統和過濾規則來禁止存取動態產生的網址,但駭客有可能避開這些機制。此外,駭客也可能利用知名或已遭駭入的網域來避開標準的黑名單機制,這樣一來惡意指令就能對外連線將資料外洩。

駭客可能利用已遭駭入的知名網域來避開既有的管制機制,帶來嚴重的資料安全疑慮。在缺乏服務層次安全機制的情況下,駭客就能成功藉由間接提示注入來將機敏資料外傳,這樣他們就能暗中盜取機密資訊而不被發現。

Figure 2. An example of a data exfiltration prompt
圖 2:資料外傳提示的範例。

圖 3:ChatGPT 執行一個特製 MS Word 文件中暗藏的指令。

Pandora

Pandora 是趨勢科技「前瞻威脅研究」(FTR) 團隊開發的一個概念驗證 (PoC) AI 代理,目的是要探索進階 AI 系統的新興資安風險。它提供了無限制執行程式碼以及存取網際網路的功能,全部在一個基於 Docker 的沙盒模擬環境當中。有了這些功能,它就能動態執行程式碼並與外部網址互動。

在我們的一個測試情境中,Pandora 在我們上傳了一個名為「CV – Actor.docx」的惡意 Word 文件之後,觸發了一個  MULTIMODAL_CONTEXT 事件。該事件會模擬 AI 系統 (如 ChatGPT) 處理上傳檔案的流程,讀取其內容並產生一個可感應情境的提示。

此文件內嵌了一段 Python 程式碼,這段程式碼接著被截取出來展示,證明系統的運作邏輯已處理並理解了這段內容。

圖 4:一個 MULTIMODAL_CONTEXT 事件 (紅色方塊中的文字就是從上傳檔案中擷取出來的內容)。

一旦惡意內容透過一個特製的使用者查詢啟動之後,內嵌的 Python 程式碼就會在 Pandora 的環境內執行。這將導致機敏資料被外傳到一個幕後操縱 (CC) 伺服器。

圖 5:觸發 Python 工具。

這段互動的最後,Pandora 回覆了一個「Task complete」(作業完成) 訊息,這是被注入的程式碼所要求的輸出。這個案例點出了一項關鍵洞察:就算是使用像 GPT-4o 這麼嚴格的基礎模型,假使沒有服務層次的防護,同樣也可能出現漏洞。Pandora 就是一個鮮活的例子,提醒我們除了基礎模型提供的安全機制之外,企業還需要更全面的防護。

結論

雖然 AI 代理和 LLM 能帶來龐大的潛力,但若缺乏適當的防護,同樣也可能遭人用於惡意攻擊。其中一項最迫切的安全疑慮就是間接提示注入,尤其若搭配多模態功能時,惡意內容就能避開傳統的防禦機制。

要解決這類挑戰,企業必須採取主動式作法,強制實施嚴格的存取控管、套用進階的內容過濾,並且部署即時監控系統。這些都是減輕資料外洩、未經授權動作以及其他 AI 相關漏洞攻擊風險的必要措施。

隨著 AI 系統越來越精密,相關的資安防護措施也必須跟進。想要安全又負責任地部署 AI 系統,不能單靠模型本身的功能,而是要在服務層次建置強大的安全機制來控管 AI 系統的使用。

解決間接提示注入威脅需要一套全方位的多層式方法。

企業應考慮建置以下防範措施:

  • 建置網路層次的控管來避免連上未經確認或可能有害的網址。
  • 部署精密的過濾機制來分析上傳內容以過濾暗藏的指令。
  • 使用光學字元辨識 (OCR) 和影像強化技術來偵測隱藏在圖片內的文字。
  • 利用審查系統與威脅偵測模型來發掘及清除內嵌的指令。
  • 淨化及預先處理使用者輸入來去除或隔離有潛在危險的提示內容。
  • 記錄所有的互動並主動監控 LLM 是否出現可能遭到攻擊的異常或可疑行為。

◎原文出處:Unveiling AI Agent Vulnerabilities Part III:Data Exfiltration. 作者:Sean Park (趨勢科技首席威脅研究員)