人工智慧 (AI)、機器學習 (ML)、大型語言模型 (LLM) 以及高效能運算 (HPC) 技術的日益普及,使得繪圖處理器 (GPU) 的安全越來越需要獲得重視
人工智慧 (AI)、機器學習 (ML)、大型語言模型 (LLM) 以及高效能運算 (HPC) 等技術的日益普及,使得繪圖處理器 (GPU) 的安全越來越需要獲得重視。GPU 是專為平行運算而設計,可同時執行數以千計的簡單運算工作,它能加快 AI、ML、LLM 及 HPC 應用程式的運行。有鑑於 GPU 在各種商業應用上扮演的關鍵角色,例如 AI、ML、LLM 及 HPC 即仰賴雲端 GPU 系統來運作,企業有必要為 GPU 設置一些專門的防護措施。
我們的研究報告「雲端 GPU 威脅以及它對 AI、HPC 與雲端運算的衝擊調查」(A Survey of Cloud-Based GPU Threats and Their Impact on AI, HPC and Cloud Computing) 深入探討了當前 GPU 面臨的威脅環境,並提出一些資安建議來解決這些資安挑戰。
隨著近年生成式AI技術發展,AI也成為駭客進行不法攻擊的幫手。企業須面對原本待解決的資安難題外,更陷入駭客社交工程攻擊手法更加快速及攻擊面不斷擴大的窘境。
趨勢科技將於Risk to Resilience「AI世代的資安風險管理」世界巡迴研討會中,說明新興風險管理策略以保持營運韌性。
➤ 把握最後席次,即刻報名 2024 Risk to Resilience World Tour
https://trend-tw.com/WorldTour2024_ownmedia/line0724-2/blog82658
GPU 的應用方式
原本仰賴本地端 GPU 來運作的企業,正移轉至雲端 GPU 來運作,原因有幾點:
- 雲端 GPU 的擴充性和彈性非常能夠應付運算效能需求上的暴起暴落。
- 雲端 GPU 讓使用者能用到市場上最新的 GPU 晶片,而按用量付費的雲端服務模式意味著使用者不需在前期投入大量的硬體與維護成本。
- 使用者在全世界各地都能取得共用的 GPU 資產,還可省去硬體管理的麻煩。
GPU 最大的資安疑慮
GPU 必須面對一大堆各式各樣的複雜威脅,有些元件 (包括運算單元與特殊功能單元) 還存在著駭客可能利用的漏洞。這份研究使用一個風險矩陣來說明 10 種 GPU 攻擊的可能性和衝擊:
威脅類型 | 風險程度 | 可能性 | 一般性衝擊 | 對雲端的衝擊 | 對 AI 的衝擊 | 對 HPC 的衝擊 |
GPU 旁路攻擊 (Side-Channel Attack) | 高 | 中:攻擊的可能性存在,但執行起來並不容易。 | 高:有可能導致重大資料外洩與資安事件。 | 高:有可能讓資料暴露在共用的環境中。 | 高:敏感的推理資料或模型內部細節可能有外洩的風險。 | 高:可能導致敏感的運算或模擬結果外流。 |
GPU Rootkit | 中 | 低:精密的攻擊,在嚴密監控的環境中比較不常發生。 | 高:可能因系統遭到入侵而造成深遠的影響。 | 高:可能躲避偵測並不斷入侵雲端服務。 | 高:會威脅到 AI 模型的完整性以及專屬資訊的機密性。 | 中:可能造成 HPC 工作中斷,實際衝擊視應用情境而定。 |
API 濫用與核心篡改 | 高 | 中:漏洞可能存在,駭客也許會利用這些漏洞。 | 高:可能造成嚴重的系統入侵與資料遭篡改。 | 中:可能導致漏洞被攻擊,可透過雲端平台的資安措施來防範。 | 高:直接的篡改可能破壞 AI 模型與資料。 | 高:直接影響運算工作的一致性與執行。 |
阻斷服務攻擊 | 高 | 高:這些攻擊很常見,而且可輕易發動。 | 高:造成服務中斷,可能導致重大損失。 | 高:直接衝擊服務可用性,影響眾多使用者。 | 高:可能造成 AI 服務停擺,嚴重影響服務可用性。 | 高:嚴重限制了運算資源的存取,造成營運中斷。 |
GPU 惡意程式或虛擬加密貨幣挖礦 | 中 | 高:惡意程式相當普遍,並且會攻擊任何可取得的資源。 | 中:主要是影響系統效能並導致成本。 | 高:消耗運算資源,導致成本增加、效能降低。 | 低:主要是消耗資源,不會造成直接衝擊,除非 AI 工作的資源非常吃緊。 | 低:與 AI 的情況類似,主要是資源被耗掉,直接衝擊不大。 |
攻擊 GPU 驅動程式中的漏洞 | 高 | 中:存在著漏洞,但修補與防範措施普及。 | 高:若遭入侵可能嚴重危害系統和資料的完整性。 | 中:雲端平台也許會防範其中的某些風險,但漏洞卻可能導致系統遭到入侵。 | 高:可能破壞 AI 流程的完整性與機密性。 | 高:未經授權的存取或工作中斷是一大威脅。 |
GPU 輔助程式碼加密編碼 | 中 | 低:需要特殊技巧,不像普通的惡意程式那樣常見。 | 中:可能阻礙資安分析,拖延事件回應速度。 | 中:讓雲端基礎架構內的惡意程式偵測變得複雜。 | 中:可能掩蓋惡意活動,影響 AI 模型的完整性。 | 中:可能隱藏未經授權的運算或資料篡改。 |
超速錯誤攻擊 (Overdrive Fault Attacks) | 中 | 低:需要實際手動執行或特殊的操弄技巧。 | 中:可能影響準確性或可靠性,本質上較具針對性。 | 低:很少發生在受到控管的雲端環境,但有可能透過硬體操弄發生。 | 中:某些攻擊可能會微妙地改變 AI 模型的輸出結果。 | 高:需要精確性的工作可能遭到破壞,影響關鍵結果。 |
vGPU 環境內的記憶體窺探 (Memory Snooping) / 跨虛擬機器 (VM) 攻擊 | 高 | 中:攻擊在虛擬化 GPU 上可能發生,尤其若組態設定不正確的話。 | 高:有可能造成嚴重的資料外洩和破壞機密性。 | 高:打破使用者之間的隔離,破壞雲端安全性。 | 高:AI 資料集和模型遭未經授權存取,帶來嚴重的機密性風險。 | 高:資料外洩是一大隱憂,尤其在共用的運算環境。 |
遭入侵的 AI 模型/木馬化 | 高 | 中:攻擊需仰賴模型派送管道與使用者的信任。 | 高:可能導致不正確或惡意的輸出結果,帶來嚴重後果。 | 中:雲端基礎架構也許不會直接受到衝擊,但可能影響模型的派送。 | 高:直接影響模型的完整性,導致不正確或惡意的判斷。 | 中:一開始的影響是間接衝擊,但對於可能影響 HPC 模型部署的環境將是個日益嚴重的隱憂。 |
防範雲端 GPU 所面臨的威脅
一套嚴密的防範措施,有助於強化雲端 GPU 環境防範網路攻擊的能力。大致上來說,資安團隊可採取以下措施作為多層式防禦策略的一環:
- 驅動程式與韌體的安全。持續更新 GPU 驅動程式和韌體到最新版本以隨時提防潛在的漏洞攻擊。
- GPU 用量監控與異常偵測。使用可偵測非典型 GPU 使用行為的監控工具,這類行為有可能是惡意活動的徵兆,例如:虛擬加密貨幣挖礦、阻斷服務 (DoS) 攻擊,或是資源遭到濫用。AI/ML 技術也可協助資安團隊偵測更多進階攻擊。
- 應用程式層次的資安措施。導入最佳實務原則來避免 GPU 加速應用程式遭受威脅,包括:安全的程式設計技巧、嚴格的輸入資料檢驗,以及強化 AI/ML 模型對抗資料下毒與躲避技巧的能力。
- 採用專門的硬體安全模組 (HSM) 來執行敏感的作業。使用專為提供更好的系統篡改與資料外洩對抗能力而設計的專用 HSM 而非一般通用 GPU 來處理關鍵加密作業或機密資料。
- 存取控管政策。實施嚴格的存取控管政策,包括:角色導向的存取控管 (RBAC) 與稽核機制。如此可確保唯有經過核准的人員和應用程式才有權限使用 GPU 資源。
- 教育訓練和意識提升。提升人員對使用雲端 GPU 的資安風險意識,並透過訓練計劃來教導他們如何辨別象徵 GPU 攻擊的可疑活動。
隨著 AI 與 HPC 部署環境的日益普及,企業須導入前瞻性作法來保護自己的 GPU 基礎架構,並結合網路資安工具和通過時間考驗的資安實務。防範 GPU 的威脅需要開發人員的密切配合,他們必須培養安全的程式撰寫習慣。此外,雲端服務供應商也應設置一些針對 GPU 設計的入侵偵測及異常偵測。
原文出處:Navigating the Threat Landscape for Cloud-Based GPUs
作者: Numaan Huq、Philippe Lin、Roel Reyes 與 Charles Perine