利用預判式機器學習技術交叉關聯靜態與動態行為特徵,實現更快、更精準的惡意程式偵測

趨勢科技已開發出一種名為「TrendX Hybrid Model」的機器學習模型,採用前置訓練與訓練兩個階段來交叉關聯靜態與動態行為特徵,進而提升偵測率並減少誤判。

利用預判式機器學習技術交叉關聯靜態與動態行為特徵,實現更快、更精準的惡意程式偵測

數十年前,早在機器學習(Machine learning,ML)還未開始成為熱門話題之前,該技術就已證明能夠從大量的資訊當中找出一些非顯而易見的模式,並可對資料進行分類與叢集,還可經由一些演算法來提供預測。機器學習在現實生活中的應用極廣,其中最重要的領域之一就是網路資安,它可讓傳統網路資安解決方案更能有效偵測一些破壞性威脅,例如勒索病毒Ransomware,不讓它們有機會進入系統,讓企業省下時間和金錢,並確保商譽。

傳統上,機器學習大多用來處理一些歷史資料。讓電腦從一些經過人工標記的資料當中推導出結論。在網路資安領域,機器學習模型可被訓練來辨識惡意檔案與惡意程式長什麼樣子,藉由交叉關聯方式來協助發掘一些全新、從未發現或尚未被分類的威脅。

為了進一步拓展機器學習在網路資安領域的應用,趨勢科技已開發出一套採用兩階段訓練的機器模型來提升偵測率並減少誤判。這套名為「TrendX Hybrid Model」的模型讓我們不僅能偵測惡意程式,最重要的是可以預測行為。

同時採用靜態與動態方法偵測惡意程式的優缺點

一般來說,資安領域的機器學習模型在判斷未知檔案為惡性或良性時有兩種方法:靜態分析與動態分析 (也就是行為分析)。

靜態分析


收到一封挾帶惡意執行檔的電子郵件。

擷取此惡意執行檔的靜態特徵。

將這些特徵輸入靜態分析模型來進行交叉關聯和預測。


基本的靜態分析可提供快速的檔案分析而無需在系統內執行該檔案。機器學習可以根據檔案的靜態資訊或屬性來判斷檔案是惡性或良性。一些檔案的技術細節,如:雜湊碼、標頭資訊、可列印字串,以及檔案的類型和大小,都可作為檔案的基本特徵。

然而靜態分析並非每一次的判斷都正確,尤其在面對一些較精密的攻擊時。不過,這種方式雖然不夠完善,卻有著速度上的優勢。由於受檢驗的檔案不須被執行,因此可以更快取得其特徵資訊。

動態行為分析

收到一封挾帶惡意執行檔的電子郵件。

在沙盒模擬環境當中執行並觀察惡意執行檔,然後擷取其行為特徵。

找出執行檔的惡意行為特徵,然後輸入模型當中來改善其偵測能力。

所謂的動態分析,就是在沙盒模擬環境當中執行檔案來擷取檔案的行為特徵,達到更全面的惡意程式分析。這樣的動態分析可擷取的技術特徵包括:使用的程式開發介面 (API)、系統登錄機碼、網域名稱、IP 位址、檔案路徑,以及其他新增至系統或網路的檔案。此外,也可偵測其幕後操縱 (C&C) 連線通訊。

動態分析必須在沙盒模擬環境內執行被分析的檔案以觀察其行為,但惡意行為不一定會在程式執行後立刻出現。因此,有時要觀察久一點才能得到正確結果,所以有時候不是很理想,尤其在遇到較複雜的威脅時。有些威脅具備反制沙盒模擬偵測的能力,當它們發現自己在虛擬化環境中執行時,就會刻意隱藏其惡意行為,例如:Locky勒索病毒和無檔案式威脅 (如 Angler 漏洞攻擊套件) 即屬於這類複雜的威脅。

要在沙盒模擬環境中執行一個檔案不僅耗費時間,而且需消耗更多運算資源和成本。但事實就是事實:結合靜態分析的速度與動態分析的全面性,才是零時差攔截精密威脅並確保系統安全的關鍵。

TrendX Hybrid Model:前置訓練、訓練及預測階段

傳統的機器學習模型大多只包含「訓練」和「預測」兩個階段。但 TrendX Hybrid Model 光訓練階段就包含了兩個:「前置訓練」及「訓練」。其目的是要同時運用靜態與動態兩種分析來快速偵測惡意檔案,然後再加上第三個階段,也就是一般的「預測」階段。

前置訓練

蒐集並分析樣本以取得靜態與動態特徵。

對應靜態與動態特徵,將靜態與動態特徵配對並加以蒐集。

前置訓練階段採用的是趨勢科技Smart Protection Network™全球威脅情報網的大量已知樣本。此階段會擷取檔案的靜態特徵,並且在沙盒模擬環境內執行檔案以擷取其動態特徵。

接下來要對應所有擷取出來的特徵,找出哪些靜態特徵對應到哪些動態行為特徵。蒐集配對後的特徵,然後用來訓練一個名為「Network 1」的機器學習模型。

Network 1 是前置訓練階段的目標,也就是蒐集一組對應到動態行為特徵 (如檔案加密和檔案刪除等等) 的靜態特徵 (如病毒碼、雜湊碼等等)。

在這個階段,標記樣本的動作並不是那麼重要,重要的是找出哪些行為與哪些靜態特徵有關聯。

訓練

樣本的靜態特徵已擷取。

將這些靜態特徵與 Network 1 內的檔案靜態特徵做比對。

與 Network 1 檔案靜態特徵相關的動態特徵,可視為該樣本靜態特徵的假設行為 (pseudo-behavior)。

根據樣本的假設行為,將樣本判定為惡性或良性。

訓練階段是這套混合模型真正的機器學習階段。此階段使用包含靜態與動態特徵關聯的 Network 1 來分析某個樣本。前置訓練與訓練兩個階段中所使用的樣本不必是相同的檔案。

在這階段,訓練用的已知樣本不再需要透過沙盒模擬分析來了解其行為。而是使用 Network 1 當中的靜態特徵與其對應的行為來預測某個檔案是否為惡性,然後加以標註。此階段出來的結果稱為「Network 2」。

預測

經由電子郵件收到一個未知檔案。

將未知檔案送到 Network 1 內進行分析來擷取其靜態與動態特徵。

根據 Networks 1 和 Network 2 交叉關聯的結果來預測未知檔案是否為惡性。

在預測階段會合併運用 Network 1 和 Network 2 來預測某個未知檔案是惡性或良性。這樣的作法之所以特別實用的原因在於,所謂的惡性可以視環境而定,例如廣告程式在某些環境下可能該被判定成惡性,但在其他環境下則不然。

這套 TrendX Hybrid Model 機器學習模型正在美國申請專利 (美國專利申請編號:15/659,403),其目標是要利用機器學習來提供一種更快、更精準的惡意程式偵測機制。也因為同時運用了靜態與動態特徵來分析未知檔案,因此可以兼顧效率和準確度。

前置訓練和訓練階段兩者可以各自獨立開發、維護及強化,且由具備不同專長的專家來負責。除此之外,這樣的階段設計也較為穩定,不必為了維持模型的成效而經常更換。

面對不斷演變的威脅情勢,機器學習(Machine learning,ML)是一種相當不錯的抗衡工具。對網路資安來說,雖然它不是萬靈丹,但卻是整體跨世代威脅防禦策略當中有助於提升成效的一環。網路資安解決方案若能採納機器學習技術,將有助於更快、更精準地偵測惡意程式、攔截最新勒索病毒、防範利用社交工程技巧與零時差漏洞攻擊的電子郵件威脅。

原文出處:Faster and More Accurate Malware Detection Through Predictive Machine Learning