利用機器學習 (Machine Learning)標記未知檔案

趨勢科技研究人員的一項研究顯示下載的軟體檔案中有83%屬於未知或未經分類過的檔案,有些甚至已經出現超過兩年了。因為大多數惡意軟體威脅來自於下載事件,因此研究人員開發了具可讀性的機器學習系統,能夠成功地將未知檔案分類為正常或惡意。

這項研究利用在七個月內所收集的300萬份的網路下載事件作為資料集。這些事件利用多種趨勢科技內部系統及外部公開系統來標記以進行研究和分析。但只有不到17%的資料集能用傳統方法進行標記。

儘管這些未知檔案的普及率非常低,但研究結果發現有69%的電腦下載一個或多個可能為惡意軟體的未知軟體檔案。

 

利用機器學習來解開未知狀態

為了減少未知下載軟體的數量,趨勢科技研究人員開發了一套機器學習系統,這個系統會將對軟體檔案資訊和特徵的觀察結果自動產生出偵測規則。這套可據以行動的智慧系統分析下載軟體檔案的以下資訊:

  • 簽章者(Signer),憑證頒發機構(CA)以及下載檔案的封裝程式(packer)
  • 簽章者(Signer),憑證頒發機構(CA)以及下載程序的封裝程式(packer)
  • 下載程序的類別(瀏覽器,Windows,Java等)
  • 下載網域的熱門程度

利用PART規則學習演算法,研究人員開發了具備可讀性分類規則的具可讀性機器學習系統。它讓研究人員可以輕鬆地觀察、理解和分析結果,並不像其他機器學習演算法(如支援向量機(SVM)和神經網路)那樣無法了解。

開發出來的機器學習系統每月能夠產生1,500個新偵測規則,將未知的下載檔案數量減少了28%。(註:這是基於七個月資料的平均數字)

惡意軟體利用程式碼簽章和PUA來進行散播

未知檔案是未經標記過的檔案。標記檔案是相當重要的事情,讓惡意軟​體偵測系統能夠有效地保護端點,免受惡意檔案侵害。大多數的惡意軟體研究所提出的惡意軟體偵測和分類系統都僅基於可確認的樣本來進行評估,這很可能限制其在大規模應用上的能力。這也更加凸顯出有效率標記未知檔案的需求。

大多數作業系統和瀏覽器以及許多網路安全社群都使用的一種做法是利用程式碼簽章來識別軟體檔案,軟體的數位簽章可以用來區分正常軟體和惡意軟體。

然而駭客也會利用程式碼簽章來散播惡意軟體,這做法在過去幾年更加變本加厲。根據報導,去年有程式碼簽章憑證在暗網上以高達1,200美元的價格出售 – 比暗網上其他的產品(如竊盜信用卡資料和假身份證件)價格都高。

趨勢科技研究人員的研究結果也證實了濫用情況的嚴重,有66%的惡意軟體被簽章過,而正常軟體反而只有30.7%。這讓惡意檔案能夠繞過程式碼簽章驗證來感染電腦。

該研究還檢視了非必要的程式(PUA)以及為何它們比想像中為禍更大。根據研究,在機器受到感染時,PUA轉變成進階的惡意軟體。趨勢科技網路安全解決方案團隊在最近追踪了2017年下半開始的PUA散播活動。在安裝像ICLoader這樣的PUA軟體下載程式後,發現它們會推送惡意軟體及PUA。

這些PUA行為和程式碼簽章者的觀察資料被用於機器學習系統以標記未知檔案。

 

用於網路安全的機器學習

趨勢科技研究人員利用機器學習系統成功地標記了1,436,829個未知檔案的28.30% – 比現有方式能標記的增加了233%。這可以進一步加強未來惡意軟體偵測系統的能力,更好地保護電腦。

這套系統加入了機器學習的創新陣容,趨勢科技早從2005年就已經開始使用機器學習,以適應不斷變化的網路安全形勢。

隨著威脅的不斷冒出或演變,機器學習進展對網路安全解決方案來說十分必要。但儘管機器學習在識別和分析未知檔案方面有顯著的效果,並且能捕捉到新類型的勒索軟體以及偵測新惡意軟體變種,但它並非萬靈丹。機器學習必須成為多層次安全防禦的一環來發揮更大的效用。

趨勢科技的XGen™ 防護提供跨世代的混合威脅防禦技術來保護系統抵禦各種類型的威脅。它具備高保真機器學習功能來防護閘道端點,並保護實體、虛擬和雲端的工作機。使用網頁/網址過濾、行為分析和客製化沙盒等功能,讓XGen能夠抵禦今日特製來繞過傳統安全防護的惡意威脅,針對已知、未知或未披露的漏洞攻擊,竊取/加密個人的身份資料,或是進行惡意虛擬貨幣挖礦。智慧化、最佳化並且互相連結,XGen技術驅動趨勢科技一系列的安全解決方案:Hybrid Cloud SecurityUser ProtectionNetwork Defense

 

@原文出處:Naming the Unknown: Labeling Unknown Files Through Machine Learning