利用機器學習協助識別網頁竄改(Web Defacement)

網頁竄改(web defacement) – 一種明顯改變網頁外觀的攻擊,特別在政治事件後會被駭客用來表達自己的政治立場。我們在進行許多研究時都會遇到。我們在之前的一篇文章裡探討了常見的網頁竄改活動,並在另一篇文章中強調了我們資安研究工具內的機器學習能夠協助電腦緊急應變小組(CERT/電腦資安事件應變小組(CSIRT)及網站管理員為此類攻擊做好準備。後者是出自我們最新報告「找出網頁竄改活動:使用DefPloreX-NG從竄改網頁取得深入了解」內的分析結果。在這裡我們會闡述為什麼機器學習能夠協助我們更好地分析理解駭客如何運作及組織起來。

利用DefPloreX-NG機器學習技術來幫忙

我們在2017年推出了DefPloreX,這是個可以用在大規模電子犯罪鑑識的機器學習(Machine Learning)工具。而今年,我們推出了DefPloreX-NG,這個版本整合了強化的機器學習演算法及新的視覺化範本。我們在最新的網頁竄改報告中實際地利用了DefPloreX-NG來分析19年來1,300萬份的網頁竄改記錄。資安分析師和研究人員也可以用它來即時識別正在進行的網頁竄改活動,甚至是新或未知的攻擊活動。增強且具備更多功能的工具組能夠更有效地從原始遭竄改網站過濾出可操作的情報。它可以自動識別和追蹤網頁竄改攻擊活動,為每起攻擊活動加上有意義的標籤。此外,它還可以更加輕鬆地排序和搜尋網站,像根據攻擊者或駭客組織、動機、內容或宣傳類型、頂級網域(TLD)、遭竄改網站類別(媒體等)等等標籤。這些很大程度地是經由機器學習的幫忙。

 

圖1、使用DefPloreX-NG自動分析遭竄改網頁

繼續閱讀

機器學習有效攔截 95% 的垃圾郵件

2002 年,每天流通的垃圾郵件數量高達 24 億封。今日,這數字甚至已突破 3000 億之譜。2000 年代初期,垃圾郵件的內容大多以純文字為主,偶爾會冒充威而鋼廣告,且多由垃圾郵件散布者直接寄發,或者經由公開伺服器轉發。而收到信的使用者,其信箱開啟速度會變慢,網際網路連線速度也會受到影響。

機器學習技術能藉由分析大量的資訊或訓練資料來歸納出一些特徵,現在資安界整體已經能有效攔截 95% 的垃圾郵件,機器學習已成為攔截垃圾郵件的一項關鍵技術。

1978 年,美國國防部的先進研究計畫署網路 ARPANET 約有 400 多名使用者收到了一封有關新型電腦產品的郵件。原因是當時任職 Digital Equipment Corporation (DEC) 公司的一位行銷人員 Gary Thuerk 發現利用電子郵件在網路上宣傳電腦產品是個不錯的點子。雖然這些電子郵件確實引起了某些收件人的興趣,但也有部分人士不喜歡這類沒有署名的惱人廣告。幾年之後,網路資安界將這些不請自來的大量電子郵件產品或服務廣告統稱為「垃圾郵件」。

 

很不幸地,數十年前讓 Thuerk 意外成名的電子郵件行銷現在已被網路犯罪集團遠遠超越:2002 年,每天流通的垃圾郵件數量高達 24 億封。今日,這數字甚至已突破 3000 億之譜。在以往,數量如此龐大的垃圾郵件頂多就是讓系統效能變慢,但現在,垃圾郵件還會帶來一些意想不到的嚴重後果,尤其對企業更是如此,因為電子郵件已成為網路犯罪集團從事網路釣魚和其他惡意活動的主要途徑。

早期對抗垃圾郵件數量不斷成長的方法

自從第一封垃圾郵件在數十年前誕生至今,垃圾郵件的動機和散布方法已有大幅的演進。2000 年代初期,垃圾郵件的內容大多以純文字為主,偶爾會冒充威而鋼廣告,且多由垃圾郵件散布者直接寄發,或者經由公開伺服器轉發。而收到信的使用者,其信箱開啟速度會變慢,網際網路連線速度也會受到影響。為了解決這問題,垃圾郵件防護廠商開始提供出一些結合了雜湊碼與所謂「垃圾郵件特徵」的解決方案,讓 IT 人員可以手動撰寫一些過濾規則。

這項作法帶來了兩種結果:一方面,這的確發揮了正面效果:它擋掉了將近 50%  的垃圾郵件。但另一方面,專家也意識到,當面對每天平均高達 24 億封的垃圾郵件時,這樣的作法顯然效果有限。想像一下,若您已經深陷 30 英呎深的水池,就算抽掉 50% 的水,您還是會淹死。

當每天平均都有數十億封垃圾郵件時,光濾掉 50% 的垃圾郵件是沒用的。
當每天平均都有數十億封垃圾郵件時,光濾掉 50% 的垃圾郵件是沒用的。

垃圾郵件防護解決方案必須在垃圾郵件進入網路之前預先加以解決,如果等到郵件進來了再來處理,除了不切實際之外,更別說還必須面對潛在的風險。

為了提供更有效的垃圾郵件防護,業界已開始將希望寄託在機器學習技術,這項技術能藉由分析大量的資訊或訓練資料來歸納出一些特徵。其具體成果就是:現在資安界整體已經能有效攔截 95% 的垃圾郵件,因此機器學習已成為攔截垃圾郵件的一項關鍵技術。

運用機器學習偵測及攔截數十億封的垃圾郵件 繼續閱讀

機器學習如何發現 BrowseFox 大規模憑證濫用?

透過機器學習(machine learning)演算法趨勢科技發現了BrowseFox大規模的憑證簽章濫用,BrowseFox是被趨勢科技偵測為PUA_BROWSEFOX.SMC的潛在不必要程式(PUA),會非法注入彈出式廣告的廣告軟體外掛。儘管它用的是合法的軟體程序,但廣告軟體外掛可能會被駭客所利用,使用惡意廣告來將受害者導向惡意網站,進而不知不覺地下載了惡意軟體。根據分析,我們從200萬筆已簽章檔案所組成資料集內判斷出有大量的BrowseFox – 這些檔案的有效性和完整性已通過驗證。

機器學習如何發現 BrowseFox 大規模憑證濫用?

發現BrowseFox憑證濫用

我們是在準備2017年BlackHat亞洲大會演講時發現此憑證簽章濫用問題,原本是要展示如何將局部敏感雜湊(Local Sensitive Hashing, LSH)用於智慧/動態白名單(SHA1或MD5等加密雜湊完全不適用於此領域)。

在使用趨勢科技局部敏感雜湊(Trend Micro Locality Sensitive Hashing, TLSH)群集分析200萬筆簽章檔案組成的資料集時,我們確定許多群集(cluster)具有非常特殊和奇怪的特徵:群集檔案由許多不同簽章者(signer)簽章。許多合法軟體也會有這種情形,但跟BrowseFox相關聯的群集有另一個屬性;當我們針對簽章者建立群集圖時,這些群集形成一個約略的二分團。然後我們可以識別與該團相關的檔案,隨後將約25萬筆檔案標記為疑似BrowseFox。我們檢查了VirusTotal上的疑似樣本,發現了5,203筆檔案雜湊,並確定它們確實是BrowseFox。經過進一步的調查,我們發現這些檔案已經由519名不同的憑證簽章者簽章 註[1]。這似乎是BrowseFox的策略 – 建立新簽章實體來取得有效憑證。

正如之前在「探討(惡意)軟體下載的長尾現象」中所觀察到,已簽章檔案並不一定就非惡意。事實上,研究顯示有許多被下載的惡意軟體都是簽章過的。BrowseFox的調查結果進一步地凸顯出駭客如何濫用有效的憑證簽章者來散播惡意軟體。

在我們200萬筆已簽章執行檔所組成的資料集中,有大量檔案(24.4萬筆)屬於BrowseFox的惡意軟體或PUA檔案。這24.4萬筆檔案透過兩個嚴格的條件被識別為BrowseFox:首先,該檔案由這519個惡意簽章者之一所簽章,其次,它屬於其中一個BrowseFox群組。

在VirusTotal上所看到BrowseFox檔案簽章資訊

圖1、在VirusTotal上所看到BrowseFox檔案簽章資訊

 

圖1顯示從VirusTotal收集的BrowseFox樣本。簽章資訊內的根憑證所有者是VeriSign,它提供程式碼簽章服務。建立這檔案的實體或公司(也就是最終簽章者)是Sale Planet。也就是說這個BrowseFox PUA檔案也是由合法簽章者所簽章。

繼續閱讀

利用機器學習 (Machine Learning)標記未知檔案

趨勢科技研究人員的一項研究顯示下載的軟體檔案中有83%屬於未知或未經分類過的檔案,有些甚至已經出現超過兩年了。因為大多數惡意軟體威脅來自於下載事件,因此研究人員開發了具可讀性的機器學習系統,能夠成功地將未知檔案分類為正常或惡意。

這項研究利用在七個月內所收集的300萬份的網路下載事件作為資料集。這些事件利用多種趨勢科技內部系統及外部公開系統來標記以進行研究和分析。但只有不到17%的資料集能用傳統方法進行標記。

儘管這些未知檔案的普及率非常低,但研究結果發現有69%的電腦下載一個或多個可能為惡意軟體的未知軟體檔案。

 

利用機器學習來解開未知狀態

為了減少未知下載軟體的數量,趨勢科技研究人員開發了一套機器學習系統,這個系統會將對軟體檔案資訊和特徵的觀察結果自動產生出偵測規則。這套可據以行動的智慧系統分析下載軟體檔案的以下資訊:

  • 簽章者(Signer),憑證頒發機構(CA)以及下載檔案的封裝程式(packer)
  • 簽章者(Signer),憑證頒發機構(CA)以及下載程序的封裝程式(packer)
  • 下載程序的類別(瀏覽器,Windows,Java等)
  • 下載網域的熱門程度

繼續閱讀

什麼是機器學習 (Machine Learning)?

機器學習並非一時的噱頭,而是一種不需人為介入就能讓電腦自動學習資訊的技術。它利用演算法來吸收大量資訊 (也就是訓練資料),從中發掘一些獨特的模式,接著再分析這些模式,加以分類,進而對未曾見過的狀況做出預判。傳統的機器學習都是讓電腦學習如何解讀資訊,因為其資料都已經過人工標記,所以基本上,機器學習就是讓一個程式透過人工標記的資料模型來學習。

這項技術的獨特之處在於機器會培養出自己的直覺:藉由反覆接觸資料並從中歸納出規則,如此就不必每次都要針對新的狀況撰寫程式。但機器學習也不是沒有缺點:機器學習有可能出錯,因此應用時必須特別小心。1

在大數據當道的今日,機器學習顯得特別有用。我們日常當中每天都會接觸到機器學習,其應用包括:偵測電話語音當中的指令、Spotify 上的歌曲推薦、Amazon 上的購物推薦,還有 Waze 的最快路徑推薦等等。 繼續閱讀