利用機器學習協助識別網頁竄改(Web Defacement)

網頁竄改(web defacement) – 一種明顯改變網頁外觀的攻擊,特別在政治事件後會被駭客用來表達自己的政治立場。我們在進行許多研究時都會遇到。我們在之前的一篇文章裡探討了常見的網頁竄改活動,並在另一篇文章中強調了我們資安研究工具內的機器學習能夠協助電腦緊急應變小組(CERT/電腦資安事件應變小組(CSIRT)及網站管理員為此類攻擊做好準備。後者是出自我們最新報告「找出網頁竄改活動:使用DefPloreX-NG從竄改網頁取得深入了解」內的分析結果。在這裡我們會闡述為什麼機器學習能夠協助我們更好地分析理解駭客如何運作及組織起來。

利用DefPloreX-NG機器學習技術來幫忙

我們在2017年推出了DefPloreX,這是個可以用在大規模電子犯罪鑑識的機器學習(Machine Learning)工具。而今年,我們推出了DefPloreX-NG,這個版本整合了強化的機器學習演算法及新的視覺化範本。我們在最新的網頁竄改報告中實際地利用了DefPloreX-NG來分析19年來1,300萬份的網頁竄改記錄。資安分析師和研究人員也可以用它來即時識別正在進行的網頁竄改活動,甚至是新或未知的攻擊活動。增強且具備更多功能的工具組能夠更有效地從原始遭竄改網站過濾出可操作的情報。它可以自動識別和追蹤網頁竄改攻擊活動,為每起攻擊活動加上有意義的標籤。此外,它還可以更加輕鬆地排序和搜尋網站,像根據攻擊者或駭客組織、動機、內容或宣傳類型、頂級網域(TLD)、遭竄改網站類別(媒體等)等等標籤。這些很大程度地是經由機器學習的幫忙。

 

圖1、使用DefPloreX-NG自動分析遭竄改網頁

  • 歷史和即時資料集:在這次的研究中,我們使用來自五個主要網站的不重複網頁竄改紀錄。使用這些報導網站可以讓我們取得匯總自各來源(如共享計劃、CERT或受害組織等)的網頁竄改記錄。我們第一步要做的是確保使用的資料集值得信賴 [1],這代表我們必須用實際網站內容來排序而不只是用後設資料(metadata)。依據實際內容(如網站、圖像、竄改內容等)是得出有意義結論的關鍵。
  • 為無特徵資料集分配屬性:我們為資料集分配了屬性(網頁竄改事件的時間戳記,遭竄改網站的類別等)。從原始內容(如HTML內容、圖像或其他多媒體資料)中,我們提取出可以轉化為有用特徵的資訊。透過分配這些特徵可以讓我們取得視覺特徵(如圖像或主色),地域特徵(所使用的語言)與網域關聯(如出現跨域連結的比率等)。
  • 根據分配的特徵進行集群:接下來,我們根據提取的特徵將類似的竄改網頁分組為集群(參見圖2)。我們在這裡用機器學習進行資料分群。類似網頁會具有類似特徵,因此最終會集群在一起。集群可以讓我們將單一事件組織成同一系列的攻擊活動。因為我們的資料集包含數百萬筆記錄,每筆記錄具有數十個特徵,因此我們選擇了一種可以解決可用記憶體和時間限制的演算法。

 

注意:特徵工程是集群問題的核心。我們確定了可以提取來表示竄改網頁的特徵。

圖2、竄改網頁範例及提取給集群用的特徵

 

  • 集群(Clustering)與分類(Classification):我們使用的是無監督機器學習,也就是資料集群。缺乏基本事實是我們選擇資料集群作為分析系統核心的原因,每個竄改網頁都是一個代表一組數值和分類特徵的物件。
  • 標籤(Label):集群之後,我們標記集群並根據各種維度(如時間長度、攻擊者、目標、主題等)來視覺化攻擊活動。為了提供分析人員可解釋且具可讀性的集群竄改網頁視圖,我們將每個集群表示成一份簡明報告,包含了時間跨度(最舊和最新的竄改網頁)以及為該集群所建立有意義標籤的模式列表。透過工具所呈現出來的結果不僅讓我們能夠識別受監控正常網頁內的竄改網頁,也可以將不同系列的網頁竄改活動分辨開來。

 

根據共同屬性的發現

如前所述,DefPloreX-NG幫助分析人員從網頁竄改記錄分析得出細節,包括駭客團體的特性 – 從他們所針對的頂級網域到組織方式及運作模式。從這些分析中我們可以得出一些具體發現:

  • 網頁竄改者的訊息主題隨著時間推移而改變:為了了解駭客所留訊息如何隨著時間推移而改變,我們使用了一種稱為主題模型(topic modeling)的現成機器學習技術,這個技術被大量用於新分類以確定故事主題。主題模型演算法可以將大量資料(如遭竄改網頁)分類為小組高階概念或主題。這讓我們可以看出駭客所關心主題的演變,正如訊息所提到的主要用語所反映的那樣,這些主要用語也與攻擊時現實世界的事件有關。例如,「pope(教宗)」、「terror(恐怖)」、「country(國家)」、「marocain(摩洛哥)」和「turk(土耳其人)」在某些年是竄改網頁最常出現的用語,這與2005年教宗選舉秘密會議或2007年土耳其大選等事件相吻合。對常見主題的理解也讓我們可以對許多駭客的動機和隸屬關係做出一些推論。正如「marocain(摩洛哥)」和「terror(恐怖)」關鍵詞所揭示,許多駭客似乎將自己塑造成支持宗教或社會政治意識形態的網路積極份子。
  • 類似的目標和合作:具有類似目標的攻擊活動通常也會在政治目的和動機方面相重疊,揭示其背後的駭客可能如何合作。

 

注意:DefPloreX-NG分析顯示出九起攻擊活動,每起攻擊活動都代表有團隊或網頁竄改者參與。

圖3、與Charlie Hebdo(法國查理週刊)攻擊有關的攻擊活動概述

 

  • 駭客相重疊:我們從分析得出一個有意思的見解,這些攻擊活動背後的駭客可能是孤狼,但也經常會聯合起來或是臨時合作。例如當兩個竄改網頁使用許多相似的特徵(如字體大小、背景顏色、類似的顏色主題)時,可以看出與其他團體的合作。這種相似性是強有力的歸因指標,也可以讓分析人員對網頁竄改進行分組,並理解團體和個人駭客間的關係。我們依靠此指標來自動檢測和追蹤攻擊活動。
  • 團體與個人駭客:手動檢查數以千計竄改網頁後,我們發現現在的駭客不僅是孤單的“腳本小子”,而是傾向於團隊合作。幾乎有一半的網頁竄改攻擊(47%)背後駭客跟至少一個團體有關聯;其餘則獨自行動。很多時候,團隊名稱及其成員都會出現在竄改網頁的內容中。大多數攻擊(70%)是以聯合行動進行,而非孤狼駭客。
  • 持續時間與強度:DefPloreX-NG可根據其長期行為自動將攻擊活動標記為長期或激進。我們發現了長期和激進活動間的對比(見圖4)。每一格代表每年一起攻擊活動進行的攻擊次數。長期活動進行較慢且較長時間的攻擊,而激進活動會反應地域性事件(如恐怖攻擊),並且通常會在事件發生後幾天進行大規模攻擊。

圖4、長期活動(上)和最激烈的激進活動(下)

 

網頁竄改者會留下痕跡,我們展示了如何利用這些痕跡和機器學習來將單一網頁竄改事件以類似活動、類型和背後駭客來進行分類,自動分析數百萬個案例。我們採用資料驅動方法,並利用機器學習將非結構化資料轉換為有意義的高階描述。如果沒有自動化系統,要處理1,300萬筆記錄會相當地耗費時間和資源,想想看進行這樣任務所需的大量處理能力。我們在安全工具中使用機器學習不只是用來偵測,還可以基於大量情報來建造智能情報,可以用於研究或其他分析。

要了解更多關於DefPloreX-NG的資料及如何用它來分析網頁竄改活動,還有機器學習技術如何幫助我們進行分析,請參考我們最新的研究報告。

[1] 網頁竄改背後的駭客所自行提供的資料並不總是可靠,因為會有故意加入誤導性資訊的風險。

 

@原文出處:How Machine Learning Can Help Identify Web Defacement Campaigns