資安產業都很喜歡收集資料,研究人員也不例外。有了更多資料,就能夠對特定威脅所發表的聲明更有信心。但是大量資料也需要更多的資源進行處理,要從高度非結構化的資料中提取有意義和有用的資訊是相當困難的。結果往往就是必須進行手動分析,迫使資安專家(如調查員、滲透測試工程師、逆向工程師、分析師)必須透過繁瑣且重複的操作過程來處理資料。
我們開發了一套基於開放原始碼資料庫的彈性工具能夠有效地分析數百萬筆被置換(defaced)網頁。它也可以被用在一般攻擊所產生的網頁。這套工具稱為DefPloreX(來自“Defacement eXplorer”),結合了機器學習和視覺化技術將非結構化資料轉化成有意義的高階描述。將來自資安事件、入侵、攻擊和漏洞的即時資料有效地處理和濃縮成可瀏覽的物件,適用於高效率的大規模電子犯罪鑑識和調查。
DefPloreX可以輸入包含了待分析網路事件後設資料紀錄(如網址)的純文字檔案(如CSV檔),用headless瀏覽器(無使用者介面的瀏覽器)瀏覽其資源,從置換網頁提取特徵,將產生的資料儲存到Elastic索引。分散式的headless瀏覽器及大規模的資料處理操作都是透過Celery(分散式任務協作的實際上標準)來協調。DefPloreX使用眾多Python資料分析技術和工具來建立資料的離線視圖(view),可以更易於分析和探索。
DefPloreX最有趣的地方是會自動將相似的置換網頁分群,並將網路攻擊事件組成攻擊活動。整個過程只需傳遞資料一次,我們所用的群集技術在本質上是進行平行處理而不受限於記憶體。DefPloreX提供文字和網頁兩種使用者介面,可以用簡單語言查詢以用在調查和鑑識上。因為它是基於Elastic Search,DefPloreX所產生的資料可以輕易地跟其他系統整合。
使用案例
下面是分析師如何利用DefPloreX來調查一起被稱為“Operation France”(在Twitter上使用“#opfrance”)攻擊活動的例子。這起攻擊活動是由網路穆斯林激進分子所運作,目的是支持激進伊斯蘭主義。
如圖1所示,該攻擊活動在4年間(2013-2016)攻擊了1,313個網站,主要是針對法國網域(圖2)。DefPloreX揭示了攻擊分子的組成以及攻擊所用的置換範本(圖3)。一些成員明確表示支持由伊斯蘭極端分子(如恐怖主義)對法國進行的攻擊(圖4)。



圖1-4、攻擊活動Operation France(#opfrance)的調查範例(點擊放大)
繼續閱讀