巨量資料(Big Data)分析如何識別網路釣魚惡意郵件?

作者:RungChi Chen

 網路釣魚(Phishing)是長期以來的問題,而且情況變得越來越糟。現在的釣魚郵件和正常郵件非常的相似,讓使用者和自動化系統都難以分辨。結果會讓使用者點入釣魚郵件內嵌的連結,被帶到會直接或間接竊取他們個人資料的惡意網站

這份研究報告介紹了趨勢科技新開發的技術,會關聯電子郵件格式和郵件傳送程式以偵測釣魚郵件。利用實際的例子來展示如何在趨勢科技主動式雲端截毒服務  Smart Protection Network技術的架構上使用「巨量資料(Big Data)分析」來主動識別網路釣魚郵件。讓我們可以在今日更加複雜的電子郵件威脅下保護我們的客戶。

2013年的網路釣魚:直接複製正常的郵件,只將連結稍作修改,導致真假難分

 2013年的網路釣魚比之前任何時候都更為先進和複雜。越來越難區分釣魚郵件和正常郵件。

最近來自LinkedIn的網路釣魚郵件樣本

圖一:最近來自LinkedIn的網路釣魚郵件樣本

 

 

來自Facebook的網路釣魚郵件樣本

圖二:最近來自Facebook的網路釣魚郵件樣本

 

攻擊者可能是直接複製正常的郵件,只是將連結稍作修改。這些連結會指向內藏漏洞攻擊包的惡意網站,以攻陷使用者的電腦。

內容的相似程度讓安全廠商很難依據內容去偵測和過濾郵件。過濾此類郵件可能會導致誤判問題,因為正常的電子郵件也可能會被錯判為「垃圾郵件」。根據內嵌網址來判斷郵件也變得很困難,因為它們的平均壽命都非常的短。註1

我們需要新技術去偵測這類精心製造的惡意郵件。本文所討論的技術使用了巨量資料分析,關聯大量垃圾郵件內的資料以確定其來源。註2

電子郵件認證狀況

有許多協定,包括網域簽章郵件識別(DKIM)和寄件者政策架構(SPF)被設計實行來確認寄件者和郵件的完整性。註3

上面所提到的這兩種機制是寄件者認證技術,可以幫助控制垃圾郵件,改善正常郵件寄送。DKIM在郵件加上公開金鑰加密。寄件者使用私密金鑰來簽章自己的郵件,並透過DNS來公布公開金鑰。當收件者收到聲稱來自特定公司的電子郵件時,他們會從DNS取得公開金鑰以檢查這電子郵件是否真的來自於該公司。應用DKIM可以幫忙解決釣魚問題。

然而,上述機制並無法解決垃圾郵件和釣魚郵件相關的所有問題,原因有三。首先,全球DKIM(35%)和SPF(63%)的採用率並不高。註4 其次,DKIM對於回覆電子郵件並不敏感,這代表有些網路釣魚郵件可以使用有效的DKIM簽章寄送。註5 最後,轉寄郵件會造成合理的簽名失敗率,高達4%。

郵件網路基礎

我們的方法是將郵件與寄送它們的IP地址進行關聯。在某些方面,它利用正常和釣魚郵件間的相似處以幫助我們。

我們開發了識別常見寄送電子郵件的方法。我們嘗試對每封郵件產生一個識別特徵碼。這特徵碼所考慮的要素包括寄件者地址的網域、格式結構、郵件內容以及是否有身份認證。被分類的電子郵件接著會與寄送它們的IP地址進行關聯。

 

 

圖三:IP地址和電子郵件的關係圖

 圖三:IP地址和電子郵件的關係圖

上圖呈現出有限數量內的郵件和IP地址間比較簡單的關係圖。實際的狀況可能會變得非常複雜。另一個有趣的問題是,哪些IP地址會被用來寄送類似的郵件。圖三是個郵件節點成為IP地址之間連結的簡化圖表。

 

圖三:IP地址和電子郵件的關係圖 簡化版

 圖四:圖三的簡化版本

 

在圖四內,如果任兩個IP地址送出去更多相似的電子郵件,它們之間的距離就會變得更短。相反地,如果送出較少的相似郵件,它們的距離會變得更遠。

 

建立上面圖表的圖形理論概念是 – 圖形密度和模組化。註6 圖表內的圖形密度用來檢視節點間彼此如何互相連接。這可以用來判斷網路內的某一特定區塊或整體網路是否良好的連接著。註7 圖形密度越接近一(最大值),代表某一特定節點「社區」更加組織化以及連接的更好。註8

 

在另一方面,模組化用以判斷網路可以如何被劃分成不同的群組。註9 理想上,同一群組或社區內的節點應該可以很好地彼此連接,但不一定要跟其他群組內的節點連接。

 

我們如何利用這些來偵測網路釣魚郵件?概念上,在連接良好而緊密社區內的節點(即IP地址)會寄送非常相似的郵件。也就是說,如果這社區以外的IP地址開始寄送類似的郵件,那就非常有可能是網路釣魚郵件。

實際結果

為了證明這技術多有效,我們檢視了一些趨勢科技所收集的真實數據。

5

圖五:來自真實世界資料所產生的部分圖表

 

不過這技術有各種可行性和限制。例如,它很容易發現有哪些組織網路利用特定格式來寄送大量電子郵件。我們可以用具體的特徵來標識四個不同的寄送郵件子社區。

要真正最大限度地發揮這些資料,應該盡可能地將其劃分成許多不同的社區。最終結果會比下圖還要更加巨大的多。

 

6

圖六:圖五的簡化版本,分為不同的社區

實驗結果

為了評估該技術多有效,我們選擇分析來自兩家公司的郵件 – LinkedIn和QQ,看是否所有的郵件真的來自他們。

首先,我們識別了超過780萬封電子郵件符合LinkedIn的特徵碼。其中約有99%來自和LinkedIn相關的IP地址。在這同時,剩下的1%則可能是釣魚郵件。

這數字在QQ則很糟。在我們所分析的將近五十萬封的郵件內,超過三分之二並非來自QQ。

 

識別出LinkedIn和QQ釣魚郵件的百分比,Incorrect Pass代表可疑電子郵件,Correct Pass代表正常郵件

圖七:識別出LinkedIn和QQ釣魚郵件的百分比,Incorrect Pass代表可疑電子郵件,Correct Pass代表正常郵件

 

這新開發的技術讓我們可以快速地識別網路釣魚郵件,特別那些更加複雜,和正常郵件極為相似的垃圾郵件。它讓我們可以對付那些試圖複製正常郵件做為其惡意用途的垃圾郵件發送者。這是個對抗今日更加複雜攻擊非常有用的強大技術。

可能的誤判情境

如果採用本文所提出的機制,可能會在高流量網站開始使用新的郵件傳送程式(MTA)時出現誤判。MTA就是利用主從應用程式架構註10將郵件從一台電腦傳到另外一台的程式,安全研究分析人員需要一段時間來觀察新MTA如何運作。只有從新MTA取得足夠的電子郵件後,才可以將其加入和特定高流量網站相關的現有社區。

有兩種方法可以幫助減少誤判率。第一種依靠電子郵件特徵和其主要網域的關係,而非原有的電子郵件特徵和IP地址間的對應。新MTA的主要網域通常會和現有MTA的一樣。也可以使用沙箱技術。這可以確保這技術偵測的可疑電子郵件已經在沙箱分析過以偵測惡意軟體或惡意/欺騙性內容,無論MTA是什麼。

結論

利用巨量資料分析來偵測網路釣魚郵件是開發來對付日益增加、酷似正常的惡意電子郵件威脅。這方法不僅有助於偵測網路釣魚郵件,也讓安全公司(像是趨勢科技)可以更容易偵測和正常郵件非常相似的釣魚郵件。不過,要達到這一點,必須要先對巨量資料以及現今的威脅知識有所了解。

趨勢科技已經使用了巨量資料(Big Data)分析,讓我們可以更佳地保護我們的客戶,免於各種不同的電子郵件攻擊。

註:

  1. Rod Rasmussen and Greg Aaron. (October 2012). “Global Phishing Survey: Trends and Domain Name Use in 1H2012.” Last accessed June 20, 2013, https://docs.apwg.org/reports/APWG_GlobalPhishingSurvey_1H2012.pdf.
  2. TechTarget. (January 10, 2012). SearchBusinessAnalytics. “Big Data Analytics.” Last accessed August 5, 2013, https://searchbusinessanalytics.techtarget.com/definition/big-data-analytics.
  3. DKIM.org. “DomainKeys Identified Mail (DKIM).” Last accessed August 5, 2013, https://www.dkim.org/; Openspf.org. “Sender Policy Framework: Project Overview.” Last accessed August 5, 2013, https://www.openspf.org/.
  4. Lars Eggert. (Last updated May 30, 2012). DKIM Deployment Trends. Last accessed August 5, 2013, https://eggert.org/meter/dkim; Lars Eggert. (Last updated May 30, 2012). SPF Deployment Trends. Last accessed August 5, 2013, https://eggert.org/meter/spf.
  5. Douglas Otis. (June 14, 2011). TrendLabs Security Intelligence Blog. “Possible Phishing with DKIM.” Last accessed August 5, 2013, https://blog.trendmicro.com/trendlabs-security-intelligence/possible-phishing-with-dkim/.
  6. Wikimedia Foundation, Inc. (Last updated June 7, 2013). Wikipedia. “Graph Theory.” Last accessed August 5, 2013, https://en.wikipedia.org/wiki/Graph_theory.
  7. Wikimedia Foundation, Inc. (Last updated June 6, 2013). Wikipedia. “Dense Graph.” Last accessed August 5, 2013, https://en.wikipedia.org/wiki/Dense_graph.
  8. Wikimedia Foundation, Inc. (Last updated June 12, 2013). Wikipedia. “Community Structure.” Last accessed August 5, 2013, https://en.wikipedia.org/wiki/Community_structure.
  9. Wikimedia Foundation, Inc. (Last updated May 27, 2013). Wikipedia. “Modularity (Networks).” Last accessed August 5, 2013, https://en.wikipedia.org/wiki/Modularity_(networks).
  10. Wikimedia Foundation, Inc. (Last updated July 17, 2013). Wikipedia. “Message Transfer Agent.” Last accessed August 5, 2013 https://en.wikipedia.org/wiki/Message_transfer_agent.

參考文獻

 

 

原文來源:

https://www.trendmicro.com/cloud-content/us/pdfs/security-intelligence/white-papers/wp-email-correlation-and-phishing.pdf