機器學習有效攔截 95% 的垃圾郵件

2002 年,每天流通的垃圾郵件數量高達 24 億封。今日,這數字甚至已突破 3000 億之譜。2000 年代初期,垃圾郵件的內容大多以純文字為主,偶爾會冒充威而鋼廣告,且多由垃圾郵件散布者直接寄發,或者經由公開伺服器轉發。而收到信的使用者,其信箱開啟速度會變慢,網際網路連線速度也會受到影響。

機器學習技術能藉由分析大量的資訊或訓練資料來歸納出一些特徵,現在資安界整體已經能有效攔截 95% 的垃圾郵件,機器學習已成為攔截垃圾郵件的一項關鍵技術。

1978 年,美國國防部的先進研究計畫署網路 ARPANET 約有 400 多名使用者收到了一封有關新型電腦產品的郵件。原因是當時任職 Digital Equipment Corporation (DEC) 公司的一位行銷人員 Gary Thuerk 發現利用電子郵件在網路上宣傳電腦產品是個不錯的點子。雖然這些電子郵件確實引起了某些收件人的興趣,但也有部分人士不喜歡這類沒有署名的惱人廣告。幾年之後,網路資安界將這些不請自來的大量電子郵件產品或服務廣告統稱為「垃圾郵件」。

 

很不幸地,數十年前讓 Thuerk 意外成名的電子郵件行銷現在已被網路犯罪集團遠遠超越:2002 年,每天流通的垃圾郵件數量高達 24 億封。今日,這數字甚至已突破 3000 億之譜。在以往,數量如此龐大的垃圾郵件頂多就是讓系統效能變慢,但現在,垃圾郵件還會帶來一些意想不到的嚴重後果,尤其對企業更是如此,因為電子郵件已成為網路犯罪集團從事網路釣魚和其他惡意活動的主要途徑。

早期對抗垃圾郵件數量不斷成長的方法

自從第一封垃圾郵件在數十年前誕生至今,垃圾郵件的動機和散布方法已有大幅的演進。2000 年代初期,垃圾郵件的內容大多以純文字為主,偶爾會冒充威而鋼廣告,且多由垃圾郵件散布者直接寄發,或者經由公開伺服器轉發。而收到信的使用者,其信箱開啟速度會變慢,網際網路連線速度也會受到影響。為了解決這問題,垃圾郵件防護廠商開始提供出一些結合了雜湊碼與所謂「垃圾郵件特徵」的解決方案,讓 IT 人員可以手動撰寫一些過濾規則。

這項作法帶來了兩種結果:一方面,這的確發揮了正面效果:它擋掉了將近 50%  的垃圾郵件。但另一方面,專家也意識到,當面對每天平均高達 24 億封的垃圾郵件時,這樣的作法顯然效果有限。想像一下,若您已經深陷 30 英呎深的水池,就算抽掉 50% 的水,您還是會淹死。

當每天平均都有數十億封垃圾郵件時,光濾掉 50% 的垃圾郵件是沒用的。
當每天平均都有數十億封垃圾郵件時,光濾掉 50% 的垃圾郵件是沒用的。

垃圾郵件防護解決方案必須在垃圾郵件進入網路之前預先加以解決,如果等到郵件進來了再來處理,除了不切實際之外,更別說還必須面對潛在的風險。

為了提供更有效的垃圾郵件防護,業界已開始將希望寄託在機器學習技術,這項技術能藉由分析大量的資訊或訓練資料來歸納出一些特徵。其具體成果就是:現在資安界整體已經能有效攔截 95% 的垃圾郵件,因此機器學習已成為攔截垃圾郵件的一項關鍵技術。

運用機器學習偵測及攔截數十億封的垃圾郵件

趨勢科技從 2005 年起便開始運用機器學習技術來偵測及攔截垃圾郵件,這就是趨勢科技垃圾郵件防護引擎 (TMASE) 以及 Hosted Email Security (HES) 代管式電子郵件防護解決方案。隨著垃圾郵件的持續演進,從原本的純文字內容進化到包含影像、郵件退回技巧、附件檔案以及CAPTCHA 動態文字驗證等等,趨勢科技也運用高品質的訓練資料開發出更有效率的機器學習模型來加以反制。然後再搭配其他垃圾郵件防護層 (如:電子郵件信譽評等服務、IP 分析、複合式垃圾郵件防護引擎),機器學習演算法就能交叉關聯各種威脅情報並執行深度檔案分析,進而確實攔截並防止垃圾郵件進入企業網路。

機器學習與其他垃圾郵件防護方法結合, 能有效攔截大約 95% 的垃圾郵件。
機器學習與其他垃圾郵件防護方法結合, 能有效攔截大約 95% 的垃圾郵件。

TMASE 和 HES 讓企業因而節省網路頻寬、儲存空間以及其他資源。這些產品都內建機器學習技術與其他防護層,能超越那些受到硬體容量限制的傳統企業內部署資安防護引擎,因為垃圾郵件的數量實在龐大,而龐大的郵件也會減緩郵件的寄送速度。TMASE 和 HES 甚至不須在企業內安裝或維護任何硬體或軟體就能運作順暢。這表示,所有電子郵件相關的威脅全都被擋在網路外,讓 IT 人員節省時間、讓一般使用者發揮應有的生產力,也讓網路頻寬、郵件伺服器儲存空間以及 CPU 資源發揮最大效用。

當每日平均垃圾郵件數量在 2010 年暴增至 2,000 億封時,TMASE 與 HES 再加上其他內建機器學習技術的資安解決方案,更是輕鬆駕馭光靠雜湊碼和垃圾郵件特徵所無法應付的巨量垃圾郵件,從 2000 年代早期開始情況便是如此,到了 2010 年態勢更加明顯。

攔截其他威脅也同樣有效的策略

隨著機器學習的功效獲得證實,趨勢科技也因而取得了早期優勢,所以便開始著手研究未來可能出現的新式電子郵件威脅與惡意程式,並且預做防備。如同攔截垃圾郵件一樣,在第一時間攔截這些威脅對於網路安全可說至關緊要。機器學習已成為資安解決方案高效率偵測威脅所不可或缺的要素,因為它可預判進入系統的未知檔案是良性或惡性。儘管如此,但機器學習的偵測率不僅仰賴大量的訓練資料,更需仰賴準確且優質的標記資料。

在垃圾郵件防護引擎當中導入機器學習的作法,必須仰賴最先進的數學模型,相信經由不斷的重複訓練可以提升該模型的準確率,而且還要大量蒐集並準確標記訓練資料,這是整個流程當中的一大關鍵。憑著在網路資安產業的悠久歷史,趨勢科技的偵測引擎都是經過龐大優質資料訓練而成。其資料量不僅龐大,更是從數千萬個遍布全球的感應器所蒐集而來,而且經過 30 年來威脅專家的仔細研究和分類,品質絕對優良。

而這套方法也同樣能應用至變臉詐騙攻擊或稱為商務電子郵件入侵 (Business Email CompromiseBEC) 防護解決方案。採用這套方法的最新變臉詐騙防護技術就是趨勢科技的 Writing Style DNA (寫作風格 DNA)。這項技術能根據正常電子郵件使用者的寫作風格來辨識假冒郵件。它可利用專家規則和機器學習來分析電子郵件的行為、意圖及作者。這項技術背後的機器學習模型是經過含有 7,000 多項寫作特徵的精確標記資料歷練而成,例如:大小寫習慣、短字、標點符號、功能字、重複字、非重複字、句子長短、空白行等等。

機器學習:整體網路防禦的一大助力

最近幾年,我們經常看到企業機構因為各式各樣的威脅而蒙受財物損失、商譽損失以及業務中斷,其中當然包括了垃圾郵件所帶來的威脅。今日的現代化威脅不僅更加複雜,而且會不斷繁衍,所以像垃圾郵件這樣的舊式威脅也將不斷推陳出新。有鑑於機器學習的應用潛力,網路資安界勢必將繼續借助機器學習來提升系統與網路的防護。

不過,儘管機器學習確實能提高偵測率及攔截率,但很重要的一點是必須搭配其他的防護層使用才能發揮最佳效果。隨著垃圾郵件與其他威脅持續演進及繁衍,企業應盡可能採用多種網路資安技術。光靠單一解決方案很難能夠解決所有資安問題,一套多層式方法仍是最能有效防範各式各樣威脅的作法。

 

原文出處:Rising Above Spam and Other Threats via Machine Learning  作者Jon Oliver