2002 年,每天流通的垃圾郵件數量高達 24 億封。今日,這數字甚至已突破 3000 億 之譜。2000 年代初期,垃圾郵件的內容大多以純文字為主,偶爾會冒充威而鋼廣告 ,且多由垃圾郵件散布者直接寄發,或者經由公開伺服器轉發。而收到信的使用者,其信箱開啟速度會變慢,網際網路連線速度也會受到影響。
機器學習 技術能藉由分析大量的資訊或訓練資料來歸納出一些特徵,現在資安界整體已經能有效攔截 95% 的垃圾郵件,機器學習已成為攔截垃圾郵件的一項關鍵技術。
1978 年,美國國防部的先進研究計畫署網路 ARPANET 約有 400 多名使用者收到了一封有關新型電腦產品的郵件。原因是當時任職 Digital Equipment Corporation (DEC) 公司的一位行銷人員 Gary Thuerk 發現利用電子郵件 在網路上宣傳電腦產品是個不錯的點子。雖然這些電子郵件確實引起了某些收件人的興趣,但也有部分 人士不喜歡這類沒有署名的惱人廣告。幾年之後,網路資安界將這些不請自來的大量電子郵件 產品或服務廣告統稱為「垃圾郵件」。
很不幸地,數十年前讓 Thuerk 意外成名的電子郵件行銷現在已被網路犯罪集團遠遠超越:2002 年,每天流通的垃圾郵件數量高達 24 億封。今日,這數字甚至已突破 3000 億 之譜。在以往,數量如此龐大的垃圾郵件頂多就是讓系統效能變慢,但現在,垃圾郵件還會帶來一些意想不到的嚴重後果,尤其對企業更是如此,因為電子郵件已成為網路犯罪集團從事網路釣魚和其他惡意活動的主要途徑。
早期對抗垃圾郵件數量不斷成長的方法
自從第一封垃圾郵件在數十年前誕生至今,垃圾郵件的動機和散布方法已有大幅的演進。2000 年代初期,垃圾郵件的內容大多以純文字為主,偶爾會冒充威而鋼廣告 ,且多由垃圾郵件散布者直接寄發,或者經由公開伺服器轉發。而收到信的使用者,其信箱開啟速度會變慢,網際網路連線速度也會受到影響。為了解決這問題,垃圾郵件防護廠商開始提供出一些結合了雜湊碼與所謂「垃圾郵件特徵」的解決方案,讓 IT 人員可以手動撰寫一些過濾規則。
這項作法帶來了兩種結果:一方面,這的確發揮了正面效果:它擋掉了將近 50% 的垃圾郵件。但另一方面,專家也意識到,當面對每天平均高達 24 億封的垃圾郵件時,這樣的作法顯然效果有限。想像一下,若您已經深陷 30 英呎深的水池,就算抽掉 50% 的水,您還是會淹死。
當每天平均都有數十億封垃圾郵件時,光濾掉 50% 的垃圾郵件是沒用的。
垃圾郵件防護解決方案必須在垃圾郵件進入網路之前預先加以解決,如果等到郵件進來了再來處理,除了不切實際之外,更別說還必須面對潛在的風險。
為了提供更有效的垃圾郵件防護,業界已開始將希望寄託在機器學習 技術,這項技術能藉由分析大量的資訊或訓練資料來歸納出一些特徵。其具體成果就是:現在資安界整體已經能有效攔截 95% 的垃圾郵件,因此機器學習已成為攔截垃圾郵件的一項關鍵技術。
運用機器學習偵測及攔截數十億封的垃圾郵件 繼續閱讀