什麼是 MITRE 評測?如何閱讀看待它的結果

作者:Greg Young(網路安全副總)

我是個資安產品測試宅。

A picture containing drawingDescription automatically generated

我關注MITER ATT&CK框架已經有一段日子了。而在這個禮拜他們發表了最新用APT29(也稱為COZY BEAR)進行評測的結果

底下我整理了一些趨勢科技的評測結果:

91.79%的整體偵測率。排在21家受測廠商的第二名。

91.04%無需更改設定。這次測試可以讓人在開始後變更設定,我們並不需要這麼做就能夠取得較高的整體結果。

107個遙測(Telemetry)。這數目很高,捕捉到事件是好事。沒辦法捕捉就不好。

28個警報(Alerts。這個警報數排在中間,也應該要在中間。不要太吵也不要太安靜。我認為遙測數據很關鍵,可以用偵測和遙測數據來設定發布警報與否。

所以我們的Apex One產品面對這卑鄙可怕的駭客攻擊仍然安然無恙。但這只是個簡化的結論,沒有捕捉到此測試的精髓。以下是我對MITER ATT&CK框架的理解以及該如何去解釋結果。

重點 #1 – ATT&CK是基於情境

MITRE ATT&CK框架吸引我的地方在於它將真實的攻擊手法與資安監控中心(SOC)或產品廠商的偵測模型結合在一起。ATT&CK框架可以在實驗室環境裡進行測試來評估資安產品如何應對駭客攻擊及其慣用手法。滲透測試和實驗室測試之間一直有著明顯的差別,而ATT&CK算是混合了兩著。COZY BEAR駭客組織相當有意思,它最為人知的就是攻擊手法相當複雜且背後有國家資助,針對著白宮和美國民主黨。COZY BEAR及其分支使用了後門程式、植入程式、混淆技術及謹慎小心的滲透技巧。

重點 #2 –檢視所有的評測結果來獲得最整體的了解

我看到了取捨的部分,因為每次ATT&CK評測都只專注在一個情境,但是這情境會非常的真實,如果對足夠多的情境進行了足夠多的評測,就能夠對一個產品有著更好的理解。趨勢科技在最新發表的APT/29/COZY BEAR評測中表現出色,但我的觀點是產品在所有的評測都一樣出色。我一直都建議Magic Quadrant或NSS Value Map的讀者要去研讀舊報告,就可以隨著時間推移看到產品的全貌。

重點 #3-(只)專注在偵測

跟大多數的ATT&CK評測一樣,APT29測試的是偵測能力,不是防禦力也不是產品的其他部分(如技術支援)。缺點是沒有評估產品封鎖攻擊的能力,至少到現在還沒有。

事實上,有些測試必須停用產品的封鎖功能才能完成。當然這是可以理解的–如果想測試樓上的警報器,就不能讓看門犬擋在樓下。如果一開始偵測就做不好,就永遠不會有好的結果。因此測試觀點似乎是 – 如果可以偵測,就可以進行封鎖。有些滲透測試被批評說特定情境並不真實,因為A會在B發生前先加以阻止。

所有的IPS特徵碼作者都贊同這一點。我支持MITER建構測試方法的邏輯,因為每個實驗室測試都必須有限制和範圍,但是讀者也需要了解這些限制和範圍。我相信下一輪的測試會包括防禦(封鎖)部分,所以現在的做法也是可以接受的。

重點 #4 –選擇自己的解讀方式

ATT&CK並不是那種會出現在雜誌裡的評論方式。ATT&CK並不對產品做出最終評等或比較。要完全了解ATT&CK,可以想像他們提供了數十種相當完善而又複雜的測量數據,讓你自己決定結果如何。或是讓廠商用他們自己的解釋或新聞稿對你進行轟炸。

我已經深入了解了最新的評測分數,但在閱讀其中一些部落格文章或新聞稿時還是幾乎讓我相信他們做得很好,即便我從手頭的資料知道他們並沒有。比較正面的說法是可以用很多種方法來解釋結果,而其中有些方法非常有創意。這讓我想到開鎖專家Lockpicking Lawyer評論裡的一句話:「威脅模型不包括帶有螺絲起子的攻擊者」。

Forrester的Josh Zelonis為解析測試結果所需耗費的精力做出很好的示範,他同時也在這裡提供放在Github的延伸分析,會比前面提到的更容易閱讀。即使是運作良好的產品也需要了解類別定義等脈絡資訊。我知道MITER的立場是 – 我們進行測試,你解釋數據,以減少紛爭並適應不同的使用案例或SOC工作流程,但這給買方帶來了很多麻煩。我再說一遍:在術語和測試報告類別裡有許多該注意的細節。

如果沒有Josh做的那份資料而我必須自己選擇一種指標,那「偵測率(Detection Rate)」可能是最好的選擇。請注意,由於該指標的含義,APT29測試裡任何產品的偵測率都不是100%。我接下來最喜歡的指標是技術(Technique)和遙測(Telemetry)。戰術(Tactics)聽起來不錯,但在框架中它比技術所能呈現的要少,因為 戰術整合了一堆壞事(“外面有東西在動!”),而技術則是更具體的描述(“在門外看到兇猛的大獅子”),所以在技術得分高而在戰術得分低是件好事。對我來說,遙測得分最好是在中間。不要太多警報(噪音/疲勞),也不要太少(“關於我在5分鐘前看到的那頭獅子”)。

這裡有個解讀範例對我來說很有價值。可以到這裏查看趨勢科技的評測結果,我可以取得每個步驟的偵測結果,或測試中總共134個步驟有多少個被偵測。首先我要排除任何的人為干預,排除MSSP偵測,只看沒有輔助的情況。

但這些數字分佈在所有20個主要測試步驟裡,因此我用Josh的表格來顯示出134個步驟中有115個可見,也就是85.82%。我計算了所有參加評測產品的可見度,平均是66.63%,幾乎少了20%。除了需要收集和解釋數據外,它還強調了沒有產品在所有步驟達到100%,而且分佈的很散。

再看看人為介入加上MSSP偵測的影響,趨勢科技的分數達到91%。可以聽到端點開發團隊舉杯慶祝的聲音了。但如果我沒有用MSSP服務,那就……所以你知道我對脈絡/使用案例/工作流程的看法了。在分析時移除了MSSP因素實際上會存在重複計算的問題(也就是種懲罰,因此移除MSSP時會過度地降低偵測率),不過我會留在之後的文章討論。資安測試宅不會欠缺題材。

重點 #5 –數據是好事

除了吸引資安測試宅,這次評測是一件很棒的事情,它所產生的資料相當有價值。有了這種評測可以讓資安產品以及我們的使用方式都得到更好的改進。所以在深入研究ATT&CK並解讀其結果時,不僅要考慮到產品的評測結果,還要考慮到組織用於偵測和處理攻擊的框架如何對應到各種威脅活動。毫無疑問地,我們會有更多談論APT29和未來評測的文章。

*我曾經做為Common Criteria測試員待在一個同時也進行FIPS 140-2測試的地方。你知道FIPS等級4會試著用冰箱進行漏洞攻擊嗎?我像是個吉普賽人踏入正統學院最深奧的地方,跑開且尖叫著:X就是等於X!我們不需要證明這一點!。

我記得最艱深的測試難題是對MVS RACF使用邏輯磁區進行Orange Book B1等級的可移植性測試。我再也無法拿回我失去的那幾個月。數十年來,我一直非常積極地與大多數資安測試實驗室(如NSS和ICSA)及其專案互動,因為我認為在做出任何產品購買決定前必須先了解測試的範圍和限制。你要讓Common Criteria宅大笑地指出哪裡出了錯,只需要說「那還不錯,只是被錯誤地放入範圍」,而這會讓FIPS測試者感到沮喪,因為密碼學的邊界是相當嚴肅的事情,並不是真正測試者可以去開玩笑的。是的,Common Criteria是測試界的MySpace。

@原文出處:Getting ATT&CKed By A Cozy Bear And Being Really Happy About It: What MITRE Evaluations Are, and How To Read Them