欧美日韩国产在线观看网站_亚洲欧美国产另类_秋霞成人午夜鲁丝一区二区三区_色综合中文字幕

探秘安全 | 如何利用AI提升未知威脅檢測能力

2020-07-16 14:12:03

來源:深信服科技

據(jù)MarketsandMarkets人工智能網(wǎng)絡(luò)安全預(yù)測報(bào)告,到2026年,AI賦能的網(wǎng)絡(luò)安全市場規(guī)模預(yù)計(jì)將從2019年的88億美元增長到382億美元,年復(fù)合增長率高達(dá)23.3%。

市場增長的主要驅(qū)動力源于當(dāng)前日益復(fù)雜的網(wǎng)絡(luò)安全形勢,網(wǎng)絡(luò)犯罪和黑客攻擊的規(guī)模和頻率不斷增加,且黑客不斷試水新技術(shù)來進(jìn)行攻擊,未知威脅頻發(fā)。安全團(tuán)隊(duì)對于未知威脅的抵御越來越捉襟見肘,行業(yè)開始尋求更先進(jìn)的解決方案來抵御未知威脅。深信服認(rèn)為,為達(dá)成上述效果,在未知威脅檢測方面,AI技術(shù)具有不可替代的優(yōu)勢。

為什么利用AI能夠檢測未知威脅?

泛化能力越強(qiáng),檢測未知威脅的能力就越強(qiáng), 檢出率就越高。

隨著新型病毒的大量出現(xiàn)以及網(wǎng)絡(luò)攻擊的愈加頻繁,現(xiàn)在業(yè)界普遍使用的基于規(guī)則或特征碼的檢測方案的有效性正在變得越來越低。一方面,黑白名單和傳統(tǒng)特征規(guī)則只能處理已知的惡意軟件,而對于未知攻擊,這類檢測方案的效用通常很低。另一方面,攻擊者的技術(shù)升級,新型惡意軟件越來越多,安全專家通過人工分析惡意樣本以提取新規(guī)則或特征碼的難度大大增加。

而基于人工智能的惡意文件查殺引擎優(yōu)于傳統(tǒng)基于特征碼的查殺引擎,原因在于機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等AI技術(shù)具有泛化能力,通過使用已知樣本進(jìn)行訓(xùn)練就可以在未知樣本集達(dá)到很好的效果,因此可以發(fā)現(xiàn)新型的惡意文件。

以黑樣本為例,在攻擊手段迭代更新的過程中,黑客并不總是另起爐灶來重新制作攻擊向量。他們常常是通過對現(xiàn)有攻擊手段進(jìn)行優(yōu)化、整合和更新,進(jìn)而實(shí)施下一次攻擊。因此,未知威脅和已知威脅通常具有某種意義上的相似性。而AI檢測算法就是期望通過對已知數(shù)據(jù)的學(xué)習(xí),提取其中的固定模式,最終達(dá)到檢測相似未知的目的。相似的,白樣本的演進(jìn)流程中同樣存在這樣的比變量,比如開發(fā)代碼復(fù)用等。綜上所述,安全檢測場景中的泛化能力其本質(zhì)是檢測算法是否能夠提取潛在的固定模式,進(jìn)而在相似樣本集上輸出一致的檢測結(jié)果。

那么,如何評估檢測算法的泛化能力呢?

基于前面對泛化能力的分析,深信服安全專家給出了檢測算法泛化能力的一個評估方法:檢測算法的泛化能力等同其對相似樣本檢測結(jié)果的一致性。

簡單來說,可以通過以下兩步來衡量一個檢測算法的泛化能力:

1. 定義樣本相似性,用來描述你的泛化需求。比如指定相差10條指令的惡意文件為相似文件,那么你所關(guān)注的就是在已知樣本和未知樣本擁有10條指令差異下的泛化檢測能力。

2. 統(tǒng)計(jì)檢測算法在這些相似樣本上的結(jié)果一致性。一致性是表示檢測算法輸出的統(tǒng)一程度,具有強(qiáng)泛化能力的檢測算法應(yīng)當(dāng)在相似樣本上輸出相同的檢測結(jié)果。因此,一致性越高,則說明算法的泛化能力越強(qiáng);反之,泛化能力越弱。

泛化能力的量化評估公式具體如下:

1. 隨機(jī)選取N個樣本集,每個集合內(nèi)的樣本相互間具有相似性,標(biāo)記為S1,S2,...,SN。

2. 對每一個集合Si, 評估檢測算法的結(jié)果一致性。假設(shè)Si 有M 個樣本,將算法的檢測結(jié)果序列記為o1,o2,...,oM,計(jì)算o1,o2,...,oM表征的熵,記為ei。假設(shè)此檢測任務(wù)的理論最大熵值為E,則可以使用E-ei表征算法對Si的結(jié)果一致性。

3. C= E- (e1 + e2 + ... + eN)/N 則表征了算法在整個樣本集上的平均一致性, 即泛化能力。

業(yè)界引擎的泛化能力分布

目前很多安全產(chǎn)品中都集成了惡意文件檢測能力,在Virustotal平臺上就有70多家的惡意文件檢測引擎。從公開信息上看,不少檢測引擎都標(biāo)稱采用了機(jī)器學(xué)習(xí)算法。那么現(xiàn)在業(yè)界檢測引擎的泛化能力到底如何,AI檢測引擎之間是否有差異?

我們構(gòu)建了包含15萬黑樣本的共7256個相似樣本集。這些樣本覆蓋了2019.1.1~2020.5.20期間的線上熱門樣本。此外,通過VT平臺獲取70+業(yè)界引擎對相似樣本集的檢測結(jié)果(手動觸發(fā)重分析,確保為引擎最新結(jié)果),以公平比較他們的泛化能力。如下圖所示。圖中的每一個點(diǎn)對應(yīng)VT上一種檢測引擎,其中藍(lán)色的點(diǎn)表示深信服SAVE引擎的AI模型在不同配置下的效果;黃色實(shí)心點(diǎn)表示可從公開信息確認(rèn)的業(yè)界機(jī)器學(xué)習(xí)引擎;灰色的點(diǎn)表示技術(shù)路線未知的其他引擎。

▲業(yè)界引擎的泛化能力分布

• 從圖中可以觀測到,檢測率的整體趨勢是隨著泛化能力增強(qiáng)而增強(qiáng)。將業(yè)界所有引擎綜合起來看,隨著泛化能力數(shù)值變大,檢出率的變化范圍越來越窄,并最終收斂到100%。
• 大部分業(yè)界已知AI引擎均較其他未知引擎有更強(qiáng)的泛化能力,而未知引擎的泛化能力普遍較弱。但部分技術(shù)未知引擎也體現(xiàn)出了很強(qiáng)的泛化能力,可能也使用了AI技術(shù)來支撐檢測。
• 相較于其他所有引擎,深信服安全智能檢測引擎SAVE AI 模型幾乎總是能在相同檢出率下,達(dá)到最強(qiáng)的泛化能力。需要注意的是,此AI模型訓(xùn)練于去年10月份,相似樣本集中約有一半樣本屬于AI模型的未知樣本。
如何構(gòu)建泛化能力
以深信服SAVE安全智能檢測引擎為例,SAVE在設(shè)計(jì)過程中,從樣本質(zhì)量、特征設(shè)計(jì)、算法組合、以及模型訓(xùn)練方法等多個維度來思考AI的泛化能力構(gòu)建方法。
提升泛化能力的前提是理解泛化的本質(zhì)。因此深信服構(gòu)建了多個內(nèi)部系統(tǒng)來支撐算法團(tuán)隊(duì)對樣本演變過程理解和使用,比如NLP標(biāo)簽系統(tǒng)和Origin相似代碼搜索系統(tǒng):
• 數(shù)據(jù)標(biāo)簽的質(zhì)量決定了最終AI模型的能力上限。我們利用NLP技術(shù)將樣本來自多個源頭的文本標(biāo)簽信息進(jìn)行整合(黑白標(biāo)簽,家族標(biāo)簽等),用以提升數(shù)據(jù)標(biāo)簽精度以及信息含量。通過NLP系統(tǒng)處理過的標(biāo)簽,可以更好的掌握樣本間的家族關(guān)系。
• 為了從更深層次理解樣本代碼的關(guān)聯(lián)關(guān)系,我們基于大數(shù)據(jù)平臺構(gòu)建了Origin 系統(tǒng)。通過Origin,可以從海量樣本中進(jìn)行快速的相似代碼匹配,定位樣本代碼片段的來源、屬性、以及演變過程。更可以對線上樣本進(jìn)行快速的聚類分析,加快對問題的閉環(huán)速度。
隨著對泛化能力本質(zhì)的理解深入,SAVE AI算法也在持續(xù)演進(jìn)。前述分析系統(tǒng)獲得的準(zhǔn)確標(biāo)簽和關(guān)聯(lián)關(guān)系,支撐安全專家不斷挖掘更優(yōu)質(zhì)的判別輸入,選擇更有效的高維特征提取方法,細(xì)化模型的檢測的功能,以及提升模型的精度。與此同時,為了保證AI模型的泛化能力持續(xù)保持在較高水準(zhǔn),深信服對端到端的訓(xùn)練流程進(jìn)行了分布式重構(gòu)。通過分布式集群,可以在數(shù)千萬量級的樣本集上,以天為單位進(jìn)行模型更新迭代,確保線上模型效果的穩(wěn)定性。
惡意軟件的檢測流程往往是將AI檢測算法和傳統(tǒng)檢測算法結(jié)合使用,大致有兩種思路來進(jìn)行整合:第一種是以傳統(tǒng)檢測技術(shù)為主,同時以AI為輔來提升未知檢測能力;第二種是以AI能力為主,盡可能釋放AI模型的泛化能力,同時利用其他手段來提升鑒白能力。
從前面的實(shí)驗(yàn)結(jié)果看,業(yè)界大部分基于AI的文件檢測引擎的確較其他類型引擎有明顯的泛化能力提升。為提升對未知威脅的檢測能力,適應(yīng)病毒瞬息萬變的發(fā)展態(tài)勢,廠商應(yīng)盡可能釋放AI模型的泛化能力。
索取“此產(chǎn)品”詳細(xì)資料,請留言
  • *姓名:
  • *手機(jī):
  • *郵寄地址:
<