并將測試樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖輸入步驟s2訓練得到的多模態深度集成模型中,對測試樣本進行檢測并得出檢測結果。實驗結果與分析(1)樣本數據集選取實驗評估使用了不同時期的惡意軟件和良性軟件樣本,包含了7871個良性軟件樣本和8269個惡意軟件樣本,其中4103個惡意軟件樣本是2011年以前發現的,4166個惡意軟件樣本是近年來新發現的;3918個良性軟件樣本是從全新安裝的windowsxpsp3系統中收集的,3953個良性軟件樣本是從全新安裝的32位windows7系統中收集的。所有的惡意軟件樣本都是從vxheavens網站中收集的,所有的樣本格式都是windowspe格式的,樣本數據集構成如表1所示。表1樣本數據集類別惡意軟件樣本良性軟件樣本早期樣本41033918近期樣本41663953合計82697871(2)評價指標及方法分類性能主要用兩個指標來評估:準確率和對數損失。準確率測量所有預測中正確預測的樣本占總樣本的比例,*憑準確率通常不足以評估預測的魯棒性,因此還需要使用對數損失。對數損失(logarithmicloss),也稱交叉熵損失(cross-entropyloss),是在概率估計上定義的,用于測量預測類別與真實類別之間的差距大小。無障礙測評認定視覺障礙用戶支持功能缺失4項。北京第三方軟件檢測
先將訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖分別輸入至一個深度神經網絡中抽取高等特征表示,然后合并抽取的高等特征表示并將其作為下一個深度神經網絡的輸入進行模型訓練,得到多模態深度集成模型。進一步的,所述多模態深度集成模型的隱藏層的***函數采用relu,輸出層的***函數采用sigmoid,中間使用dropout層進行正則化,優化器采用adagrad。進一步的,所述訓練得到的多模態深度集成模型中,用于抽取dll和api信息特征視圖的深度神經網絡包含3個隱含層,且3個隱含層中間間隔設置有dropout層;用于抽取格式信息特征視圖的深度神經網絡包含2個隱含層,且2個隱含層中間設置有dropout層;用于抽取字節碼n-grams特征視圖的深度神經網絡包含4個隱含層,且4個隱含層中間間隔設置有dropout層;用于輸入合并抽取的高等特征表示的深度神經網絡包含2個隱含層,且2個隱含層中間設置有dropout層;所述dropout層的dropout率均等于。本發明實施例的有益效果是,提出了一種基于多模態深度學習的惡意軟件檢測方法,應用了多模態深度學習方法來融合dll和api、格式結構信息、字節碼n-grams特征。太原第三方軟件測試中心對比分析顯示資源占用率高于同類產品均值26%。
坐標點(0,1)**一個完美的分類器,它將所有的樣本都正確分類。roc曲線越接近左上角,該分類器的性能越好。從圖9可以看出,該方案的roc曲線非常接近左上角,性能較優。另外,前端融合模型的auc值為。(5)后端融合后端融合的架構如圖10所示,后端融合方式用三種模態的特征分別訓練神經網絡模型,然后進行決策融合,隱藏層的***函數為relu,輸出層的***函數是sigmoid,中間使用dropout層進行正則化,防止過擬合,優化器(optimizer)采用的是adagrad,batch_size是40。本次實驗使用了80%的樣本訓練,20%的樣本驗證,訓練50個迭代以便于找到較優的epoch值。隨著迭代數的增加,后端融合模型的準確率變化曲線如圖11所示,模型的對數損失變化曲線如圖12所示。從圖11和圖12可以看出,當epoch值從0增加到5過程中,模型的訓練準確率和驗證準確率快速提高,模型的訓練對數損失和驗證對數損失快速減少;當epoch值從5到50的過程中,前端融合模型的訓練準確率和驗證準確率小幅提高,訓練對數損失和驗證對數損失緩慢下降;綜合分析圖11和圖12的準確率和對數損失變化曲線,選取epoch的較優值為40。確定模型的訓練迭代數為40后,進行了10折交叉驗證實驗。
將訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖輸入深度神經網絡,訓練多模態深度集成模型;(1)方案一:采用前端融合(early-fusion)方法,首先合并訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖的特征,融合成一個單一的特征向量空間,然后將其作為深度神經網絡模型的輸入,訓練多模態深度集成模型;(2)方案二:首先利用訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖分別訓練深度神經網絡模型,合并訓練的三個深度神經網絡模型的決策輸出,并將其作為感知機的輸入,訓練得到**終的多模態深度集成模型;(3)方案三:采用中間融合(intermediate-fusion)方法,首先使用三個深度神經網絡分別學習訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖的高等特征表示,并合并學習得到的訓練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖的高等特征表示融合成一個單一的特征向量空間,然后將其作為下一個深度神經網絡的輸入,訓練得到多模態深度神經網絡模型。步驟s3、將軟件樣本中的類別未知的軟件樣本作為測試樣本。跨設備測試報告指出平板端UI元素存在比例失調問題。
先將當前軟件樣本件的二進制可執行文件轉換為十六進制字節碼序列,然后采用n-grams方法在十六進制字節碼序列中滑動,產生大量的連續部分重疊的短序列特征,提取得到當前軟件樣本的二進制可執行文件的字節碼n-grams的特征表示。生成軟件樣本的dll和api信息特征視圖,是先統計所有類別已知的軟件樣本的pe可執行文件引用的dll和api信息,從中選取引用頻率**高的多個dll和api信息;然后判斷當前的軟件樣本的導入節里是否存在選擇出的某個引用頻率**高的dll和api信息,如存在,則將當前軟件樣本的該dll或api信息以1表示,否則將其以0表示,從而對當前軟件樣本的所有dll和api信息進行表示形成當前軟件樣本的dll和api信息特征視圖。生成軟件樣本的格式信息特征視圖,是從當前軟件樣本的pe格式結構信息中選取可能區分惡意軟件和良性軟件的pe格式結構特征,形成當前軟件樣本的格式信息特征視圖。從當前軟件樣本的pe格式結構信息中選取可能區分惡意軟件和良性軟件的pe格式結構特征,是從當前軟件樣本的pe格式結構信息中確定存在特定格式異常的pe格式結構特征以及存在明顯的統計差異的格式結構特征。特定格式異常包括:(1)代碼從**后一節開始執行,(2)節頭部可疑的屬性,。云計算與 AI 融合:深圳艾策的創新解決方案。軟件測試機構推薦
艾策檢測針對智能穿戴設備開發動態壓力測試系統,確保人機交互的舒適性與安全性。北京第三方軟件檢測
保留了較多信息,同時由于操作數比較隨機,某種程度上又沒有抓住主要矛盾,干擾了主要語義信息的提取。pe文件即可移植文件導入節中的動態鏈接庫(dll)和應用程序接口(api)信息能大致反映軟件的功能和性質,通過一個可執行程序引用的dll和api信息可以粗略的預測該程序的功能和行為。belaoued和mazouzi應用統計khi2檢驗分析了pe格式的惡意軟件和良性軟件的導入節中的dll和api信息,分析顯示惡意軟件和良性軟件使用的dll和api信息統計上有明顯的區別。后續的研究人員提出了挖掘dll和api信息的惡意軟件檢測方法,該類方法提取的特征語義信息豐富,但*從二進制可執行文件的導入節提取特征,忽略了整個可執行文件的大量信息。惡意軟件和被***二進制可執行文件格式信息上存在一些異常,這些異常是檢測惡意軟件的關鍵。研究人員提出了基于二進制可執行文件格式結構信息的惡意軟件檢測方法,這類方法從二進制可執行文件的pe文件頭、節頭部、資源節等提取特征,基于這些特征使用機器學習分類算法處理,取得了較高的檢測準確率。這類方法通常不受變形或多態等混淆技術影響,提取特征只需要對pe文件進行格式解析,無需遍歷整個可執行文件,提取特征速度較快。北京第三方軟件檢測