程序利用windows提供的接口(windowsapi)實(shí)現(xiàn)程序的功能。通過一個(gè)可執(zhí)行程序引用的動(dòng)態(tài)鏈接庫(dll)和應(yīng)用程序接口(api)可以粗略的預(yù)測(cè)該程序的功能和行為。統(tǒng)計(jì)所有樣本的導(dǎo)入節(jié)中引用的dll和api的頻率,留下引用頻率**高的60個(gè)dll和500個(gè)api。提取特征時(shí),每個(gè)樣本的導(dǎo)入節(jié)里存在選擇出的dll或api,該特征以1表示,不存在則以0表示,提取的560個(gè)dll和api特征作為***個(gè)特征視圖。提取格式信息特征視圖pe是portableexecutable的縮寫,初衷是希望能開發(fā)一個(gè)在所有windows平臺(tái)上和所有cpu上都可執(zhí)行的通用文件格式。pe格式文件是封裝windows操作系統(tǒng)加載程序所需的信息和管理可執(zhí)行代碼的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)**是大量的字節(jié)碼和數(shù)據(jù)結(jié)構(gòu)的有機(jī)融合。pe文件格式被**為一個(gè)線性的數(shù)據(jù)流,由pe文件頭、節(jié)表和節(jié)實(shí)體組成。惡意軟件或被惡意軟件***的可執(zhí)行文件,它本身也遵循格式要求的約束,但可能存在以下特定格式異常:(1)代碼從**后一節(jié)開始執(zhí)行;(2)節(jié)頭部可疑的屬性;(3)pe可選頭部有效尺寸的值不正確;(4)節(jié)之間的“間縫”;(5)可疑的代碼重定向;(6)可疑的代碼節(jié)名稱;(7)可疑的頭部***;(8)來自;(9)導(dǎo)入地址表被修改;(10)多個(gè)pe頭部;(11)可疑的重定位信息;。深圳艾策信息科技:可持續(xù)發(fā)展的 IT 解決方案。嵌入式軟件產(chǎn)品退稅第三方評(píng)測(cè)
后端融合模型的10折交叉驗(yàn)證的準(zhǔn)確率是%,對(duì)數(shù)損失是,混淆矩陣如圖13所示,規(guī)范化后的混淆矩陣如圖14所示。后端融合模型的roc曲線如圖15所示,其顯示后端融合模型的auc值為。(6)中間融合中間融合的架構(gòu)如圖16所示,中間融合方式用深度神經(jīng)網(wǎng)絡(luò)從三種模態(tài)的特征分別抽取高等特征表示,然后合并學(xué)習(xí)得到的特征表示,再作為下一個(gè)深度神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練模型,隱藏層的***函數(shù)為relu,輸出層的***函數(shù)是sigmoid,中間使用dropout層進(jìn)行正則化,防止過擬合,優(yōu)化器(optimizer)采用的是adagrad,batch_size是40。圖16中,用于抽取dll和api信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含3個(gè)隱含層,其***個(gè)隱含層的神經(jīng)元個(gè)數(shù)是128,第二個(gè)隱含層的神經(jīng)元個(gè)數(shù)是64,第三個(gè)隱含層的神經(jīng)元個(gè)數(shù)是32,且3個(gè)隱含層中間間隔設(shè)置有dropout層。用于抽取格式信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含2個(gè)隱含層,其***個(gè)隱含層的神經(jīng)元個(gè)數(shù)是64,其第二個(gè)隱含層的神經(jīng)元個(gè)數(shù)是32,且2個(gè)隱含層中間設(shè)置有dropout層。用于抽取字節(jié)碼n-grams特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含4個(gè)隱含層,其***個(gè)隱含層的神經(jīng)元個(gè)數(shù)是512,第二個(gè)隱含層的神經(jīng)元個(gè)數(shù)是384,第三個(gè)隱含層的神經(jīng)元個(gè)數(shù)是256,第四個(gè)隱含層的神經(jīng)元個(gè)數(shù)是125。長(zhǎng)春軟件評(píng)測(cè)機(jī)構(gòu)壓力測(cè)試表明系統(tǒng)在5000并發(fā)用戶時(shí)響應(yīng)延遲激增300%。
先將訓(xùn)練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖分別輸入至一個(gè)深度神經(jīng)網(wǎng)絡(luò)中抽取高等特征表示,然后合并抽取的高等特征表示并將其作為下一個(gè)深度神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行模型訓(xùn)練,得到多模態(tài)深度集成模型。進(jìn)一步的,所述多模態(tài)深度集成模型的隱藏層的***函數(shù)采用relu,輸出層的***函數(shù)采用sigmoid,中間使用dropout層進(jìn)行正則化,優(yōu)化器采用adagrad。進(jìn)一步的,所述訓(xùn)練得到的多模態(tài)深度集成模型中,用于抽取dll和api信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含3個(gè)隱含層,且3個(gè)隱含層中間間隔設(shè)置有dropout層;用于抽取格式信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含2個(gè)隱含層,且2個(gè)隱含層中間設(shè)置有dropout層;用于抽取字節(jié)碼n-grams特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含4個(gè)隱含層,且4個(gè)隱含層中間間隔設(shè)置有dropout層;用于輸入合并抽取的高等特征表示的深度神經(jīng)網(wǎng)絡(luò)包含2個(gè)隱含層,且2個(gè)隱含層中間設(shè)置有dropout層;所述dropout層的dropout率均等于。本發(fā)明實(shí)施例的有益效果是,提出了一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,應(yīng)用了多模態(tài)深度學(xué)習(xí)方法來融合dll和api、格式結(jié)構(gòu)信息、字節(jié)碼n-grams特征。
在不知道多長(zhǎng)的子序列能更好的表示可執(zhí)行文件的情況下,只能以固定窗口大小在字節(jié)碼序列中滑動(dòng),產(chǎn)生大量的短序列,由機(jī)器學(xué)習(xí)方法選擇可能區(qū)分惡意軟件和良性軟件的短序列作為特征,產(chǎn)生短序列的方法叫n-grams。“080074ff13b2”的字節(jié)碼序列,如果以3-grams產(chǎn)生連續(xù)部分重疊的短序列,將得到“080074”、“0074ff”、“74ff13”、“ff13b2”四個(gè)短序列。每個(gè)短序列特征的權(quán)重表示有多種方法。**簡(jiǎn)單的方法是如果該短序列在具體樣本中出現(xiàn),就表示為1;如果沒有出現(xiàn),就表示為0,也可以用。本實(shí)施例采用3-grams方法提取特征,3-grams產(chǎn)生的短序列非常龐大,將產(chǎn)生224=(16,777,216)個(gè)特征,如此龐大的特征集在計(jì)算機(jī)內(nèi)存中存儲(chǔ)和算法效率上都是問題。如果短序列特征的tf較小,對(duì)機(jī)器學(xué)習(xí)可能沒有意義,選取了tf**高的5000個(gè)短序列特征,計(jì)算每個(gè)短序列特征的,每個(gè)短序列特征的權(quán)重是判斷其所在軟件樣本是否為惡意軟件的依據(jù),也是區(qū)分每個(gè)軟件樣本的依據(jù)。(4)前端融合前端融合的架構(gòu)如圖4所示,前端融合方式將三種模態(tài)的特征合并,然后輸入深度神經(jīng)網(wǎng)絡(luò),隱藏層的***函數(shù)為relu,輸出層的***函數(shù)是sigmoid,中間使用dropout層進(jìn)行正則化,防止過擬合,優(yōu)化器。代碼簽名驗(yàn)證確認(rèn)所有組件均經(jīng)過可信機(jī)構(gòu)認(rèn)證。
測(cè)試人員素質(zhì)要求1、責(zé)任心2、學(xué)習(xí)能力3、懷疑精神4、溝通能力5、專注力6、洞察力7、團(tuán)隊(duì)精神8、注重積累軟件測(cè)試技術(shù)測(cè)試目的編輯軟件測(cè)試的目的是為了保證軟件產(chǎn)品的**終質(zhì)量,在軟件開發(fā)的過程中,對(duì)軟件產(chǎn)品進(jìn)行質(zhì)量控制。一般來說軟件測(cè)試應(yīng)由**的產(chǎn)品評(píng)測(cè)中心負(fù)責(zé),嚴(yán)格按照軟件測(cè)試流程,制定測(cè)試計(jì)劃、測(cè)試方案、測(cè)試規(guī)范,實(shí)施測(cè)試,對(duì)測(cè)試記錄進(jìn)行分析,并根據(jù)回歸測(cè)試情況撰寫測(cè)試報(bào)告。測(cè)試是為了證明程序有錯(cuò),而不能保證程序沒有錯(cuò)誤。軟件測(cè)試技術(shù)常見測(cè)試編輯回歸測(cè)試功能測(cè)試壓力測(cè)試負(fù)載測(cè)試性能測(cè)試易用性測(cè)試安裝與反安裝測(cè)試**測(cè)試安全性測(cè)試兼容性測(cè)試內(nèi)存泄漏測(cè)試比較測(cè)試Alpha測(cè)試Beta測(cè)試測(cè)試信息流1、軟件配置2、測(cè)試配置3、測(cè)試工具軟件測(cè)試技術(shù)-軟件測(cè)試的分類1、從是否需要執(zhí)行被測(cè)試軟件的角度分類(靜態(tài)測(cè)試和動(dòng)態(tài)測(cè)試)。2、從測(cè)試是否針對(duì)軟件結(jié)構(gòu)與算法的角度分類(白盒測(cè)試和黑盒測(cè)試)。3、從測(cè)試的不同階段分類(單元測(cè)試、集成測(cè)試、系統(tǒng)測(cè)試、驗(yàn)收測(cè)試)。2025 年 IT 趨勢(shì)展望:深圳艾策的五大技術(shù)突破。CMA CNAS軟件測(cè)評(píng)多少錢
無障礙測(cè)評(píng)認(rèn)定視覺障礙用戶支持功能缺失4項(xiàng)。嵌入式軟件產(chǎn)品退稅第三方評(píng)測(cè)
k為短序列特征總數(shù),1≤i≤k。可執(zhí)行文件長(zhǎng)短大小不一,為了防止該特征統(tǒng)計(jì)有偏,使用∑knk,j進(jìn)行歸一化處理。逆向文件頻率(inversedocumentfrequency,idf)是一個(gè)短序列特征普遍重要性的度量。某一短序列特征的idf,可以由總樣本實(shí)施例件數(shù)目除以包含該短序列特征之樣本實(shí)施例件的數(shù)目,再將得到的商取對(duì)數(shù)得到:其中,|d|指軟件樣本j的總數(shù),|{j:i∈j}|指包含短序列特征i的軟件樣本j的數(shù)目。idf的主要思想是:如果包含短序列特征i的軟件練樣本越少,也就是|{j:i∈j}|越小,idf越大,則說明短序列特征i具有很好的類別區(qū)分能力。:如果某一特征在某樣本中以較高的頻率出現(xiàn),而包含該特征的樣本數(shù)目較小,可以產(chǎn)生出高權(quán)重的,該特征的。因此,,保留重要的特征。此處選取可能區(qū)分惡意軟件和良性軟件的短序列特征,是因?yàn)樽止?jié)碼n-grams提取的特征很多,很多都是無效特征,或者效果非常一般的特征,保持這些特征會(huì)影響檢測(cè)方法的性能和效率,所以要選出有效的特征即可能區(qū)分惡意軟件和良性軟件的短序列特征。步驟s2、將軟件樣本中的類別已知的軟件樣本作為訓(xùn)練樣本,然后分別采用前端融合方法、后端融合方法和中間融合方法設(shè)計(jì)三種不同方案的多模態(tài)數(shù)據(jù)融合方法。嵌入式軟件產(chǎn)品退稅第三方評(píng)測(cè)