時間:2022年02月11日 分類:科學(xué)技術(shù)論文 次數(shù):
摘要由于工業(yè)互聯(lián)網(wǎng)接入設(shè)備的多樣性和差異性,使其維護困難,易受攻擊,針對該安全問題需要引入相關(guān)的防御系統(tǒng)來識別各種入侵攻擊.傳統(tǒng)的入侵檢測系統(tǒng)能夠檢測到的攻擊類型較少,且網(wǎng)絡(luò)流量數(shù)據(jù)由于存在冗余導(dǎo)致無關(guān)特征使得分類性能較差.因此,提出一種基于特征選擇的工業(yè)互聯(lián)網(wǎng)入侵檢測分類方法.該方法首先對數(shù)據(jù)集進行預(yù)處理,并通過計算特征的皮爾遜相關(guān)系數(shù)來判斷特征的強弱關(guān)系,確定最優(yōu)的閾值進行特征提取;之后從機器學(xué)習(xí)和深度學(xué)習(xí)2個角度,利用邏輯回歸、支持向量機、K近鄰、決策樹、隨機森林,多層感知機、卷積神經(jīng)網(wǎng)絡(luò)和時空網(wǎng)絡(luò)8種模型分別進行二分類和多分類實驗,并作評估.實驗結(jié)果表明,隨機森林的二分類效果最佳,決策樹的多分類效果最佳.最后在真實工業(yè)互聯(lián)網(wǎng)實踐中驗證了所提方法的有效性.
關(guān)鍵詞工業(yè)互聯(lián)網(wǎng);入侵檢測;皮爾遜相關(guān)系數(shù);機器學(xué)習(xí);深度學(xué)習(xí)
互聯(lián)網(wǎng)行業(yè)的發(fā)展,使得“工業(yè)互聯(lián)網(wǎng)”這個名詞也開始走進了大眾的生活,給電子裝備、鋼鐵、采礦、電力等工業(yè)制造業(yè)帶來了便捷.所謂的工業(yè)互聯(lián)網(wǎng)就是把工業(yè)制造與互聯(lián)網(wǎng)融合起來,將工業(yè)系統(tǒng)中的設(shè)備、車間、工廠、員工與客戶等利用互聯(lián)網(wǎng)這個平臺作為樞紐連接起來的網(wǎng)絡(luò),從而推動工業(yè)的智能化,實現(xiàn)行業(yè)間的互通、資源間的共享.然而,由于各種移動終端、工廠車間的接入,使得工業(yè)互聯(lián)網(wǎng)群體日益強大,安全問題愈加突出.
研究發(fā)現(xiàn),2020年上半年,通過國家工業(yè)互聯(lián)網(wǎng)的安全態(tài)勢感知平臺,檢測到了各種惡意攻擊1356.3萬次,其中流量異常、非法外聯(lián)、僵尸網(wǎng)絡(luò)占惡意攻擊總數(shù)的80%以上[1].隨著工業(yè)互聯(lián)網(wǎng)的發(fā)展與應(yīng)用,其遭受的惡意攻擊與日俱增,給工業(yè)互聯(lián)網(wǎng)帶來各種安全隱患,更嚴(yán)重的可能會導(dǎo)致工廠車間的癱瘓,生態(tài)系統(tǒng)失衡[2].
針對工業(yè)互聯(lián)網(wǎng)的安全現(xiàn)狀,網(wǎng)絡(luò)入侵檢測系統(tǒng)(intrusiondetectionsystem,IDS)可以有效地識別網(wǎng)絡(luò)中的攻擊行為,實時監(jiān)測網(wǎng)絡(luò)狀況,一旦發(fā)現(xiàn)入侵就會立即、主動地做出響應(yīng).入侵檢測系統(tǒng)的關(guān)鍵在于對攻擊行為的識別,傳統(tǒng)的入侵檢測系統(tǒng)從最初的利用審計信息來追蹤用戶的可疑行為,到提出了第一個實時的入侵檢測專家系統(tǒng)模型[3],再到利用狀態(tài)轉(zhuǎn)換分析來進行完善,對攻擊的識別始終是網(wǎng)絡(luò)安全領(lǐng)域的熱點問題.然而,隨著工業(yè)互聯(lián)網(wǎng)環(huán)境的日益復(fù)雜,傳統(tǒng)入侵檢測系統(tǒng)的問題便突顯了出來,如較多地占用網(wǎng)絡(luò)資源,網(wǎng)絡(luò)流量分析能力不足,對各種攻擊的監(jiān)測能力較差[4],誤報率較高,等.
隨著機器學(xué)習(xí)和深度學(xué)習(xí)模型的普及,大量學(xué)者開始將機器學(xué)習(xí)和深度學(xué)習(xí)模型運用到工業(yè)互聯(lián)網(wǎng)的入侵檢測系統(tǒng)中[5G10],有效地緩解了傳統(tǒng)入侵檢測系統(tǒng)的瓶頸問題.在傳統(tǒng)入侵檢測系統(tǒng)中引入機器學(xué)習(xí)和深度學(xué)習(xí),就可以把入侵檢測問題簡化為識別與分類問題來處理,智能化地實現(xiàn)網(wǎng)絡(luò)安全維護.研究表明,機器學(xué)習(xí)和深度學(xué)習(xí)模型能夠有效地識別正常與異常行為.但是,針對異常攻擊中的具體攻擊類別如DOS,Generic,Exploits等,研究成果較少.
為了實現(xiàn)具體攻擊類別的識別,幫助入侵檢測系統(tǒng)快速、準(zhǔn)確地做出響應(yīng),還需要對工業(yè)互聯(lián)網(wǎng)網(wǎng)絡(luò)流量數(shù)據(jù)進行特征選擇,以此減小冗余特征對分類效果的影響.常見的特征選擇方法有相關(guān)系數(shù)法、卡方檢驗、信息增益[11]、遞歸特征消除[12]等,通過這些方法,能夠減少特征的數(shù)量和降低數(shù)據(jù)維度.其中相關(guān)系數(shù)法最為簡單高效,通過計算皮爾遜相關(guān)系數(shù),能夠快速準(zhǔn)確地判斷特征之間的相關(guān)性,避免不相關(guān)特征未被篩選或相關(guān)特征過度篩選的情況,提高模型精度.因此,為了去除無關(guān)特征并更好地提高分類性能,本文提出了一種基于皮爾遜特征選擇的入侵檢測分類方法,主要貢獻(xiàn)包含3點:
1)對原始數(shù)據(jù)集進行分析,利用獨熱編碼、歸一化等進行預(yù)處理,利用皮爾遜相關(guān)系數(shù)進行特征選擇,提高模型識別的準(zhǔn)確率.2)從機器學(xué)習(xí)和深度學(xué)習(xí)2個角度,通過8種模型對入侵檢測攻擊進行分類評估和比較分析,確定了性能最佳的二分類和多分類模型.3)在公共數(shù)據(jù)集和工業(yè)互聯(lián)網(wǎng)真實流量數(shù)據(jù)集上,驗證了本文評估方法對入侵檢測二分類和多分類的有效性.
1相關(guān)工作
工業(yè)互聯(lián)網(wǎng)網(wǎng)絡(luò)流量數(shù)據(jù)復(fù)雜多變,特征冗余度高,使得其產(chǎn)生的安全問題難以被發(fā)現(xiàn).目前用于驗證入侵檢測方法的經(jīng)典數(shù)據(jù)集主要有KDD99,NSLGKDD99等,但是這些傳統(tǒng)的數(shù)據(jù)集數(shù)據(jù)陳舊、更新緩慢,只能識別Normal,DOS,R2L,U2L和Probe這5種攻擊類型,對于現(xiàn)在網(wǎng)絡(luò)中出現(xiàn)的其他攻擊無法實現(xiàn)精準(zhǔn)識別.
Kilincer等人[13]詳細(xì)介紹了網(wǎng)絡(luò)入侵檢測系統(tǒng)中常用的6種數(shù)據(jù)集,并對其進行對比分析,表明了UNSWGNB15數(shù)據(jù)集更適用于現(xiàn)在的各種研究;Almomani等人[14]基于UNSWGNB15數(shù)據(jù)集,利用機器學(xué)習(xí)中的邏輯回歸、貝葉斯、決策樹、隨機森林等分類器進行了二分類的實驗,實驗結(jié)果顯示隨機森林的分類效果最好,準(zhǔn)確率為87%;Zhang等人[15]基于UNSWGNB15和MSU數(shù)據(jù)集,采用MRMR算法和支持向量機方法對特征進行選擇,實驗結(jié)果表明有的特征之間具有強耦合性,而有的特征冗余.
Kumar等人[16G17]基于UNSWGNB15數(shù)據(jù)集提出了一種新型統(tǒng)一的入侵檢測算法,通過計算信息增益進行特征選擇,其結(jié)果僅識別了4~5種攻擊類型,成功識別的種類較少;Agarwal等人[18]利用樸素貝葉斯、支持向量機、K近鄰3種機器學(xué)習(xí)模型進行了分類,其中支持向量機的準(zhǔn)確率最高,達(dá)到97.77%.
上述大多研究中,沒有充分利用各種機器學(xué)習(xí)和深度學(xué)習(xí)模型分別進行二分類和多分類實驗.其中涉及特征選擇的研究,雖然有效地識別出了網(wǎng)絡(luò)流量中的異常行為,但是識別出的具體攻擊類型最多為5種.本文通過計算皮爾遜相關(guān)系數(shù),選擇合適的特征,分別結(jié)合機器學(xué)習(xí)和深度學(xué)習(xí)模型進行二分類和多分類實驗,對工業(yè)互聯(lián)網(wǎng)入侵檢測情況進行詳細(xì)的分析.
2方法設(shè)計
本節(jié)首先給出了基于特征選擇的入侵檢測分類方法的整體框架;其次,對特征選擇和分類模型分別進行具體講述.
2.1研究框架
本文的結(jié)構(gòu)框架分為工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)預(yù)處理、特征選擇、訓(xùn)練并驗證模型、評估分析、特征分析5個部分.1)數(shù)據(jù)預(yù)處理.從不同維度分析UNSWGNB15數(shù)據(jù)集的數(shù)據(jù)特征,對數(shù)據(jù)進行統(tǒng)一的清理與歸一化,并根據(jù)特征屬性的類型,將其轉(zhuǎn)化成模型可識別的數(shù)據(jù).
2)特征選擇.對原始數(shù)據(jù)集進行預(yù)處理后,計算特征的皮爾遜相關(guān)系數(shù),判斷每種特征相關(guān)程度強弱,通過實驗選擇最優(yōu)閾值,實現(xiàn)特征選擇.3)訓(xùn)練并驗證模型.利用支持向量機、邏輯回歸、K近鄰、決策樹、隨機森林等傳統(tǒng)機器學(xué)習(xí)模型和多層感知機、卷積神經(jīng)網(wǎng)絡(luò)、時空網(wǎng)絡(luò)等深度學(xué)習(xí)模型進行訓(xùn)練和驗證.
4)評估分析.對工業(yè)互聯(lián)網(wǎng)網(wǎng)絡(luò)流量分別進行二分類和多分類研究,二分類指的是能夠識別正常行為與攻擊行為,多分類能夠識別出具體的攻擊類型,根據(jù)準(zhǔn)確率等評價參數(shù),確定哪種模型二分類效果最佳,哪種模型多分類效果最佳.5)特征分析.根據(jù)分類結(jié)果,分析不同特征和特征相關(guān)性對分類結(jié)果的影響.
2.2預(yù)處理
工業(yè)互聯(lián)網(wǎng)需要收集來自各種工業(yè)場景的數(shù)據(jù)并形成數(shù)據(jù)集,但收集的過程會因為設(shè)備、網(wǎng)絡(luò)、人工等因素導(dǎo)致一些數(shù)據(jù)出現(xiàn)錯誤或偏差,也會因為一些數(shù)據(jù)的屬性特點,無法對這些數(shù)據(jù)進一步分析處理.因此,在得到原始數(shù)據(jù)之后,首先要對其進行預(yù)處理,以此來降低后續(xù)實驗的難度,提升實驗效果.工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)的特征屬性主要分為連續(xù)型和離散型,本文針對離散型特征,利用獨熱編碼實現(xiàn)特征的映射;針對連續(xù)型特征,利用歸一化將連續(xù)型特征數(shù)據(jù)縮放至[0,1]區(qū)間.
2.3特征選擇
入侵檢測數(shù)據(jù)中大多包含一些冗余無關(guān)的數(shù)據(jù)特征,需要進行特征的提取,挑選出滿足實驗要求的特征.常見的特征選擇方法有過濾法、包裝法和嵌入法.過濾法是通過對每種屬性相關(guān)性的評價,設(shè)置閾值來進行特征的篩選;包裝法在過濾法的基礎(chǔ)上,實現(xiàn)了多種特征之間交互關(guān)系的檢測,并結(jié)合機器學(xué)習(xí)算法來對子集進行評估;嵌入法結(jié)合了過濾法和包裝法的優(yōu)點,實現(xiàn)了特征選擇和算法訓(xùn)練的并行操作.特征選擇過程中,根據(jù)網(wǎng)絡(luò)流量的特征,需要用評價函數(shù)來衡量特征子集的性能,常見的評價函數(shù)有距離度量、信息度量和依賴性度量等.
距離度量通過計算樣本之間的距離來實現(xiàn)對樣本的分類,距離越小,越可能屬于同一種類別;信息度量通過計算信息增益、信息熵等,將特征信息量化,計算所得值越大,越說明了分類器的性能較優(yōu);依賴性度量用來評價特征之間或類別與特征間的相關(guān)性,與類別相關(guān)性大的特征被認(rèn)為是好的特征.前2種評價方式無法判斷特征對分類結(jié)果的影響,也忽略了網(wǎng)絡(luò)流量特征之間的關(guān)聯(lián)性對分類結(jié)果的影響情況,鑒于網(wǎng)絡(luò)流量特征數(shù)據(jù)的復(fù)雜性和異構(gòu)性,前2種評價方式較少用于評估生成特征子集的好壞.依賴性度量的評價方法能夠很好地實現(xiàn)網(wǎng)絡(luò)流量特征對類別影響的評估.依賴性度量中的皮爾遜相關(guān)系數(shù)具有易于理解、簡潔高效且計算復(fù)雜度較低等優(yōu)點。
2.4分類模型
工業(yè)互聯(lián)網(wǎng)入侵檢測系統(tǒng)利用機器學(xué)習(xí)和深度學(xué)習(xí)中的各種模型對流量數(shù)據(jù)進行二分類和多分類,識別出攻擊類型并正確分類.機器學(xué)習(xí)模型中,邏輯回歸經(jīng)常被用于解決二分類問題,也可用來解決多分類問題,通過Logistics函數(shù)來歸一化預(yù)測值;支持向量機通過超平面來對數(shù)據(jù)進行分類,在訓(xùn)練數(shù)據(jù)的同時學(xué)習(xí)攻擊模型進而實現(xiàn)分類,主要適用于線性分類且特征量大的數(shù)據(jù)集[18];K近鄰是分類模型中最簡單的分類器之一,通過判斷與未知樣本最近的K個樣本的類別,將其分類為K個樣本點中大多數(shù)樣本所屬類別;在決策樹中,通過樣本的特征值進行分類,樹的節(jié)點代表數(shù)據(jù)集的特征,分支表示劃分的決策規(guī)則[20];隨機森林是基于多個決策樹來構(gòu)建的,以此可以有效預(yù)防過擬合問題,通過對每一棵樹進行預(yù)測,最終獲得最優(yōu)解,大多用于多分類問題。
3實驗與結(jié)果
3.1實驗環(huán)境
本文所有的實驗均在Windows10PC,Intel
3.2數(shù)據(jù)集
本文選取了UNSWGNB15數(shù)據(jù)集進行實驗,數(shù)據(jù)集基于IXIAPerfectStorm創(chuàng)建,并最終以CSV文件的形式生成.數(shù)據(jù)集中包含49種特征,根據(jù)這些特征的數(shù)據(jù)類型,將其劃分成5種:Object,Integer,Float,Timestamp,Binary,如表2所示.經(jīng)過對這些特征的分析,最終可以識別攻擊的類別(正常或攻擊).根據(jù)各種攻擊的性質(zhì)特點,將攻擊類型進一步劃分成9種類別,包含Analysis,Backdoor,DoS,Exploits,Fuzzers,Generic,Shellcode,Reconnaissance,Worms,是目前攻擊種類較全的數(shù)據(jù)集.
3.3預(yù)處理
3.3.1數(shù)據(jù)清理
對工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)集‘service’列的值進行轉(zhuǎn)化.該列代表使用的通信服務(wù)類型,常見的通信服務(wù)包括HTTP,FTP,SMTP,SSH,DNS,FTPGdata,IRC協(xié)議,但數(shù)據(jù)集中有的結(jié)果是“-”,代表了不常用的協(xié)議,模型無法識別,導(dǎo)致結(jié)果產(chǎn)生錯誤.
因此,將“-”用“None”來代替,便于模型的識別,同時也不會對結(jié)果造成較大的影響.數(shù)據(jù)集中某些屬性列的取值錯誤將對分類結(jié)果產(chǎn)生影響,需對其進行篩選.‘ct_flw_http_mthd’列和‘is_ftp_login’列的結(jié)果屬于Binary列,其結(jié)果非0即1.以‘is_ftp_login’列為例,該屬性的含義是:FTP會話是否被用戶和密碼訪問,如果是,結(jié)果為0,反之即為1.根據(jù)左側(cè)‘is_ftp_login’屬性列的數(shù)據(jù)分布情況可知,該屬性共有4個取值[0,1,4,2],違背了“非0即1”的原則,說明2和4屬于錯誤值,將包含錯誤值的數(shù)據(jù)應(yīng)用于分類中,會對結(jié)果產(chǎn)生較大影響,因此,要對這些數(shù)據(jù)進行處理.正常處理方法是進行替代,將該列所有取值為2或4的數(shù)據(jù),都用1進行替代.
3.3.2特征映射
UNSWGNB15數(shù)據(jù)集中,屬于“object”類型的特征都是string字符串,模型無法識別.因此利用獨熱編碼(OneGHot)實現(xiàn)特征映射.如‘proto’列代表了傳輸協(xié)議,其取值包含TCP,UDP這2種,則映射的編碼為01和10,‘state’列的取值有5種,分別是CON,FIN,INT,REQ和RST,則映射的特征編碼分別為10000,01000,00100,00010,00001.
3.4特征選擇
特征的選擇,直接影響了分類的結(jié)果,因此特征選擇是入侵檢測的關(guān)鍵.通過計算每種屬性的皮爾遜相關(guān)系數(shù),可以達(dá)到選擇特征的目的,但是往往去掉或留下哪些特征難以確定.本文根據(jù)特征相關(guān)程度強弱對應(yīng)表,直接摒棄了無相關(guān)程度和相關(guān)程度極弱的特征,之后在弱相關(guān)強度閾值0.2~0.4范圍內(nèi),進行分類實驗.經(jīng)過實驗分析,表4列出了在隨機森林模型下,不同皮爾遜系數(shù)對應(yīng)的二分類實驗結(jié)果,經(jīng)對比可以看出,皮爾遜系數(shù)的值為0.3時,實驗效果最佳.因此,二分類實驗下,以皮爾遜系數(shù)等于0.3作為閾值,進行特征選擇.
3.5二分類
從不同的機器學(xué)習(xí)和深度學(xué)習(xí)模型入手,對工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)中的正常和異常行為進行檢測和分類.
4討論
在工業(yè)互聯(lián)網(wǎng)中,不同的應(yīng)用場景下會產(chǎn)生不同的網(wǎng)絡(luò)流量數(shù)據(jù),流量數(shù)據(jù)特征的選擇直接影響工業(yè)互聯(lián)網(wǎng)入侵檢測分類的結(jié)果.本文通過計算皮爾遜相關(guān)系數(shù),選擇出了與分類結(jié)果顯著相關(guān)的特征,達(dá)到了提高模型精度的效果.但是該方法未考慮特征之間的相互作用對分類效果的影響,主要度量特征之間的線性關(guān)系,未來工作將對特征間非線性關(guān)系的度量效果進行分析研究[29],針對不同的攻擊類別,判斷哪些特征對此類攻擊的影響程度較大.此外,將入侵檢測系統(tǒng)智能化,使其自動識別環(huán)境變化并做出響應(yīng);優(yōu)化網(wǎng)絡(luò)流量攻擊的多分類算法,提高每種攻擊的識別率;運用可視化技術(shù),更直觀、生動、立體地展現(xiàn)檢測結(jié)果.
5結(jié)論
本文提出了基于特征選擇的工業(yè)互聯(lián)網(wǎng)入侵檢測分類方法.首先,通過數(shù)據(jù)預(yù)處理,篩選異常或錯誤數(shù)據(jù);在此基礎(chǔ)上,通過計算特征的皮爾遜相關(guān)系數(shù),判斷特征的相關(guān)程度強弱,通過實驗找到合適的閾值,并根據(jù)閾值進行特征選擇;然后使用5種機器學(xué)習(xí)模型———支持向量機、邏輯回歸、K近鄰、決策樹和隨機森林,3種深度學(xué)習(xí)模型———多層感知機、前饋神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),進行二分類和多分類的實驗.在二分類實驗中,隨機森林的準(zhǔn)確率為99.19%,二分類效果最好;在多分類實驗中,決策樹的準(zhǔn)確率為97.07%,多分類效果最好.最后,分析了工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)集中特征對分類結(jié)果的影響,并在真實工業(yè)互聯(lián)網(wǎng)的實踐中,驗證了本文提出方法的有效性.
參考文獻(xiàn)
[1]中國信通院.2020年上半年工業(yè)互聯(lián)網(wǎng)安全態(tài)勢報告[EB∕OL].[2022G01G20].
[2]WangZhendong,ZhangLin,LiDahai.AsurveyofintrusiondetectionsystemforInternetofthingsbasedonmachinelearning[J].ComputerEngineeringandApplications,2021,57(4):1827(inChinese)(王振東,張林,李大海.基于機器學(xué)習(xí)的物聯(lián)網(wǎng)入侵檢測系統(tǒng)綜述[J].計算機工程與應(yīng)用,2021,57(4):1827)
[3]DenningD,NeumannPG.RequirementsandModelforIDES—ARealGTimeIntrusionGDetectionExpertSystem[M].MenloPark:SRIInternational,1985
[4]ZhuKun,ZhangQi.Applicationofmachinelearninginnetworkintrusiondetection[J].DataAcquisitionandProcessing,2017,32(3):479488(inChinese)(朱琨,張琪.機器學(xué)習(xí)在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[J].數(shù)據(jù)采集與處理,2017,32(3):479488)
[5]KumarP,GuptaGP,TripathiR.Adistributedensembledesignbasedintrusiondetectionsystemusingfogcomputingtoprotecttheinternetofthingsnetworks[J].JournalofAmbientIntelligenceandHumanizedComputing,2020:118
作者:任家東張亞飛張炳李尚洋