時間:2020年07月03日 分類:電子論文 次數:
摘要:服務器設備的異常高溫在機房內部會形成熱點,不僅會影響服務器的穩定和壽命,還會導致機房制冷效率的降低,從而增加機房的制冷能耗,增加運營費用;導致產生熱點的原因有很多,例如空氣流通不暢、風扇失靈、長時間滿負荷運行等等;通過自動診斷熱點的成因,可以有針對性的消除熱點,為機房環境控制提供數據支持,有助于降低機房制冷能耗;根據熱像儀拍攝的服務器出風口一側的紅外圖像,利用人工智能技術,提出了自動診斷熱點成因的方法;針對實際工程應用中熱點樣本數量不足的問題,提出了基于深度卷積對抗生成網絡(DCGAN)合成熱點樣本的解決方案;通過多組實驗驗證了方法的有效性,熱點成因的診斷準確率約為95%。
關鍵詞:信息處理技術;自動診斷;熱成像;對抗生成網絡;卷積神經網絡
0引言
隨著云計算,大數據及其應用的興起,計算機機房乃至大型數據中心得到了迅速發展,不僅規模不斷增加,內部服務器的密度和集成化也不斷提高。目前,服務器內部高度集成的單顆芯片可以產生大約200W/cm2的熱流密度,并且會隨著技術發展繼續增加[1]。在這種情況下,如果出現風扇失靈、通風不暢、長時間滿負荷運行等情況,服務器內部以及周圍會產生較高溫度,導致機房內部溫度分布不均衡,形成局部熱點區域。
計算機論文投稿刊物:計算機學報(月刊)創刊于1978年,由中國計算機學會與中國科學院計算技術研究所主辦、科學出版社出版,以中文編輯形式與讀者見面,同時以英文摘要形式向國際各大檢索系統提供基本內容介紹。
機房空調為了維持服務器設備正常運行的溫度,必然要增加制冷功率,這會消耗更多能耗用于制冷。若熱點不能及時被消除,高溫還會引起服務器宕機,甚至造成芯片的物理損壞。因此獲取機房內部溫度分布,監測、識別熱點區域有助于降低機房的能耗。紅外熱像儀可獲取物體表面二維溫度分布,能夠間接反映服務器的運行狀態,具備直觀、快速、非接觸、精度高等優點。Mohd等人列舉了熱成像技術在診斷電氣設備上的各種應用[2],其中包括了各類熱異常及相應的測量方案。Amin等人將機器學習技術應用在引擎散熱器的紅外診斷上[3]。
本文提出的基于熱成像的熱點成因診斷方法通過采集服務器出風口的紅外圖像,從中發現熱點后,提取熱點溫度分布特征,最后利用機器學習識別熱點的成因。所用的機器學習方法主要包括支持向量機(SVM)和卷積神經網絡(CNN)[4]。SVM是一種有監督機器學習算法,在小樣本、非線性分類問題上極具優勢[5],但是需要人工提取數據特征向量。特征向量的選取將直接影響分類的準確率,因此需要尋找并篩選出對服務器運行狀態敏感的溫度分布特征。CNN是一類由卷積運算代替傳統矩陣乘法運算的前饋神經網絡,是深度學習的代表算法之一[6]。
在層數足夠多后,可以獲取足夠豐富的特征。CNN常用于圖像的數據處理,并衍生出多種模型。例如,2012年Hiton等人提出的AlexNet[7],2013年由Girshick等人提出的RegionCNN[8]和2015年He等人提出的ResNet[9],在目標檢測領域取得了顯著進步。一般情況下,如果有足夠多的訓練樣本,隨著CNN模型層數的增加,模型的學習能力會得到提升。
然而,在機房的實際運行中,被監測熱點主要由偶發事件產生,在有限時間內很難收集足夠多的熱點圖像。因此,訓練集的各類別樣本數量較少,且不均衡。然而,分類器在面對不同類別訓練樣本數不均衡的情況下,分類性能會顯著下降[10]。雖然數據增強技術(例如平移、剪切、旋轉等)能夠在一定程度上提升這種情況下的準確率,但是這些數據增強方法產生的數據相關性較大,不能從根本上解決問題[11]。
對抗生成網絡(GAN)是一種無監督類型的生成模型,在2014年由Goodfellow提出[12]。GAN模型由生成網絡和判別網絡組成,生成網絡盡可能合成趨近真實樣本數據分布的偽樣本,判別網絡盡力去分辨真實樣本和偽樣本,通過零和博弈(Zero-sumGame)的對抗過程,最終達到納什均衡(NashEquilibrium),在對抗過程中使得生成網絡獲得趨近真實數據分布的能力。零和博弈的公式如下:minGmaxDV(D,G)=Ex~Pdata[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
其中:D代表判別映射函數,G代表生成映射函數,Pdata代表真實樣本數據的分布,Z代表噪聲(即輸入數據),PZ代表噪聲分布。通過不斷迭代學習,生成網絡可根據真實數據樣本分布特征合成與其相近的偽樣本。因此,GAN模型可以生成非相關的樣本數據,且具有更強的解釋性。原始的GAN存在著訓練困難、生成器和判別器的loss無法指示訓練進程、生成樣本缺乏多樣性等問題。很多學者都在嘗試解決這些問題。
其中,WassersteinGAN(WGAN)的結果較為理想[13]。WGAN修改了原始GAN的實現流程,如在判別器最后一層去掉了sigmoid,生成器和判別器的loss不取log,每次更新判別器的參數之后把它們的絕對值截斷到不超過一個固定常數c等。WGAN徹底解決GAN訓練不穩定的問題,基本解決了模型崩潰問題,確保了生成樣本的多樣性。Chen等人提出的InfoGAN模型,不僅能夠很好地學習數據之間的類型差別,也能夠很好地學習到數據本身的一些易于區分的特點,而且生成模型對這些特點具有很好的泛化能力[14]。
Alec等人提出的DCGAN也是對GAN較成功的改進,其改進主要是在網絡結構上。DC-GAN極大的提升了GAN訓練的穩定性以及生成樣本質量[15]。本文給出了與熱點成因相關的特征向量,介紹了利用SVM或AlexNet識別熱點成因的方法,并通過實驗對比分析了有無DCGAN增強訓練樣本集的診斷性能。
1熱點成因診斷方法
熱點成因診斷的基本流程,是通過熱像儀采集服務器出風口一側的紅外圖像,經過圖像標準化、熱點提取[16]、特征提取及機器學習等步驟,識別服務器所處工作狀態,如CPU負荷、各處風扇狀態、空氣流通情況等。為后續消除熱點操作提供決策支持。針對特征提取及機器學習過程,本文使用了兩種方法,并通過實驗對比了各自的性能。
1.1基于SVM的診斷方法
采用SVM作為分類器模型時,需要首先對紅外圖像中的熱點區域的數據進行特征提取。根據每種特征對熱點成因診斷準確率的貢獻,利用特征選擇算法,從數據統計、圖像紋理、形態學三方面,篩選出了紅外圖像中熱點區域的有效特征,可用于熱點成因診斷。包括灰度概率密度、灰度均值、灰度方差、統計直方圖概率均值、熵、峰態、歪斜度等特征。其中,h和w分別表示圖像的長和寬,N表示像素數量,ni表示灰度值為i的像素個數,I為紅外灰度圖像。紋理特征包括Tamura特征和LBP_GLCM特征[16]。其中,粗糙度中Sbest(i,j)表示圖像(i,j)位置的像素的能得到最大領域均值差值的窗大小;對比度中μ4為圖像灰度的四階矩;方向度中HD表示方向梯度直方圖,k為直方圖峰值,np為直方圖所有峰值,Wk表示該峰值所包含的區間,Φk表示波峰的中心位置;線性度中PDd是方向共生矩陣,n為PDd的大小;規則度中r表示規范化因子,Scrs、Scon、Sdir、Slin分別表示粗糙度、對比度、方向度和線性度的標準差。
LBP_GLCM紋理特征提取是通過使用局部二值化(LBP,LocalBinaryPatterns)特征描述算子計算得到LBP模式下的灰度子圖,然后基于LBP子圖計算灰度共生矩陣(GLCM,Gray-LevelCo-OccurrenceMatrix)特征。其中Hl(i,j)表示坐標(i,j)處的灰度概率密度,(μx,μy)和(σx,σy)分別表示水平方向和豎直方向的像素均值和標準差。形態學的有效特征包括:熱點區域占服務器的面積比、服務器溫度重心位置、溫度最大值區域的重心的橫坐標,溫度最大值的面積比例、熱點區域的周長、歐拉數。
2實驗結果與分析
2.1紅外圖像獲取及預處理
實驗在大連理工大學的網絡與信息化中心的機房進行。通過控制DELL720服務器的軟硬件工作狀態,以及對周圍環境的設置,模擬了5種可產生熱點的場景,分別是CPU長時間60%負荷、CPU長時間100%負荷、主風扇損壞、CPU風扇損壞、服務器進氣口處空氣流通不暢。出現熱點后,利用FLIRE8手持熱像儀采集服務器出風口一側的紅外圖像。實驗共采集5類1350張紅外圖像。考慮到拍攝角度會引起溫度分布發生形變,首先提取服務器在圖像的區域,然后利用透視變換得到具有標準長寬比的服務器溫度分布。利用同態濾波增強算法和一維最大熵分割算法得到服務器熱點區域的溫度分布。
2.2基于DCGAN的數據集增強對比實驗
診斷過程分別使用了SVM和AlexNet分類器。SVM使用統計特征、紋理特征、形態學特征作為分類器的輸入特征集;AlexNet采用卷積核自動提取圖像特征。采用DCGAN作為生成器合成樣本時,模型采用Py-torch按照圖2、3的結構進行搭建。模型的輸入為1×100的高斯噪聲向量,設置模型的epoch為200,batchsize為12。將1350張真實熱點圖像隨機劃分為訓練集(900張)和測試集(450張),分別記為集合SR0和SR1。將SR0輸入至DCGAN進行圖像生成訓練,每種類別下生成496張圖像,總計生成2480張合成熱點圖像,記為集合SD。
通過對比實驗一和實驗三的結果可以發現,SVM和AlexNet使用真實數據集,即在小樣本數據集,訓練得到的模型,在診斷準確率方面沒有顯著的差異,均能達到90%左右。SVM能夠達到這一效果的前提是繁雜的特征選擇工作;AlexNet能夠自動地提取樣本有效特征。
通過對比實驗二與實驗三的結果可以發現,利用DCGAN增強訓練數據集后再訓練這兩種模型,SVM的訓練集準確率提升到95.01%,但是測試集準確率相較之前下降了2.22%;而AlexNet的訓練集和測試診斷集準確率均有所提升,其中測試集準確率比實驗三提升了5.11%。通過實驗結果可以看出,使用DCGAN增強訓練數據集的策略不是對任何分類器模型都有效。DCGAN會使SVM出現過擬合的問題,致使診斷性能下降;使AlexNet顯著提升診斷性能。因此,針對本文提出的基于熱成像的熱點成因診斷問題,利用DCGAN增強訓練集合,并選擇AlexNet作為分類器模型,可以得到更優的診斷性能。
3結論
本文研究了基于熱成像的機房熱點的成因診斷方法。針對服務器上熱點的溫度分布,在計算出特征集合后,利用SVM可以對熱點成因進行識別。本文給出了經篩選的與熱點成因關聯的特征集合。利用卷積神經網絡,如Alex-Net,自動提取分布特征并識別也可以實現熱點成因的診斷。針對機房中無法在短時間內收集足夠多的熱點圖像用于訓練,本文提出利用對抗神經網絡,如DCGAN,合成出更多的熱點溫度分布圖,用于增強訓練樣本集。
通過4組實驗對比了SVM和AlexNet在有或無DC-GAN增強訓練樣本的情況下對熱點成因診斷的準確率。從實驗結果發現,DCGAN可以提升AlexNet的診斷性能,而對SVM無效。由此,本文選擇AlexNet+DCGAN組合作為熱點成因的診斷方法。該組合構建的模型優勢主要有兩點:一是由于服務器紅外圖像信噪比低,圖像有效特征較難準確提取,而通過卷積核自動提取特征能夠有效簡化特征選擇的難度;二是借助DCGAN擴展原始數據集,能夠將AlexNet分類模型的性能進一步提升,能夠很好地應對工程實踐中樣本數量較少的情況。
參考文獻:
[1]ZhuK,ZhengM,WangB,etal.Experimentalstudyofenergysavingperformancesinchipcoolingbyusingheatsinkwithem-beddedheatpipe[J].EnergyProcedia,2017,105(5):5160-5165.
[2]JadinMS,TaibS.Recentprogressindiagnosingthereliabilityofelectricalequipmentbyusinginfraredthermography[J].In-fraredPhysics&Technology,2012,55(4):236-245.
[3]Taheri-GaravandA,AhmadiH,OmidM,etal.Anintelligentapproachforcoolingradiatorfaultdiagnosisbasedoninfraredthermalimageprocessingtechnique[J].AppliedThermalEngi-neering.2015,87(8):434-443.
[4]LeC,BengioYY,HintonG.Deeplearning[J].Nature,2015,521(7553):436-444.
[5]CortesC,VapnikV.Support-vectornetworks[J].MachineLearning,1995,20(3):273-297.
[6]LeCunY,BengioY.Convolutionalnetworksforimages,speech,andtime-series[M].ThehandbookofbrainTheoryandNeuralNetworks,MITPress,1995.
作者:劉航1,2,鮑晨晨1,2,謝婷1,2,高山3