時(shí)間:2020年01月18日 分類:電子論文 次數(shù):
摘要:基于電力大數(shù)據(jù)體系信息的爆炸式增長,挖掘其深度價(jià)值,本文在結(jié)構(gòu)化表達(dá)和特征提取與分析等方面提出文本分析新方法。針對電力運(yùn)維領(lǐng)域文本特征設(shè)計(jì)基于拼音統(tǒng)計(jì)的中文詞向量生成模型;采用卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場組合模型對中文詞分類;通過結(jié)構(gòu)化語義槽填充,以詞頻和詞向量特征在事故多因素類內(nèi)和類間進(jìn)行統(tǒng)計(jì)分析和事件關(guān)聯(lián)。模型語義理解準(zhǔn)確率達(dá)到51.93%,中文實(shí)體詞識別F1分?jǐn)?shù)達(dá)到72.52,均取得了解析能力更強(qiáng)、精度更高的結(jié)果。最后對電力運(yùn)維日志語料進(jìn)行實(shí)例測試,驗(yàn)證了本方法的性能優(yōu)勢。
關(guān)鍵詞:文本挖掘;中文詞向量;命名實(shí)體識別;結(jié)構(gòu)化處理;語義相似度
隨著互聯(lián)網(wǎng)信息化數(shù)據(jù)爆炸式的增長,基礎(chǔ)性公用事業(yè)企業(yè)也將面臨向管理智能化的模式升級。電網(wǎng)內(nèi)部每天產(chǎn)生的大量的日志信息蘊(yùn)含了巨大的潛在價(jià)值,面對龐大且冗雜的企業(yè)級文本數(shù)據(jù)資產(chǎn)[1-2],通過對文本特征提取、統(tǒng)計(jì)聚類和關(guān)聯(lián)等進(jìn)行信息處理,通過數(shù)據(jù)分析并高效獲取相關(guān)設(shè)備網(wǎng)點(diǎn)運(yùn)營狀況,發(fā)現(xiàn)潛在的危險(xiǎn)和隱患。在第一時(shí)間能夠?qū)Ξ惓J录龀鲰憫?yīng),是提升運(yùn)維管理水平的關(guān)鍵;诮Y(jié)構(gòu)化表達(dá)的電力運(yùn)檢文本分析方法作為一種新的事故預(yù)控分析模型,從特征采集、數(shù)據(jù)結(jié)構(gòu)化表達(dá)、統(tǒng)計(jì)分析等模塊,解決了領(lǐng)域內(nèi)諸多問題。
主要包括:1)海量雜亂的非結(jié)構(gòu)文本難以直接挖掘有效信息,良好的詞向量[3]生成模型是對中文文本數(shù)字化應(yīng)用的頭部環(huán)節(jié);2)專業(yè)領(lǐng)域文本年數(shù)據(jù)存在大量專業(yè)化短語,需要依靠人工篩選本體字典,良好的特征提取和分類模型是文本分析的關(guān)鍵;3)電力運(yùn)維記錄事故發(fā)生是多因素影響,同步挖掘單因素特性和多因素關(guān)聯(lián)進(jìn)行綜合判斷才能深入分析。雖然基于結(jié)構(gòu)化表達(dá)的文本分析方法仍依賴人工特征和領(lǐng)域知識,但其技術(shù)方案是一個(gè)非常重要和關(guān)鍵的研究問題。
1中文文本分析
1.1詞向量表達(dá)
詞表示技術(shù)是對文本數(shù)據(jù)的一種表示能力,在特征工程或機(jī)器學(xué)習(xí)領(lǐng)域,都處于底層預(yù)備工作,它的好壞對模型的應(yīng)用性能將產(chǎn)生很大的影響。這種數(shù)據(jù)表示方法在一定程度上能夠自主無監(jiān)督的從海量數(shù)據(jù)中直接挖掘到有用的語義信息。詞表示的理論基礎(chǔ)是Harris等在1954年提出的分布假說。近年來,詞表示方法逐漸區(qū)別于傳統(tǒng)的one-hot詞編碼方式,都是通過低維分布式詞向量去捕捉文本的語義信息,同時(shí)更多關(guān)注于基于上下文信息[4-5]來學(xué)習(xí)詞向量的表達(dá)和更高細(xì)粒度字符級特征表達(dá)[6-7]。
對于中文詞向量表達(dá),在形態(tài)學(xué)表達(dá)和生成表達(dá)方面分別由筆劃和拼音字符構(gòu)成,大部分現(xiàn)有研究均是由拉丁文衍生而用于中文,不能與中文輸入習(xí)慣完全適應(yīng)。同時(shí)隨著中文文本數(shù)據(jù)源的規(guī)范化和結(jié)構(gòu)化程度隨著信息數(shù)據(jù)增長不斷退化,錯別字等問題的出現(xiàn)成為了亟待解決的任務(wù)。
1.2命名實(shí)體識別
中文命名實(shí)體識別[8-9]是在自然語言文本中識別出具有特定意義的實(shí)體詞并加以分類,主要類別包括人名、地點(diǎn)、組織名、設(shè)備名等。與英文命名實(shí)體識別相比,中文存在更多的難點(diǎn),如:中文句子序列間沒有明顯的分隔標(biāo)識;中文實(shí)體詞的組成更為復(fù)雜,存在著多種實(shí)體交疊包含的情況等。近年來解決中文命名實(shí)體識別的主流方法是基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì),如隱馬爾科夫模型(HMM)[10]、支持向量機(jī)(SVM)[11]和條件隨機(jī)場(CRF)[12]等,其性能表現(xiàn)依賴于中文特征的選擇。
中文命名實(shí)體識別需要對復(fù)雜實(shí)體詞進(jìn)行拆解,對句子序列進(jìn)行切分、識別和分類。Lamlpe等人[13]針對任務(wù)的不同階段,提出了雙向長短期記憶模型和條件隨機(jī)場模型。上述方法雖然已經(jīng)解決了一些應(yīng)用問題,但仍然依賴大量的人工特征,沒有充分利用文本深度語義信息。
此外,中文實(shí)體詞的片段級復(fù)雜結(jié)構(gòu)提取[14]也需深入研究。針對電力運(yùn)維文本的冗雜表達(dá)和海量多類別關(guān)鍵詞提取分析的問題,本文采用拼音字符級信息作為特征,以命名實(shí)體識別和結(jié)構(gòu)化語義槽模型共同提取關(guān)鍵實(shí)體詞,并在詞頻和詞向量維度上進(jìn)行因素統(tǒng)計(jì)和語義關(guān)聯(lián)分析。最后通過在采集的運(yùn)維數(shù)據(jù)集以及公開數(shù)據(jù)集上進(jìn)行定量和應(yīng)用例實(shí)驗(yàn),驗(yàn)證方法的有效性。
2結(jié)構(gòu)化文本處理方法
2.1詞向量生成模型
中文文本在生成表達(dá)方面主要由拼音字符構(gòu)成。針對中文語言結(jié)構(gòu)在數(shù)量上包含較少的字符級信息,而細(xì)粒度更高的字符級往往在詞向量表示中性能優(yōu)越的特點(diǎn),構(gòu)造基于拼音特征統(tǒng)計(jì)的詞向量模型。對中文詞轉(zhuǎn)化拼音表達(dá),以不同長度n(n可取3、4、5...)大小的窗口在一個(gè)詞語拼音表示上滑動,構(gòu)成局部拼音表示組Px。
2.2中文實(shí)體關(guān)鍵詞識別
中文實(shí)體采用組合卷積神經(jīng)網(wǎng)絡(luò)對文本提取字符級特征并進(jìn)行實(shí)體詞提取,條件隨機(jī)場在全局范圍分類。
3實(shí)驗(yàn)及結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)設(shè)置
測試數(shù)據(jù)采集了維基百科中文語料庫和某電力公司2017年運(yùn)維檢修日志(取60000條)作為通用和專業(yè)領(lǐng)域語料。將全部語料用于中文詞向量模型的訓(xùn)練,專業(yè)領(lǐng)域語料庫用于實(shí)體詞識別和文本分析應(yīng)用例實(shí)驗(yàn)。語料數(shù)據(jù)采用opencc將轉(zhuǎn)化為簡體中文,采用JIEBA進(jìn)行分詞處理,pypinyin提取中文詞語的拼音字符級表達(dá)。
研究發(fā)現(xiàn)詞向量維度將對模型性能產(chǎn)生影響,實(shí)驗(yàn)中將其設(shè)置為200維。對實(shí)體詞生成向量表示時(shí),取交疊中文詞平均向量作為實(shí)體詞向量。若含有數(shù)字表示,將數(shù)字與文本表示向量組合構(gòu)成實(shí)體詞向量。
3.2評價(jià)指標(biāo)及結(jié)果分析
通常詞向量性能判別模型采用詞間語義相似度和類比推理準(zhǔn)確率作為標(biāo)準(zhǔn),語義相似度反應(yīng)不同詞之間的主觀語義理解差異,類比推理能夠反映詞之間的語義對應(yīng)關(guān)系。引入拼音這種高細(xì)粒度字符特征的詞向量模型能夠有效的獲取更多語義信息。此外中文拼音表達(dá)形態(tài)學(xué)上接近拉丁文字的結(jié)構(gòu),使最小語義單元的字符信息在數(shù)量上和結(jié)構(gòu)上包含了更多的語義信息。
CNN-BiLSTM-CRF模型在電力運(yùn)維語料上進(jìn)行事故多因素片段級命名實(shí)體識別的結(jié)果。結(jié)合字典在大規(guī)模未標(biāo)注數(shù)據(jù)的電力運(yùn)維語料中使用py2vec和基于拼音特征的CNN-BiLSTMCRF的識別分類網(wǎng)絡(luò)對片段級文本識別達(dá)到了72.52%的F1分?jǐn)?shù),獲得了更好的效果,對于文本語義結(jié)構(gòu)化重構(gòu)將在人工篩選方面起到更多的作用。
3.3實(shí)證研究
以某電力公司運(yùn)維日志語料為例,對文本進(jìn)行預(yù)處理后以py2vec生成詞向量,并采用CNNBiLSTM-CRF組合網(wǎng)絡(luò)提取語料6類實(shí)體關(guān)鍵詞,分別為:人名、地名、組織名、設(shè)備名、因素名和其它。根據(jù)詞序距離和詞性組合成中文實(shí)體詞。以“故障原因”為例,通過Python詞云可分析得到可視化結(jié)果。
多類實(shí)體詞統(tǒng)計(jì)分析研究基于詞頻統(tǒng)計(jì)、聚類和多因素關(guān)聯(lián)分析等3個(gè)層面,在維度上分析多類因素的單一維度內(nèi)部和多維度之間的統(tǒng)計(jì)和語義關(guān)聯(lián)特性。單因素統(tǒng)計(jì)特征通過因素表進(jìn)行6種因素的詞頻統(tǒng)計(jì);由于事件發(fā)生因素的關(guān)聯(lián)性,多因素類間關(guān)聯(lián)以差異類間詞語的共現(xiàn)特征統(tǒng)計(jì)詞頻分布,分別篩選出統(tǒng)計(jì)特征前15的因素作為監(jiān)測目標(biāo)。
運(yùn)維日志“故障設(shè)備”因素中“漏電流保護(hù)裝置”和“低壓開關(guān)”等頻數(shù)較大,應(yīng)為主要關(guān)注目標(biāo)以降低事故發(fā)生概率;“故障線路-故障原因”多因素中“余家”地區(qū)的“用戶設(shè)備漏電”發(fā)生頻率較高,應(yīng)為重點(diǎn)監(jiān)控對象;由于時(shí)間維度事故發(fā)生存在一定的規(guī)律性和周期性,在“時(shí)間-故障原因”統(tǒng)計(jì)中,如統(tǒng)計(jì)反映主要故障原因之一“用電過負(fù)荷”驗(yàn)證了實(shí)際相符。
由于統(tǒng)計(jì)模型往往存在人工記錄的重復(fù)性、不規(guī)范等因素,研究因素詞向量特征能夠有效的規(guī)避此類問題。同時(shí)將語義距離引入統(tǒng)計(jì)分析中來,能夠挖掘運(yùn)維語料文本中深度信息。在多類因素語義關(guān)聯(lián)應(yīng)用中,利用單因素圖譜的關(guān)聯(lián)表達(dá)方式,建立各個(gè)項(xiàng)目內(nèi)部關(guān)系的樹狀圖,同時(shí)在多類因素之間利用語義詞向量表達(dá)構(gòu)建詞語串組的關(guān)聯(lián)表達(dá)方式,建立了各因素的外部關(guān)系結(jié)構(gòu)。
4結(jié)論
本文主要研究基于自然語言處理的電力運(yùn)維文本結(jié)構(gòu)化表達(dá)和分析方法。通過針對文本特性設(shè)計(jì)詞向量生成方法并針對文本結(jié)構(gòu)設(shè)計(jì)多類語義槽,以CNN-BiLSTM-CNN組合神經(jīng)網(wǎng)絡(luò)識別命名實(shí)體關(guān)鍵詞。并針對所提取的多類實(shí)體詞以詞頻和詞向量特征在單一因素類和多類之間統(tǒng)計(jì)分布特征和語義關(guān)聯(lián)特性。能夠有效的解決非結(jié)構(gòu)化運(yùn)維文本的統(tǒng)計(jì)分析和語義理解問題,高效的實(shí)現(xiàn)運(yùn)維大數(shù)據(jù)價(jià)值轉(zhuǎn)化。但是對于中文長實(shí)體詞的復(fù)雜組成問題仍然存在,因此通過神經(jīng)網(wǎng)絡(luò)對中文長實(shí)體詞的片段拆分仍需進(jìn)一步研究。
參考文獻(xiàn):
[1]劉義德,梁堅(jiān).智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].科技創(chuàng)新與應(yīng)用,2015(29):184.
[2]薛禹勝,賴業(yè)寧.大能源思維與大數(shù)據(jù)思維的融合(一)大數(shù)據(jù)與電力大數(shù)據(jù)[J].電力系統(tǒng)自動化,2016,40(1):1-8.
[3]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J].計(jì)算機(jī)科學(xué),2016,43(6):214-217.
電力工程師論文范文:電力建設(shè)工程施工過程風(fēng)險(xiǎn)的可拓優(yōu)度評價(jià)
改革開放以來,我國的各行各業(yè)得到了蓬勃的發(fā)展,建筑行業(yè)是我國城市化建設(shè)的主要支柱,其中電力建設(shè)工程施工更是對我國的電力發(fā)展貢獻(xiàn)了巨大的力量。由于電力建設(shè)施工過程中所涉及的人數(shù)較多,工作的內(nèi)容繁雜,危險(xiǎn)系數(shù)較大等,在施工的過程中難免會出現(xiàn)漏洞。但是將可拓優(yōu)度評價(jià)運(yùn)用與電力建設(shè)工程施工過程中,能夠有效降低施工風(fēng)險(xiǎn),較少安全事故的發(fā)生。