統(tǒng)計(jì)基礎(chǔ)上的中文地址位置解析方法深究

時(shí)間：2017年11月20日分類：科學(xué)技術(shù)論文次數(shù)：

　　為獲取中文自然地址描述語句中的位置信息，提出一種不依賴于詞典的中文地址分詞方法。首先根據(jù)地址語料庫中字串共現(xiàn)的統(tǒng)計(jì)規(guī)律統(tǒng)計(jì)詞頻，然后對地名地址串進(jìn)行正則表達(dá)式預(yù)處理，再對地址串進(jìn)行全切分處理。通過互信息和信息熵得到最優(yōu)粗分結(jié)果，通過置信度對粗分結(jié)果進(jìn)行過濾得到最優(yōu)分詞結(jié)果。實(shí)驗(yàn)結(jié)果表明，該方法在不依賴詞典的情況下能有效實(shí)現(xiàn)對地名地址串的拆分，正確率和召回率分別達(dá)到了80.03%和89.28%。

　　關(guān)鍵詞：中文分詞,地名地址分詞,中文地址位置

　　互聯(lián)網(wǎng)是信息傳播交流的重要平臺。網(wǎng)絡(luò)空間中存在海量的中文地址數(shù)據(jù)，蘊(yùn)含著豐富的空間信息。但是與傳統(tǒng)的地理信息或數(shù)據(jù)相比，文本中的地理信息是非結(jié)構(gòu)化的，只有在形式化處理后才能進(jìn)行分析和挖掘。文本中的空間信息形式包括中文地址分詞、空間關(guān)系提取、事件提取等。地名地址分詞作為空間信息形式化最基礎(chǔ)的工作，其準(zhǔn)確性將直接影響到后續(xù)工作的有效性和準(zhǔn)確性。地名地址分詞是中文分詞在地名地址中的應(yīng)用，它將地名地址串拆分成若干地理要素[1]。

　　中文分詞算法大體分為3類：基于詞庫的分詞算法、基于統(tǒng)計(jì)的分詞算法、基于理解的分詞算法[2]。基于詞庫的方法將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串則匹配成功。這類方法簡單、分詞效率較高。但漢語語言現(xiàn)象復(fù)雜豐富，詞典的完備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文本分詞處理。基于統(tǒng)計(jì)的方法將相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞。由于這些信息是通過真實(shí)語料取得的，因而基于統(tǒng)計(jì)的分詞方法具有較好的實(shí)用性。基于理解的方法是試圖通過計(jì)算機(jī)模擬人對文字的理解過程來進(jìn)行分詞，但目前尚不成熟，實(shí)際應(yīng)用中無法直接使用該算法。

　　中文地址解析方面，文獻(xiàn)[3]首先創(chuàng)建一個(gè)符合地址分級模型的地名庫，并在此基礎(chǔ)上通過地址串的拆分和匹配完成地址標(biāo)準(zhǔn)化編碼工作，這種方法的困難在于需要人工維護(hù)基礎(chǔ)地址庫。文獻(xiàn)[4]在中文地址編碼研究中采用分段、組合、優(yōu)先規(guī)則，對中文地址進(jìn)行分段匹配。這些規(guī)則在一定程度上減少了地址要素的匹配次數(shù)，但由于采用數(shù)據(jù)庫查詢方式，使算法總體匹配速率不佳。文獻(xiàn)[5]應(yīng)用自然語言處理中的中文分詞和語義推理原理(HMM模型)對非結(jié)構(gòu)化中文地址進(jìn)行處理，該方法缺點(diǎn)是依賴于訓(xùn)練語料，前期需要進(jìn)行大量的地址訓(xùn)練操作。

　　由于我國地址名稱多而雜亂，而且地址名稱不斷在更新，人工構(gòu)建一個(gè)標(biāo)準(zhǔn)的涵蓋各級地址的工作量非常大。因此，本文針對地名地址串，提出一種基于統(tǒng)計(jì)的中文地址分詞方法：首先統(tǒng)計(jì)語料庫詞頻，然后對地名地址串進(jìn)行正則表達(dá)式預(yù)處理，再對地址串進(jìn)行全切分處理，通過互信息和信息熵得到最優(yōu)粗分結(jié)果，最后通過置信度對粗分結(jié)果進(jìn)行過濾，得到最優(yōu)結(jié)果。該方法地址識別率高，對原始地址結(jié)構(gòu)和部分地址元素缺失不敏感，不需要人工構(gòu)建一個(gè)海量地址庫。

　　1基于統(tǒng)計(jì)的中文地址解析方法

　　本文提出了基于無詞典的中文地址分詞方法。首先對互聯(lián)網(wǎng)上爬取的30萬條地址數(shù)據(jù)構(gòu)成的語料庫詞頻、相鄰詞語之間的互信息、詞語的信息熵進(jìn)行統(tǒng)計(jì)，然后對地名地址串進(jìn)行正則表達(dá)式預(yù)處理，提取出“數(shù)字+號”這類描述方式以及一些標(biāo)點(diǎn)符號;再對剩下的地址串進(jìn)行全切分處理，得到所有的分詞方案，然后通過互信息和信息熵計(jì)算選擇弧度花費(fèi)最小的分詞方案;最后通過置信度對該分詞方案進(jìn)行過濾得到最優(yōu)結(jié)果。

　　1.1統(tǒng)計(jì)詞頻

　　詞是最小的能夠獨(dú)立活動的有意義的語言成分[6]，是相鄰的字與字構(gòu)成的穩(wěn)定組合。在語料庫中，相鄰的字同時(shí)出現(xiàn)的頻率越高，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度。本文對互聯(lián)網(wǎng)上爬取的30多萬條地址文本進(jìn)行統(tǒng)計(jì)處理。在沒有地名詞典的情況下，任意長度的字串都有可能構(gòu)成一個(gè)地理要素。一個(gè)最長的地理要素長度為8(如新疆維吾爾自治區(qū))，所以將字符串的最大長度設(shè)為8，統(tǒng)計(jì)語料庫中任意長度(最大為8)字符串的詞頻。在地名地址串比如“武漢市洪山區(qū)珞瑜路312號”中，312在計(jì)算機(jī)中是3個(gè)字符，而在人們認(rèn)知的地址數(shù)據(jù)中312是一個(gè)整體，所以在預(yù)處理時(shí)將連續(xù)的數(shù)字認(rèn)定為一個(gè)字符。哈希查找方法是效率較高的查詢算法，因此將統(tǒng)計(jì)好的詞頻采用哈希結(jié)構(gòu)存儲。

　　1.2構(gòu)造切分詞圖

　　給定一個(gè)中文地址字符串S，對S進(jìn)行全切分處理，那么就有2l-1種切分方法。其中，l是地址字符串S的長度，S的全切分集合為W={Wi}，1≤i≤2l-1，Wi代表一種切分方法。把切分的字符串當(dāng)作節(jié)點(diǎn)，把字符串的切分位置當(dāng)作弧段，就可以將地址語句的全切分集合表示為圖，稱為地址語句的切分詞圖。

　　1.3設(shè)定弧段花費(fèi)

　　中文信息處理中，統(tǒng)計(jì)方法主要應(yīng)用于自動抽詞或未登錄詞識別，比如串頻、互信息、信息熵、檢驗(yàn)值、相關(guān)度等統(tǒng)計(jì)量可用于定量判斷候選詞的邊界[7]，其中最常用的是互信息和信息熵。

　　互信息度量兩個(gè)對象之間的相互性。互信息通常用來衡量兩個(gè)信號的相互依賴程度，并可用來衡量詞語的內(nèi)部結(jié)合緊密程度。互信息越大，說明詞語的內(nèi)部結(jié)合緊密度越大，它們構(gòu)成詞語的可能性越大。互信息越小，構(gòu)成詞語的可能性越小。其計(jì)算公式為：

　　MI(x，y)=log2p(x，y)p(x)p(y)(1)

　　其中：p(xy)是字符串xy在語料庫中鄰接出現(xiàn)的概率，p(x)是x在語料庫出現(xiàn)的概率;p(y)是y在語料庫中出現(xiàn)的概率。當(dāng)MI(x，y)大于一定閾值時(shí)，表明字符串xy是一個(gè)詞;當(dāng)MI(x，y)小于一定閾值時(shí)，字符串xy不會結(jié)合成詞。

　　信息熵是用來衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值，一個(gè)變量的信息熵越大，它出現(xiàn)的各種情況就越多，不確定性就越大，正確估計(jì)其值的可能性也越小。字符串左右搭配越豐富，選擇越多。在自然語言處理中，分別利用左信息熵和右信息熵來判斷字符串的邊界。一個(gè)字符串的左信息熵指該字符串與它相鄰的左鄰接字串集合的信息熵之和，用來表示該字符串的左鄰接字的不確定性。左信息熵越大，說明該字符串的左鄰接字越不確定，該字符串成為某一個(gè)詞語左邊界的可能性越大。相反，左信息熵越小，該字符串的左鄰接字越確定，它成為某一個(gè)詞語左邊界的可能性就越小。同理，右信息熵可以確定詞語的右邊界。

　　EL(w)=-∑a∈AP(aww)log2P(aww)(2)

　　ER(w)=-∑b∈BP(wbw)log2p(wbw)(3)

　　上式中，w表示該字符串，aw表示該字符串和左鄰接字的組合形式，wb表示該字符串和右鄰接字的組合形式。

　　本文根據(jù)互信息和信息熵原理將其轉(zhuǎn)化為切分詞圖中弧段的開銷。一條弧段相鄰字符串之間的互信息越大，越不適合作為詞的邊界，弧段開銷越大;其連接左右字串的信息熵越大，越適合作為詞的邊界，該弧段開銷越小。因此，可以定義如下弧段花費(fèi)計(jì)算公式：

　　c(A，B)=MI(a，b)ER(A)EL(B)(4)

　　A、B表示弧段連接的左右字串，a、b表示左字串最右側(cè)的字和右字串最左側(cè)的字。

　　1.4置信度過濾

　　在地址語句中，由于地理要素存在層級關(guān)系，上述計(jì)算方式容易產(chǎn)生數(shù)據(jù)稀疏問題，不能將兩個(gè)地理要素切分開，因此引入置信度過濾的計(jì)算方法。

　　已知字符串w1為fre(w1)，字符串w2的詞頻為fre(w2)，字符串w=w1+w2的詞頻為fre(w)，則字符串w1相對于字符串w，詞的置信度如公式(5)所示。

　　conf(w1w)=fre(w1)-fre(w)fre(w1)(5)

　　同樣可知字符串w2相對于字符串w的置信度。

　　字符串w1相對于字符串w的置信度，反映了字符串與前綴漢字串或后綴漢字串結(jié)合的穩(wěn)定性，即字符串w2構(gòu)成詞條的可能性。如果字符串w1相對于字符串w的置信度小于閾值α，則認(rèn)為字符串w是真實(shí)字符串的可能性比w1大，則從詞頻生成的詞庫中去掉w1字符串。如果字符串w1相對于字符串w的置信度大于閾值β，則認(rèn)為字符串w1是真實(shí)字符串的可能性比w大，從詞頻生成的詞庫中去掉w字符串。如果字符串w1相對于字符串w的置信度大于閾值α且小于閾值β，則比較兩個(gè)詞的詞頻大小，保留詞頻大的字符串。

　　通過分析不同取值條件下的實(shí)驗(yàn)結(jié)果選取α和β的閾值。一般在α=0.3和β=0.8的情況下分詞結(jié)果更好。

　　比如w1=“武漢”，w=“武漢市”，fre(w1)=7 096，fre(w)=7 086，則conf(w1w)=(7 096-7 086)/7 096=0.001 9，小于閾值α=0.3，所以從詞頻生成的詞庫中去掉“武漢”字符串，保留字符串“武漢市”。

　　再比如w1=“武漢市”，w=“武漢市武”，fre(w1)=7 082，fre(w)=1 110，則conf(w1w)=(7 083-1 110)/7 082=0.84>β=0.8。所以，應(yīng)從統(tǒng)計(jì)語料庫的詞頻生成詞庫中去掉“武漢市武”字符串，保留“武漢市”字符串。

　　2實(shí)驗(yàn)結(jié)果分析

　　實(shí)驗(yàn)采用完全基于統(tǒng)計(jì)特征的分詞方法和引入了置信度過濾的分詞方法。前者基于統(tǒng)計(jì)考慮，說明了統(tǒng)計(jì)分詞方法的有效性，后者通過引入置信度過濾改進(jìn)了統(tǒng)計(jì)分詞效果。從互聯(lián)網(wǎng)上爬取30萬條地址數(shù)據(jù)構(gòu)成的語料庫中，隨機(jī)選取2 000條地址語句，采用上述兩種方法進(jìn)行分詞實(shí)驗(yàn)，統(tǒng)計(jì)兩種分詞方法的正確率、召回率和F值，各指標(biāo)計(jì)算如公式(6)～(8)所示。

　　通過分析地址解析方法，將最大熵分詞方法與本文方法對比。本文方法雖然在正確率上沒有前者高，但是在召回率和F值上有了較大提升。而且最大熵方法在前期需要人工標(biāo)注大量的語料，工作量大，本文方法則不需要標(biāo)注，實(shí)用性更強(qiáng)。兩者對比結(jié)果如表1所示。

　　正確率(P)=切分正確的總詞數(shù)切分出的總詞數(shù)×100%(6)

　　召回率(R)=切分正確的總詞數(shù)標(biāo)準(zhǔn)結(jié)果中的總詞數(shù)×100%(7)

　　F=2×P×RP+R×100%(8)

　　3結(jié)語

　　本文提出了一種無詞典的中文地址分詞方法。在互聯(lián)網(wǎng)上爬取30多萬條地址數(shù)據(jù)構(gòu)成語料庫，通過統(tǒng)計(jì)地址文本中各個(gè)字的組合頻度，計(jì)算待分詞文本的各種參數(shù)，判斷漢字之間的緊密程度，通過置信度過濾最后獲得分詞結(jié)果。實(shí)驗(yàn)結(jié)果表明，本文方法不需要依靠人工去構(gòu)建一個(gè)地名地址庫，且不需要人工去標(biāo)注訓(xùn)練語料就能實(shí)現(xiàn)對地名地址串的切分，且分詞效果較好，實(shí)用性強(qiáng)。

　　參考文獻(xiàn)參考文獻(xiàn)：

　　[1]趙陽陽，王亮，仇阿根.地址要素識別機(jī)制的地名地址分詞算法[J].測繪科學(xué)，2013，38(5)：8183.

　　[2]于光.中文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都：電子科技大學(xué)，2012.

　　[3]孫存群，周順平，楊林.基于分級地名庫的中文地理編碼[J].計(jì)算機(jī)應(yīng)用，2010(7)：19531958

　　[4]唐靜.城市地名地址的編碼匹配研究[D].昆明：昆明理工大學(xué)，2011.

　　[5]宋子輝.自然語言理解的中文地址匹配算法[J].遙感學(xué)報(bào)，2013，17(4)：788801.

　　[6]徐飛，孫勁光.中文分詞切分技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué)，2008，30(5)：126128.

　　相關(guān)閱讀：現(xiàn)代測繪雜志投稿測繪論文好發(fā)嗎

上一篇：現(xiàn)行民航工程項(xiàng)目費(fèi)用管理存在的問題下一篇：大數(shù)據(jù)時(shí)代金融信息安全如何應(yīng)對面臨的威脅

相關(guān)文章推薦