時間:2021年08月24日 分類:推薦論文 次數:
摘要:命名實體識別是自然語言處理中的重要任務,相比于英文命名實體識別,面向中文的命名實體識別任務往往更具難度。針對中文命名實體識別中詞語信息丟失的問題,提出了一種基于Transformer編碼器的命名實體識別算法,在模型的字嵌入層中使用結合詞典的字向量編碼方法,從而讓字向量包含了詞語信息,同時針對Transformer編碼器在注意力運算時會丟失字符的相對位臵信息的問題,修改了Transformer編碼器的注意力運算方式并引入了相對位臵編碼,最后引入條件隨機場獲取最優的標簽序列。實驗結果表明所提方法模型在兩個中文命名實體識別數據集Resume和Weibo數據集上較現有的主流模型具有更好的識別效果。
關鍵詞:自然語言處理;中文命名實體識別;Transformer編碼器;條件隨機場;相對位臵編碼
自然語言處理是近幾年熱門研究方向,其目的是讓計算機理解人類的語言并進行有效交互。命名實體識別技術是自然語言處理中一項非常重要的技術,其目的是識別語句中包含特定意義的實體,包括人名,地名,機構名,專有名詞等。具體的命名實體識別任務又可分為通用領域的命名實體識別和特定領域的命名實體識別,如金融,醫療,軍事領域等1]。
命名實體識別技術的應用場景十分廣闊,比如對文獻關鍵詞的提取,電子病歷中疾病特征的抽取等早期專業領域的命名實體識別多基于詞典和規則的方法,在過去的十年中基于統計學習的機器學習方法被廣泛應用于命名實體識別任務中。近幾年隨著計算機性能的不斷提升,基于深度學習的方法不斷刷新了命名實體識別任務的準確率。基于深度神經網絡的命名實體識別方法將命名實體識別任務視作序列標注任務,對文本中的每一個字打上對應的標簽,最后根據標簽序列識別命名實體。
目前主流的基于深度學習的序列標注模型通常采用字嵌入層,編碼層和解碼層三層結構,文本中的字首先通過字嵌入層生成對應的字向量,然后在編碼層進行上下文編碼以學習語義,最后在解碼層中生成對應的標簽,而不同的命名實體識別模型正是針對這三層進行改動2]。
在自然語言處理任務中,RNN(Recurrent NeuralNetworks,循環神經網絡)被廣泛應用于各種任務的編碼層,其中BiLSTM(idirectionalonghortermemoryetworks,長短期記憶網絡)是命名實體識別任務中最為常見的循環網絡結構,Huang等人第一次提出了基于BiLSTM和CRF(ConditionalRandomField,條件隨機場)的命名實體識別模型3],利用iLSTM的雙向編碼能力進行前后文編碼,利用CRF學習標簽間的序列順序,是目前最為主流的命名實體識別模型。
Zhang和Yang于2018年提出了LatticeLSTM模型,在BiLSTM模型的基礎上進一步改進,通過對編碼層的修改,在字向量中編碼了詞語的信息。文獻[4說明了BiLSTM采用的門結構雖然能幫助解決梯度消失的問題,但是三個“門”單元也導致了計算量的增加,增加了模型的訓練時間,而LatticeLSTM對編碼層的改進也進一步增大了模型的訓練負擔。
近幾年來,由Vaswani等人提出的機器翻譯模型Transformer開始被廣泛應用于各大自然語言處理任務中,其基于注意力機制獲取文本中字符間的長距離依賴,采用的并行結構也可以提高模型的訓練效率。但是在命名實體識別任務中,使用Transformer作為編碼器的表現并不理想,文獻11]說明其采用的絕對位臵編碼在經過模型自身的注意力運算后會丟失字符中的相對位臵信息,而影響最終的識別效果。
綜上所述,基于BiLSTM的模型在命名實體識別任務中表現良好,但是BiLSTM訓練速度較慢,在此基礎上的Lattice—LSTM模型通過對編碼層的改動在字向量中添加了詞的信息,但是進一步增加了模型的計算負擔。基于Transforemr編碼器的模型因為丟失字符相對位臵信息的問題,無法充分發揮其性能。針對上述問題,本文提出了一種基于Transformer編碼器的命名實體識別模型,在模型的字嵌入層使用結合詞典的字向量編碼方式將詞語信息編碼進字向量中;在Transformer編碼器層中,通過對自注意力計算方式的修改以及引入相對位臵編碼,在模型中引入了相對位臵信息。最后通過在兩個中文數據集上的對比實驗驗證了模型的實際效果。
本文的整體結構如下,第二節詳細介紹了給予Transformer編碼器的命名實體識別模型的結構及原理。第三節介紹了實驗數據集以及實驗環境,并介紹了實驗的結果以及不同模型的對比分析。最后一節對本文的工作作了總結與展望。基于Transformer編碼器的命名實體識別模型模型的整體結構可以分為三層,字嵌入層,Transformer編碼器層和條件隨機場層。字嵌入層中使用結合詞典的字向量編碼方法,生成包含詞語信息的字向量。Transformer編碼器層對字向量進一步編碼以學習前后文特征,同時通過修改注意力運算方式和引入相對位臵編碼,引入了字符的相對位臵信息。最后通過條件隨機場層獲取最優的標簽序列,根據標簽序列識別命名實體。
結合詞語信息的字嵌入層在命名實體識別模型的字嵌入層,需要將輸入語句的每一個字映射為固定維度的字向量,以便后續的編碼。在中文命名實體識別任務中,基于字符的編碼方法難以利用詞語的信息,因此本文提出了一種結合詞典的字向量編碼方法,使生成的字向量可以包含詞語的信息。對于字向量的生成,首先需要進行字嵌入模型的選擇。Word2vec是一款經典的語言嵌入模型,文獻12對其作了詳細的介紹。其具體實現了兩個模型,SkipGram跳字模型和CBOW(ContinueBagofWords)連續詞袋模型。其中跳字模型的核心思想是使用中心字預測背景字,連續詞袋模型的核心思想是使用背景字預測中心字,這兩種方法都可以在不進行人工標注的前提下利用神經網絡訓練生成字向量,同時字向量包含了周圍文本的信息15。在實際實驗中,使用跳字模型生成字向量。
在選擇完字嵌入模型后,接下來具體介紹本章提出的融入詞語信息的字向量編碼方法。在Zhang和Yang提出的LatticeLSTM模型中,為了在編碼中加入詞語信息,對LSTM的結構作了大幅的修改,從而在字嵌入的同時引入了詞的信息,并最終證明了在字向量中加入詞語信息可以增強中文命名實體識別任務的準確率。
但是,Zhang和Yang的模型對LSTM的修改增加了訓練時需要更新的參數,提高了模型的計算開銷,同時這種修改難以應用于使用其它神經網絡進行編碼的命名實體識別模型,比如本文使用的Transformer編碼器模型。針對上述問題本文提出了一種相對簡單的在字嵌入層引入詞語信息的方法,這種方法只對命名實體識別模型的字嵌入層作了修改。從而保證了模型的整體計算效率不受太大的影響,同時這種方法也具有更強的可移植性。本文提出的字向量編碼方法可以分為三步。
首先,對于輸入的文本,進行分句處理,然后使用Zhang和Yang在LatticeLSTM模型中開源的中文分詞詞典作為句中每個字對應的詞典,其中包括約29萬雙字符詞匯和28萬三字符詞匯。然后,對于文本中的每一個字符,根據詞典匹配句子中所有包含這個字符的詞,使用B(c),M(c),E(c)三個集合編碼這個字具有的詞信息。其中,B(c)表示所有以字符開頭且長度大于的詞,M(c)表示包含字符且字符不在開頭和末尾的詞,E(c)表示以字符結尾且長度大于的詞,如果集合為空,則添加一個特殊的空詞None到集合中。
字符c5‘胃’出現在詞‘腸胃炎’的中間,詞‘胃炎’的首部,詞‘腸胃’的底部,因此,根據本文制定的規則,其對應的詞向量集合B(c5)為{‘胃炎’},(c5)為{‘腸胃’},(c5)為{‘腸胃炎’},這樣做即可把句中字符‘胃’對應的三個詞的信息‘腸胃’,‘胃炎’,‘腸胃炎’通過字符的三個集合完整的收錄。
實驗結果及分析為了驗證本章提出的基于Transformer編碼器的命名實體識別模型的效果,同時與其它基于深度學習的命名實體識別模型進行對比,本文使用了兩個中文命名實體識別數據集Weibo數據集和Resume數據集進行實驗,使用精確率,召回率以及F1值作為實驗的主要評估指標,通過最終的實驗結果驗證命名實體識別模型的效果。
實驗數據準備實驗使用的Weibo數據集和Resume數據集均為公開的中文命名實體識別數據集。Weibo數據集是從中國的社交媒體新浪微博上選取并標注的信息,具體包括了從2013年11月至2014年12月從微博采樣的約1900條消息。Resume數據集來源于新浪金融上的中文簡歷信息,包含人名,種族,職稱等類實體,總共涉及4731條經過標注的中文簡歷信息20。
其中,模型性能對超參數學習率和BatchSize較為敏感。在實際操作中,BatchSize選擇16,通過使用小批量的樣本集增加模型的迭代次數,更快的達到擬合點,相對的選擇0.001的學習率以保持訓練的穩定性,同時將dropout設為0.3防止模型過擬合3.3與其它模型的對比結果與分析為了驗證本文提出的基于Transformer編碼器的命名實體識別模型的性能,同時比較其它的命名實體識別模型,本章引入了基于卷積神經網絡的IDCNN+CRF模型22和經典的BiLSTM+CRF模型作為對比模型,在Weibo數據集和Resume數據集上分別進行了對比實驗。在實驗結果中,因為在模型中加入了相對位臵信息,使用Transformer+RelativePosition+CRF表示本文提出的命名實體識別模型。
本文提出的基于Transformer的命名實體識別模型在Resume數據集上取得了最好的成績,F1值達到了94.7%,略高于基于BiLSTM的模型和基于IDCNN的模型。同時,基于Transformer編碼器的模型在第20個Epoch時F1值即開始增長緩慢,模型趨近于收斂,說明基于Transformer編碼器的模型相比基于BiLSTM的模型和基于IDCNN的模型取得了更快的收斂速度。在Weibo數據集上三個模型的效果都不理想,雖然本文提出的Transformer編碼器模型的F1值仍然領先于其它兩個模型,但也僅達到了百分之58.2,相比其它模型提升有限。
根據對Weibo數據集的觀察,三個模型識別效果均不佳的原因主要有兩點,一是Weibo數據集的數據樣本量較小,模型訓練效果不佳,二是weioboNER數據集中包含大量的人名類實體和地名類實體,比如‘李開復’和‘臺灣’,對于這種類型的實體基于深度學習的模型很難通過神經網絡提取實體的特征,從而影響了最終的識別效果。
在本文提出的基于Transformer編碼器的命名實體識別模型中,分別對字嵌入層和Transformer編碼器層作了改進,其中字嵌入層使用了融合詞語信息的字向量編碼方法,Transformer編碼器層加入了相對位臵信息,為了驗證這些改動的有效性,本文引入原生的Transformer+CRF的組合模型在Resume數據集上作進一步的對比實驗。
本文提出的基于Transformer的命名實體識別模型相比原生的Transformer+CRF模型,F1值取得了約2%的提升,證明了字嵌入層中詞語信息的引入以及Transformer編碼器層中相對位臵信息的引入提升了命名實體識別模型的最終識別效果。
計算機論文范例: 電子信息類專業計算機網絡課程的教學探究
結束語
本文針對中文領域命名實體識別任務,提出了一種基于Transformer編碼器的命名實體識別方法,該方法通過在字嵌入層中使用結合詞典的字向量編碼方法讓字向量包含了詞語信息,在Transformer編碼器層中通過對注意力運算方式的修改以及引入相對位臵編碼增加了字符的相對位臵信息,實驗表明本文提出的命名實體識別模型在兩個中文數據集上相比其它主流的命名實體識別模型具有更好的效果,并驗證了改動的有效性。在后續的工作中,將在更多數據集上與更多其它的基于深度學習的模型進行對比,同時進一步優化模型,增強模型的泛化能力。
參考文獻:
[1]YinZhangzhi,LiXinzi,HuangDegen,etal.ResearchonChineseNamedEntityRecognitionBasedonwordmodel[J].ActaSinicaSinicaSinica,2019,V.33(11):100105+111殷章志,李欣子,黃德根等.融合字詞模型的中文命名實體識別研究[J].中文信息學報2v.33(11):100105+111.
[2]WangHong,ShiJinchuan,ZhangZhiwei.SemanticrelationextractionofLSTMbasedonattentionmechanism[J].Computerapplicationresearch,2018,5(5):14171420王紅,史金釧,張志偉.基于注意力機制的LSTM的語義關系抽取[J].計算機應用研究,2018,5(5):14171420.
[3]HuangZ,XuW,YuK.BidirectionalLSTMCRFmodelsforsequencetagging[J].arXivpreprintarXiv:1508.01991,2015.
作者:司逸晨,管有慶