亚洲女同精品中文字幕-亚洲女同japan-亚洲女人网-亚洲女人天堂a在线播放-极品小帅哥连坏挨cao记-极品销魂一区二区三区

學(xué)術(shù)咨詢

讓期刊論文更省時(shí)、省事、省心

基于數(shù)字遠(yuǎn)讀技術(shù)的社會(huì)畫(huà)像構(gòu)建方法研究

時(shí)間:2022年07月02日 分類(lèi):推薦論文 次數(shù):

摘 要: [目的/意義] 數(shù)字遠(yuǎn)讀視角下分析歷史典籍,將特定時(shí)期社會(huì)通過(guò)可視化等綜合技術(shù)展現(xiàn)給研究者,以幫助研究者量化史學(xué)研究。[方法/過(guò)程] 以社會(huì)發(fā)展過(guò)程中產(chǎn)生的文本數(shù)據(jù)為基礎(chǔ),借鑒用戶畫(huà)像概念,提出社會(huì)畫(huà)像的構(gòu)建方法。根據(jù)各發(fā)展分面內(nèi)在邏輯數(shù)據(jù)

  摘 要: [目的/意義] 數(shù)字遠(yuǎn)讀視角下分析歷史典籍,將特定時(shí)期社會(huì)通過(guò)可視化等綜合技術(shù)展現(xiàn)給研究者,以幫助研究者量化史學(xué)研究。[方法/過(guò)程] 以社會(huì)發(fā)展過(guò)程中產(chǎn)生的文本數(shù)據(jù)為基礎(chǔ),借鑒用戶畫(huà)像概念,提出社會(huì)畫(huà)像的構(gòu)建方法。根據(jù)各發(fā)展分面內(nèi)在邏輯數(shù)據(jù)構(gòu)建社會(huì)畫(huà)像描述框架,利用多種文本挖掘技術(shù)抽取不同維度的特征標(biāo)簽,形成社會(huì)畫(huà)像,并以先秦時(shí)期為例進(jìn)行實(shí)證研究。[結(jié)果/結(jié)論] 借助基于史實(shí)的社會(huì)畫(huà)像,能夠全景化呈現(xiàn)社會(huì)發(fā)展?fàn)顩r,可以為研究者快速獲得古代社會(huì)概貌提供支持,具有一定的實(shí)踐意義和價(jià)值。

  關(guān)鍵詞: 社會(huì)畫(huà)像; 數(shù)字遠(yuǎn)讀; 用戶畫(huà)像; 文本挖掘; 社會(huì)發(fā)展

數(shù)字信息

  2010 年,莫萊蒂引入遠(yuǎn)讀概念將數(shù)字技術(shù)應(yīng)用于人文學(xué)科,形成跨學(xué)科的數(shù)字人文研究[1]。在沒(méi)有理論假設(shè)的前提下,文本內(nèi)容挖掘及可視化分析利用數(shù)據(jù)挖掘、文本聚類(lèi)、分類(lèi)等方法,可以從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí),尋找隱藏在數(shù)據(jù)中的模式、趨勢(shì)和相關(guān)性,揭示事物現(xiàn)象和發(fā)展規(guī)律,是對(duì)數(shù)字人文的可視化展示,為數(shù)字文本提供全局圖景,可以很好地應(yīng)用于史實(shí)的研究[2]。但目前的研究多集中于對(duì)大規(guī)模歷史資料進(jìn)行單一領(lǐng)域的定量分析,如歷史地理信息可視化[3]、領(lǐng)域知識(shí)組織[4]、社會(huì)網(wǎng)絡(luò)分析[5]和主題挖掘[6]等。而日益蓬勃發(fā)展的用戶畫(huà)像技術(shù),以大量具有時(shí)效性的真實(shí)用戶數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),抽取其中的屬性、行為等特征形成用戶模型,具有全面性、時(shí)效性、真實(shí)性、動(dòng)態(tài)性以及代表性等特征[7]。

  畫(huà)像技術(shù)有助于在數(shù)字遠(yuǎn)讀處理中,進(jìn)一步細(xì)分分析的顆粒度。用戶畫(huà)像技術(shù)及數(shù)字遠(yuǎn)讀技術(shù)的蓬勃發(fā)展,為文本進(jìn)行多維度社會(huì)畫(huà)像分析提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ),本文嘗試面向典籍,基于文本挖掘視角試圖為研究者提供不同歷史時(shí)期社會(huì)的 “放大鏡”。借鑒用戶畫(huà)像概念,本文采用 “社會(huì)畫(huà)像”一詞,借以描述從文本角度構(gòu)建的不同歷史時(shí)期多維度的社會(huì)畫(huà)像描述框架,然后結(jié)合歷史中的相關(guān)人物、事件、物體等數(shù)據(jù),建立古代社會(huì)畫(huà)像標(biāo)簽體系,利用定性與定量相結(jié)合的方法,從不同角度、不同層面對(duì)古代社會(huì)進(jìn)行分析展示,試圖形成當(dāng)時(shí)的社會(huì)畫(huà)像。以先秦時(shí)期為例進(jìn)行實(shí)證研究,結(jié)果表明,本文提出的社會(huì)畫(huà)像構(gòu)建技術(shù),能夠有效形成面向文本的社會(huì)概貌描述,對(duì)于提升大規(guī)模文本的快速有效分析具有一定的實(shí)踐意義和價(jià)值。

  1 相關(guān)研究

  1. 1 用戶畫(huà)像

  用戶畫(huà)像研究最初由交互設(shè)計(jì)之父 Cooper A[8]提出,他認(rèn)為用戶畫(huà)像是 “基于用戶真實(shí)數(shù)據(jù)的虛擬代表”。用戶畫(huà)像根據(jù)用戶信息來(lái)提取典型的用戶特征,如用戶的基本屬性特征、行為特征、社交特征等[9]。在基于 VSM 的用戶畫(huà)像研究中,研究者用加權(quán)的 VSM 模型來(lái)表示用戶畫(huà)像,VSM 模型主要用于關(guān)鍵詞的獲取和賦權(quán),通過(guò)獲取用戶行為數(shù)據(jù)、內(nèi)容數(shù)據(jù)、互動(dòng)數(shù)據(jù)和情景數(shù)據(jù)等使用數(shù)據(jù)[10],從中抽取關(guān)鍵詞構(gòu)成用戶畫(huà)像的標(biāo)簽數(shù)據(jù),常使用布爾值、詞頻或詞頻—逆文檔頻率用以賦權(quán)值。其核心思想是將文本看作一個(gè)詞袋模型,用向量集合來(lái)表示文檔,每個(gè)向量由特征詞與權(quán)值組成,權(quán)值反映特征詞對(duì)表示文本的重要程度。用戶被表示為從用戶使用數(shù)據(jù)中抽取的關(guān)鍵詞及相應(yīng)權(quán)重組成的向量,通過(guò)計(jì)算歐幾里得距離、曼哈頓距離、閔科夫斯基距離、余弦距離來(lái)測(cè)量用戶間的相似度[11-13]。

  用戶畫(huà)像的標(biāo)簽數(shù)據(jù)主要有兩種來(lái)源,一種是通過(guò)人工添加標(biāo)簽,因其需要大量的人力物力,較少被使用; 另一種是對(duì)大量文本語(yǔ)料進(jìn)行文本挖掘抽取特征詞進(jìn)行標(biāo)簽表示。文本挖掘技術(shù)多用于用戶畫(huà)像的標(biāo)簽數(shù)據(jù)獲取,如圖書(shū)館基于知識(shí)挖掘的智慧推薦服務(wù)[14]。大多數(shù)用戶畫(huà)像的標(biāo)簽數(shù)據(jù)通過(guò)對(duì)用戶使用數(shù)據(jù)進(jìn)行關(guān)鍵詞抽取,挖掘相關(guān)信息的屬性特征,如從數(shù)字圖書(shū)館使用數(shù)據(jù)中獲取學(xué)術(shù)用戶的研究興趣[15],通過(guò)對(duì)用戶的訪問(wèn)頻率、檢索習(xí)慣、檢索內(nèi)容等和信息行為相關(guān)的數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)與用戶興趣相關(guān)的文獻(xiàn)推薦。

  1. 2 數(shù)字遠(yuǎn)讀“遠(yuǎn)讀”的概念

  最早由莫萊蒂于 2000 年提出,利用定量分析的方法聚焦于眾多文本單位之間的關(guān)聯(lián),從 中 發(fā) 現(xiàn) 規(guī) 律,以獲得宏觀視野[16]。2005年,他又提出利用表圖、地圖和樹(shù)圖 3 種抽象模型,收集和解釋數(shù)據(jù),進(jìn)行實(shí)證化探索研究[17]。實(shí)質(zhì)上,莫萊蒂提出的遠(yuǎn)讀是通過(guò)分析數(shù)據(jù),利用實(shí)證性模型驗(yàn)證人文學(xué)者的相關(guān)研究,從宏觀角度研究人文學(xué)的發(fā)展。大規(guī)模文本集合上的遠(yuǎn)讀,主要分為宏觀統(tǒng)計(jì)描述和內(nèi)在結(jié)構(gòu)特征揭示兩種,其結(jié)果都是文本的宏觀抽象表達(dá),需 要 進(jìn) 一 步 解讀[1]。通過(guò)宏觀的分析,利用計(jì)算機(jī)技術(shù)量化描述文本特征,幫助學(xué)者深入解讀文本潛在規(guī)律,對(duì)于歷史學(xué)者而言,可以獲得全新的視角來(lái)觀察超長(zhǎng)歷史時(shí)間段的文化現(xiàn)象。可視化作為遠(yuǎn)讀的重要呈現(xiàn)手段,在實(shí)際研究中多使用標(biāo)簽云、網(wǎng)絡(luò)圖、結(jié)構(gòu)圖、熱力圖、地圖、時(shí)間線圖 6 種可視化方法。

  其中,標(biāo)簽云用以展示高頻詞匯,網(wǎng)絡(luò)圖可以反映文本內(nèi)或文本間信息的相互關(guān)系,結(jié)構(gòu)圖可以展現(xiàn)語(yǔ)料庫(kù)或單個(gè)文檔的層級(jí)結(jié)構(gòu),時(shí)間線圖則可以反映歷史數(shù)據(jù)隨時(shí)間的演化。因此,可以認(rèn)為遠(yuǎn)讀是數(shù)字文本的可視化形式,用以描述文檔集合的全局特征,幫助學(xué)者獲得整體認(rèn)知,方便研究人員更快發(fā)現(xiàn)文檔內(nèi)部的潛在關(guān)聯(lián),快速選擇研究角度深入分析。綜上,本文在數(shù)字遠(yuǎn)讀研究的基礎(chǔ)上,結(jié)合用戶畫(huà)像研究,提出 “社會(huì)畫(huà)像”這一概念。社會(huì)畫(huà)像即社會(huì)發(fā)展概貌,由特定時(shí)期社會(huì)發(fā)展描述的基本維度匯聚而成。通過(guò)抽取每個(gè)維度的描述概念構(gòu)成社會(huì)特征標(biāo)簽,使用社會(huì)特征標(biāo)簽構(gòu)建社會(huì)畫(huà)像并進(jìn)行可視化展示。基于社會(huì)特征標(biāo)簽,利用定性與定量相結(jié)合的方法,從不同角度、不同層面對(duì)社會(huì)發(fā)展維度進(jìn)行分析,可快速、清楚地了解該時(shí)期社會(huì)發(fā)展的主要特征。

  社會(huì)畫(huà)像具有以下特征:1) 結(jié)構(gòu)化: 建立社會(huì)描述文本分析框架,縮小文本分析的顆粒度。2) 自動(dòng)化: 利用文本分析技術(shù),抽取社會(huì)畫(huà)像特征標(biāo)簽,自動(dòng)構(gòu)建社會(huì)畫(huà)像。3) 可視化: 在文本計(jì)算的基礎(chǔ)上,幫助研究者形成快速的多維度分析結(jié)果。

  2 基于數(shù)字遠(yuǎn)讀技術(shù)的社會(huì)畫(huà)像構(gòu)建流程

  基于數(shù)字遠(yuǎn)讀技術(shù)的社會(huì)畫(huà)像可用于驗(yàn)證或輔助歷史學(xué)科的相關(guān)研究,為研究者快速獲得古代社會(huì)概貌及各方面發(fā)展特征提供支持,同時(shí)幫助構(gòu)建更符合現(xiàn)代人閱讀習(xí)慣的古漢語(yǔ)數(shù)字產(chǎn)品。社會(huì)畫(huà)像的構(gòu)建主要包括兩個(gè)部分: 社會(huì)畫(huà)像描述框架和社會(huì)畫(huà)像標(biāo)簽體系。其中,社會(huì)畫(huà)像描述框架是社會(huì)畫(huà)像構(gòu)建的基礎(chǔ),而社會(huì)畫(huà)像標(biāo)簽體系是社會(huì)畫(huà)像呈現(xiàn)的具體數(shù)據(jù)來(lái)源,可以更細(xì)致地反映特定時(shí)期社會(huì)各分面發(fā)展?fàn)顩r,并較為全面地呈現(xiàn)該時(shí)期主要發(fā)展特征。利用標(biāo)簽體系抽取社會(huì)特征標(biāo)簽并進(jìn)行可視化處理,綜合展示社會(huì)畫(huà)像的效果。

  2. 1 社會(huì)畫(huà)像分面描述框架的構(gòu)建

  在社會(huì)評(píng)價(jià)指標(biāo)方面,國(guó)家發(fā)改委和國(guó)家統(tǒng)計(jì)局聯(lián)合制( 修) 訂的 《社會(huì)發(fā)展水平綜合評(píng)價(jià)方案》提出四大維度,涉及人口發(fā)展、生活水平、公共服務(wù)以及社會(huì)和諧; 聯(lián)合國(guó)使用人文發(fā)展指數(shù),由健康指數(shù)、文化指數(shù)、生活水平指數(shù)復(fù)合組成。相關(guān)研究方面,王文博等[18]提出社會(huì)發(fā)展水平評(píng)價(jià)的6 個(gè)板塊,分別為人口發(fā)展、人民生活質(zhì)量、經(jīng)濟(jì)發(fā)展、社會(huì)公平與協(xié)調(diào)、安全與政治進(jìn)步和生態(tài)環(huán)境; 代金輝等[19]構(gòu)建了社會(huì)發(fā)展水平統(tǒng)計(jì)模型,包括經(jīng)濟(jì)、人民生活、教育、科技、精神文化、醫(yī)療衛(wèi)生 6 個(gè)要素層; 張艷豐等[20]在應(yīng)用層面提出智慧城市數(shù)據(jù)畫(huà)像分析框架,包括智慧治理、智慧民生、智慧經(jīng)濟(jì)、智慧環(huán)境、創(chuàng)新驅(qū)動(dòng) 5 個(gè)維度。綜上,社會(huì)畫(huà)像分面描述框架需要涵蓋與社會(huì)發(fā)展相關(guān)的政務(wù)、生活、經(jīng)濟(jì)、教育、環(huán)境以及創(chuàng)新等領(lǐng)域。本研究試圖通過(guò)文本統(tǒng)計(jì)方法借以描述特定歷史時(shí)期內(nèi)社會(huì)發(fā)展的總體狀況。前期對(duì)歷史典籍進(jìn)行了文本聚類(lèi)[21-22],因此,本文綜合考量社會(huì)相關(guān)評(píng)價(jià)指標(biāo)及前期研究文獻(xiàn),擬從政治、經(jīng)濟(jì)、文化、社會(huì)、軍事 5 個(gè)層面構(gòu)建社會(huì)畫(huà)像描述框架 SD。

  2. 2 社會(huì)畫(huà)像候選標(biāo)簽的獲取

  社會(huì)畫(huà)像描述框架是構(gòu)建畫(huà)像的基礎(chǔ),在此基礎(chǔ)上需要從相關(guān)文本中獲取語(yǔ)義相關(guān)的詞匯用于描述框架中的每個(gè)分面,借以形成以詞匯為基礎(chǔ)的社會(huì)畫(huà)像。候選標(biāo)簽的獲取工作便是從古漢語(yǔ)文本數(shù)據(jù)中,抽取出社會(huì)畫(huà)像描述框架 SD 中的具體事實(shí)信息稱為概念實(shí)體,如人名、地名、時(shí)間、物品及事件等。通常情況下,某一時(shí)期社會(huì)發(fā)展中越有影響力的事件,在這一時(shí)期的社會(huì)文本中記敘的篇幅越長(zhǎng)、內(nèi)容越多。因此,本文利用社會(huì)畫(huà)像標(biāo)簽體系構(gòu)建用戶詞典,在只考慮詞頻的情況下對(duì)語(yǔ)料庫(kù)進(jìn)行抽詞,通過(guò)計(jì)算候選標(biāo)簽在數(shù)據(jù)集中的總詞頻與該詞在數(shù)據(jù)集中覆蓋程度之間的乘積,得到候選標(biāo)簽及其初始權(quán)值。

  2. 3 社會(huì)畫(huà)像特征標(biāo)簽加權(quán)

  計(jì)算為進(jìn)一步區(qū)分候選標(biāo)簽的重要程度、加強(qiáng)特征標(biāo)簽與社會(huì)發(fā)展分面之間的映射關(guān)系,更好地區(qū)分抽取出的特征候選詞的重要程度。本文利用改進(jìn)的社會(huì)發(fā)展向量模型對(duì)已抽取社會(huì)特征候選詞的權(quán)重進(jìn)行修正,修正后的特征候選詞權(quán)重為該詞的初始權(quán)重 SEAi 值與該詞所屬類(lèi)別的成分得分系數(shù)的乘積[23]。本研究針對(duì)春秋時(shí)期歷史典籍語(yǔ)料數(shù)據(jù),通過(guò)分別統(tǒng)計(jì)抽取的候選標(biāo)簽所表征的事件種類(lèi)和個(gè)數(shù),以春秋三傳中時(shí)間劃分為文本組織標(biāo)準(zhǔn),形成了 255 個(gè)觀測(cè)數(shù)據(jù)樣本。利用主成分分析法進(jìn)行降維因子分析,并利用 KMO 和 Bartlett 球形度檢驗(yàn)定量的檢驗(yàn)變量之間是否具有相關(guān)性。

  3 社會(huì)畫(huà)像構(gòu)建實(shí)證分析

  為驗(yàn)證本文提出的社會(huì)畫(huà)像構(gòu)建方法的有效性,本文選取先秦時(shí)期進(jìn)行社會(huì)畫(huà)像構(gòu)建的實(shí)證分析。先秦時(shí)期作為中國(guó)歷史上重要階段,學(xué)者們研究較為深入,相關(guān)研究成果能夠支撐本文實(shí)證效果的驗(yàn)證。《左傳》作為先秦時(shí)期重要典籍,保留了大量先秦春秋時(shí)期政治、經(jīng)濟(jì)、文化、軍事等各方面的信息。因此,本文以已進(jìn)行人工分詞和詞性標(biāo)注的 《左傳》語(yǔ)料[24]為代表,作為春秋時(shí)期社會(huì)畫(huà)像的重要文本來(lái)源。

  3. 1 以《左傳》文本為例的社會(huì)畫(huà)像構(gòu)建

  首先,本文利用 《春秋左傳詞典》 《漢語(yǔ)大詞典》構(gòu)建春秋時(shí)期社會(huì)畫(huà)像描述框架; 其次,本文抽取 《左傳》中與社會(huì)發(fā)展相關(guān)的客觀描述性文本,構(gòu)建春秋時(shí)期社會(huì)語(yǔ)料庫(kù),利用社會(huì)畫(huà)像標(biāo)簽體系構(gòu)建用戶詞典進(jìn)行社會(huì)標(biāo)簽抽取。選擇計(jì)算 SEAi 結(jié)果排名前 50%且出現(xiàn)在兩篇以上文檔中的詞作為春秋社會(huì)特征,共篩選得到311 個(gè)候選標(biāo)簽,因古漢語(yǔ)多使用單字且語(yǔ)義多樣,因此,同現(xiàn)代漢語(yǔ)相比,抽取難度較大。使用改進(jìn)的社會(huì)發(fā)展向量模型對(duì)已抽取候選標(biāo)簽進(jìn)行加權(quán),并做歸一化處理,篩選后得到的春秋社會(huì)特征標(biāo)簽及其對(duì)應(yīng)權(quán)重。

  大多數(shù)特征標(biāo)簽權(quán)重較低,僅少數(shù)特征標(biāo)簽的權(quán)重大于 0. 6。因此,可認(rèn)為權(quán)重高的特征標(biāo)簽是 《左傳》描述的春秋社會(huì)的主要特征,關(guān)注高權(quán)重特征標(biāo)簽可以幫助發(fā)現(xiàn)春秋社會(huì)的顯著特點(diǎn)。計(jì)算特征標(biāo)簽在春秋社會(huì)畫(huà)像標(biāo)簽體系中的映射距離及關(guān)聯(lián)系數(shù),根據(jù)特征標(biāo)簽關(guān)聯(lián)系數(shù)及其權(quán)重繪制春秋時(shí)期的社會(huì)畫(huà)像。總體上春秋時(shí)期社會(huì)特征標(biāo)簽主要被分為四大類(lèi),具體為 “政治” “社會(huì)” “文化”“軍事”,其中與 “政治” “軍事”相關(guān)的特征標(biāo)簽最多,“文化”類(lèi)特征標(biāo)簽次之,“社會(huì)”類(lèi)特征標(biāo)簽最少。在 《左傳》中記敘與經(jīng)濟(jì)發(fā)展相關(guān)的事件描述非常少,因此,特征值排名前 50 的詞中沒(méi)有經(jīng)濟(jì)相關(guān)的特征標(biāo)簽。

  3. 2 以《左傳》文本為例的社會(huì)畫(huà)像分析

  3. 2. 1 社會(huì)畫(huà)像維度分析

  根據(jù)已構(gòu)建的社會(huì)畫(huà)像描述框架,對(duì)構(gòu)建的社會(huì)畫(huà)像進(jìn)行不同維度的描述。其中,基本信息維度通過(guò)對(duì)文本原始數(shù)據(jù)進(jìn)行定量分析來(lái)描述,物質(zhì)文化維度和非物質(zhì)文化維度通過(guò)對(duì)春秋時(shí)期社會(huì)畫(huà)像的標(biāo)簽數(shù)據(jù)進(jìn)行定量分析來(lái)描述。

  1) 基本信息維度。用于描述某一時(shí)期社會(huì)的基本信息的特征標(biāo)簽,如社會(huì)中的諸侯國(guó)、氏族、部落、主要人物及其相關(guān)的地理位置等信息。

  從基本信息維度進(jìn)行分析。 《左傳》所記歷史共 254 年( 公元前 722—公元前 468年) ,涉及東周王朝君王共 17 位,包含 8 個(gè)主要諸侯國(guó): 齊、宋、晉、秦、楚、吳、越、鄭,記載約113 個(gè)氏族、47 個(gè)部落,以戎、狄、皋落氏為主要代表,整個(gè)春秋時(shí)期的主要人物包括秦穆公、晉文公、齊桓公、宋襄公、楚莊公等。

  2) 物質(zhì)文化維度。描述社會(huì)物質(zhì)類(lèi)的特征標(biāo)簽,包括實(shí)體類(lèi)信息,如具體的器物、建筑、景觀、宮殿等,以及對(duì)實(shí)體起描述作用的描述性信息。《左傳》所記敘的春秋社會(huì)物質(zhì)文化維度具體包括器具、建筑類(lèi)型、宮殿、宗廟和生產(chǎn)材料等方面。其中,器具根據(jù)用途分為刑具、農(nóng)用器具、工業(yè)器具、祭祀用具、禮器、兵器和日常用具; 建筑類(lèi)型專指古建筑類(lèi)型,包括宗廟、宮殿、門(mén)、亭臺(tái)等; 在經(jīng)濟(jì)生產(chǎn)材料方面,工業(yè)材料主要為鐵、銅等,手工業(yè)材料主要為絲、布、麻、毛等。整體來(lái)看,春秋時(shí)期的物質(zhì)文化多以祭祀需要和軍事防御為主要目的,同時(shí)由于 《左傳》中經(jīng)濟(jì)相關(guān)記敘較少,抽取出的經(jīng)濟(jì)生產(chǎn)材料相對(duì)較少。3) 非物質(zhì)文化維度。用于描述社會(huì)非物質(zhì)類(lèi)的特征標(biāo)簽,包括具體的民俗、文化相關(guān)人物等實(shí)體類(lèi)信息,以及對(duì)應(yīng)的描述性信息。

  3. 3 結(jié)果分析

  現(xiàn)有的數(shù)字遠(yuǎn)讀分析主要集中于高頻詞分析、主題聚類(lèi)及情感分析等。本文提出的社會(huì)畫(huà)像分析主要針對(duì)歷史文本,建立社會(huì)發(fā)展描述分析框架,將詞頻分析在一定程度上提升為語(yǔ)義類(lèi)別的分析,通過(guò)抽取相關(guān)語(yǔ)義類(lèi)別的概念進(jìn)行可視化描述。從本質(zhì)上說(shuō)是基于統(tǒng)計(jì)手段為人文學(xué)者文本深度分析提供了一種數(shù)字化處理的手段。從定性評(píng)價(jià)的角度,春秋社會(huì)畫(huà)像將這段歷史時(shí)期從軍事、政治、社會(huì)及文化 4 個(gè)層面,通過(guò)對(duì)重要的人物、地點(diǎn)、事件、物件進(jìn)行分析與統(tǒng)計(jì),較難用量化方法準(zhǔn)確衡量每個(gè)維度的描述準(zhǔn)確性。《春秋大事表》是清代研究 《春秋》經(jīng)傳的一部重要著作,作者顧棟高對(duì)春秋及其三傳做了分類(lèi)整理和實(shí)證研究[25]。本文將研究結(jié)果與 《春秋大事表》進(jìn)行對(duì)比,本文的量化統(tǒng)計(jì)結(jié)果較為吻合。由于本文語(yǔ)料來(lái)源的限制,經(jīng)濟(jì)類(lèi)別未涵蓋在統(tǒng)計(jì)結(jié)果中。部分詞類(lèi)活用的詞匯未能準(zhǔn)確反映類(lèi)別特征。總體而言,驗(yàn)證了本文提出的社會(huì)畫(huà)像方法能夠在一定程度上實(shí)現(xiàn)對(duì)文本的結(jié)構(gòu)化和語(yǔ)義化分析。

  4 結(jié) 論

  對(duì)典籍?dāng)?shù)據(jù)進(jìn)行社會(huì)畫(huà)像的主要目的是將古代社會(huì)發(fā)展過(guò)程中的描述文本通過(guò)可視化技術(shù)進(jìn)行分析展示。本文在相關(guān)理論研究的支持下,借鑒用戶畫(huà)像概念,提出社會(huì)畫(huà)像及社會(huì)畫(huà)像描述框架,利用社會(huì)畫(huà)像標(biāo)簽體系抽取特征標(biāo)簽來(lái)表示社會(huì)特征,并構(gòu)建該時(shí)期的社會(huì)畫(huà)像。為驗(yàn)證本文提出方法的有效性,針對(duì)先秦典籍文本,構(gòu)建了春秋時(shí)期社會(huì)畫(huà)像,主要包括政治、軍事、文化及社會(huì) 4 個(gè)發(fā)展分面,主要特點(diǎn)為外交類(lèi)政治事件頻繁、戰(zhàn)爭(zhēng)頻發(fā)、注重禮樂(lè)文化。畫(huà)像結(jié)果與相關(guān)歷史研究結(jié)論相符,表明本文提出的社會(huì)畫(huà)像構(gòu)建方法可以為研究者快速獲得古代社會(huì)概貌提供支持,具有一定的實(shí)踐意義。本文的春秋社會(huì)畫(huà)像構(gòu)建研究還存在許多不足。首先,需要完善社會(huì)畫(huà)像描述框架,需要更多的數(shù)據(jù)來(lái)豐富框架內(nèi)容; 其次,在基于社會(huì)畫(huà)像標(biāo)簽體系的特征標(biāo)簽抽取算法中,需要進(jìn)一步考慮詞與詞之間豐富的關(guān)系,拓展現(xiàn)有的詞間關(guān)系; 最后,由于分析的社會(huì)語(yǔ)料較為單一,沒(méi)有實(shí)現(xiàn)對(duì)不同時(shí)期的社會(huì)畫(huà)像進(jìn)行比較和分析,這對(duì)深入探索古代社會(huì)尤其是先秦時(shí)期社會(huì)的發(fā)展變遷也很重要。以上不足需要在后續(xù)研究工作中繼續(xù)改進(jìn)和優(yōu)化。

  參 考 文 獻(xiàn)

  [1] 王 軍. 從人文計(jì)算到可視化———數(shù)字人文的發(fā)展脈絡(luò)梳理[J]. 文藝?yán)碚撆c批評(píng),2020,( 2) : 18-23.

  [2] 歐陽(yáng)劍. 面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘 [J]. 中國(guó)圖書(shū)館學(xué)報(bào),2016,42 ( 2) : 66-80.

  [3] 潘威. “數(shù)字人文”背景下歷史地理信息化的應(yīng)對(duì)———走進(jìn)歷史地理信息化 2. 0 時(shí)代 [J]. 云南大學(xué)學(xué)報(bào): 社會(huì)科學(xué)版,2018,17 ( 6) : 80-87.

  [4] 鄧君,鐘楚依,王阮,等. 清代職官知識(shí)組織與關(guān)聯(lián)分析———以《長(zhǎng)春縣志·長(zhǎng)春職官考釋表》為例 [J]. 圖書(shū)情報(bào)工作,2020,64 ( 17) : 18-26.

  [5] 宋雪雁,崔浩男,梁穎,等. 數(shù)字人文視角下名人日記資源知識(shí)發(fā)現(xiàn)研究———以王世杰日記為例 [J/OL]. 情報(bào)理論與實(shí)踐: 1-10 [2021-01-20].

  [6] 何琳,喬粵,劉雪琪. 春秋時(shí)期社會(huì)發(fā)展的主題挖掘與演變分析———以 《左傳》為例 [J]. 圖書(shū)情報(bào)工作,2020,64 ( 7) :30-38.

  [7] 汪倩,徐勇,張心蕊,等. 用戶畫(huà)像研究進(jìn)展綜述 [J]. 現(xiàn)代計(jì)算機(jī),2020,( 24) : 60-63

  選自期刊《現(xiàn)代情報(bào)》2022 年 7 月

  作者信息:何 琳 艾毓茜 劉建斌 彭秋茹( 1. 南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,江蘇 南京 210095;2. 南京農(nóng)業(yè)大學(xué)人文與社會(huì)計(jì)算研究中心,江蘇 南京 210095)

主站蜘蛛池模板: 欧美成人中文字幕在线视频 | 玩弄朋友娇妻呻吟交换电影 | X8X8拨牐拨牐X8免费视频8午夜 | YY600800新视觉理论私人 | 最新果冻传媒在线观看免费版 | 雪恋电影完整版免费观看 | TIMI1TV天美传媒在线观看 | 91精品专区 | 亚洲嫩草AV永久无码精品无码 | 99精品视频在线观看免费 | 亚洲国产成人久久精品影视 | 国产成人精品视频 | 被老总按在办公桌吸奶头 | 芳草地在线观看免费观看 | 御姐被吸奶 | 1313久久国产午夜精品理论片 | 国产精品嫩草影院一区二区三区 | 超级乱淫片午夜电影网99 | 男女牲交大战免费播放 | 99热在线视频这里只精品 | 一个人色导航 | 成人在线视频在线观看 | 午夜在线播放免费人成无 | 久久无码AV亚洲精品色午夜麻豆 | 真实国产乱子伦精品一区二区三区 | 亚洲高清中文字幕 | 一本道高清码 | 特级aa 毛片免费观看 | 国产69精品久久久久乱码 | 奇米狠狠干 | 亚洲欧洲日本天天堂在线观看 | 综合人妻久久一区二区精品 | 日本电影护士 | 成人亚洲视频在线观看 | 秋霞网韩国理伦片免费看 | 最新国产精品福利2020 | 永久免费精品影视网站 | HEYZO精品无码一区二区三区 | 97超视频在线观看 | 色婷婷综合久久久中文字幕 | 日韩亚洲视频一区二区三区 |