時間:2022年04月01日 分類:經(jīng)濟(jì)論文 次數(shù):
摘 要:[研究目的] 對近幾年多源多維數(shù)據(jù)融合相關(guān)文獻(xiàn)進(jìn)行梳理和分析,為我國數(shù)據(jù)融合領(lǐng)域后續(xù)的理論與實踐研究提供參考。 [研究方法] 在對多源多維數(shù)據(jù)融合概念進(jìn)行界定的基礎(chǔ)上,借助 VOSviewer 軟件,從理論、方法與應(yīng)用三個層面進(jìn)行文獻(xiàn)回顧,重點闡述了數(shù)據(jù)融合在圖情領(lǐng)域的應(yīng)用情況,最后總結(jié)研究不足和展望發(fā)展方向。[研究結(jié)論] 當(dāng)前多源多維數(shù)據(jù)融合研究存在如下不足:理論體系缺乏系統(tǒng)性、融合技術(shù)解決問題片面化、忽視“軟數(shù)據(jù)冶融合研究等,未來可以從這些方面加以突破。
關(guān)鍵詞:多源數(shù)據(jù);多維數(shù)據(jù);數(shù)據(jù)融合;神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
大數(shù)據(jù)時代,信息爆炸式增長,數(shù)據(jù)的來源也越來越廣泛,總的來說,可以把數(shù)據(jù)來源歸納為兩大類,一類是“以物為中心冶 的各種傳統(tǒng)傳感器獲取的“硬數(shù)據(jù)冶,另一類是“以人為中心冶產(chǎn)生的“軟數(shù)據(jù)冶,如社交網(wǎng)絡(luò)數(shù)據(jù)、web 數(shù)據(jù)、多媒體數(shù)據(jù)等。
此外,數(shù)據(jù)除來源廣外,還具有多維性特征,多維主要體現(xiàn)在數(shù)據(jù)屬性的多樣性上,即對同一對象從不同視角提取的數(shù)據(jù),如內(nèi)容主題維度、類型維度、結(jié)構(gòu)維度、時間維度、空間維度等。面對海量、復(fù)雜的數(shù)據(jù),一方面難以充分挖掘出有價值的信息,另一方面單來源單維度數(shù)據(jù)難以滿足輔助科學(xué)決策的需要,多源多維數(shù)據(jù)融合發(fā)展的需求越來越迫切。
與此同時,物聯(lián)網(wǎng)、云計算、人工智能等新興技術(shù)的發(fā)展,不僅提高了數(shù)據(jù)獲取與數(shù)據(jù)分析處理的能力、促進(jìn)了數(shù)據(jù)融合的發(fā)展,也增加了數(shù)據(jù)融合的研究熱度。 因此,本文對多源多維數(shù)據(jù)融合的研究現(xiàn)狀進(jìn)行梳理與分析,以期為數(shù)據(jù)融合領(lǐng)域后續(xù)的理論與實踐研究提供參考。
1 概念界定
一般來說,數(shù)據(jù)融合和信息融合通常被視為相同的概念,只是在某些情況下,數(shù)據(jù)融合用來表示處理直接從傳感器獲得的原始數(shù)據(jù),信息融合則用來定義處理在原始數(shù)據(jù)基礎(chǔ)上形成的信息[1]。 在研究文獻(xiàn)中,與數(shù)據(jù)融合相關(guān)的術(shù)語通常還包括傳感器融合、多傳感器融合、知識融合、數(shù)據(jù)聚合、數(shù)據(jù)集成、數(shù)據(jù)組合等。
本文在處理過程中,將數(shù)據(jù)融合和信息融合視為了相同的概念。 數(shù)據(jù)融合這一概念最早是在 20 世紀(jì)70 年代美國軍事領(lǐng)域內(nèi)提出的,之后被廣泛應(yīng)用于工業(yè)、農(nóng)業(yè)、交通、醫(yī)療等領(lǐng)域。 不同領(lǐng)域?qū)?shù)據(jù)融合的理解和運用不同,因此數(shù)據(jù)融合至今依然沒有統(tǒng)一的定義。 目前,被普遍采納的定義是由美國三軍組織實驗室理事聯(lián)合會(JDL)提出的,他們認(rèn)為數(shù)據(jù)融合是一種對多源數(shù)據(jù)進(jìn)行檢測、相關(guān)、組合和估計的多層次、多方面處理過程[2]。
Hall D L 等認(rèn)為數(shù)據(jù)融合是將多種來源的數(shù)據(jù)結(jié)合起來,利用計算機進(jìn)行數(shù)據(jù)處理,得到單個或單類信息源無法獲得的有價值的綜合信息[3]。 結(jié)合前人觀點,筆者認(rèn)為,多源多維數(shù)據(jù)融合是根據(jù)數(shù)據(jù)融合的目的和所處層次,選擇恰當(dāng)?shù)臄?shù)據(jù)融合結(jié)構(gòu)和算法,通過對描述對象不同來源不同維度的數(shù)據(jù)進(jìn)行抽取、清洗、分選等預(yù)處理,提取出數(shù)據(jù)特征并進(jìn)行關(guān)聯(lián)組合,從而得到更加準(zhǔn)確完整信息的過程。
2 數(shù)據(jù)來源依據(jù)
論題解讀,筆者以中國知網(wǎng)數(shù)據(jù)庫為數(shù)據(jù)統(tǒng)計源,以“數(shù)據(jù)融合冶“信息融合冶 “多源數(shù)據(jù)冶 “多維數(shù)據(jù)冶“多源信息冶“多維信息冶為檢索詞,進(jìn)行“篇名冶檢索,限定期刊來源為北大核心、CSSCI 以及 CSCD,檢索時間為 2021 年 6 月 10 日,檢索結(jié)果為 5511 篇相關(guān)文獻(xiàn)。 筆者對其年發(fā)文量進(jìn)行統(tǒng)計,得到年發(fā)文量曲線圖(注:2021 年數(shù)據(jù)不完整,截至檢索日期共計 162 篇)。
1992 年以前,我國并不十分重視數(shù)據(jù)融合的研究;1992 年至 1998年,數(shù)據(jù)融合相關(guān)文獻(xiàn)開始出現(xiàn)且年發(fā)文量逐漸增加,表明數(shù)據(jù)融合在我國開始受到關(guān)注,相關(guān)研究開始起步;1999 年至 2009 年,年發(fā)文量快速增長,并且在2009 年達(dá)到階段性峰值,表明數(shù)據(jù)融合相關(guān)研究進(jìn)入高速發(fā)展階段;2009 年至今,數(shù)據(jù)融合相關(guān)文獻(xiàn)年發(fā)文量有所回落,但總體呈平穩(wěn)上升趨勢,并且年發(fā)文量數(shù)值較高,表明國內(nèi)學(xué)者對數(shù)據(jù)融合研究一直保持著較高的關(guān)注度,數(shù)據(jù)融合相關(guān)研究進(jìn)入平穩(wěn)發(fā)展階段。
為了解國內(nèi)多源多維數(shù)據(jù)融合的最新研究進(jìn)展,筆者對近五年的期刊文獻(xiàn)進(jìn)行了分析,把檢索時間限定為 2016 年 1 月 1 日至 2021 年 6 月 10 日,共得到1611 篇文獻(xiàn),對檢索結(jié)果進(jìn)行預(yù)處理(去重及去除不相關(guān)等)后得到緊密相關(guān)的文獻(xiàn) 1 565 篇。 本次研究運用了文獻(xiàn)計量學(xué)方法,借助可視化應(yīng)用軟件 VOS鄄viewer,對研究樣本進(jìn)行分析。
3 多源多維數(shù)據(jù)融合相關(guān)研究
多源數(shù)據(jù)和多維數(shù)據(jù)都是數(shù)據(jù)融合的處理對象,根據(jù)不同的分類標(biāo)準(zhǔn)可以把數(shù)據(jù)劃分為多源數(shù)據(jù)和多維數(shù)據(jù),多源數(shù)據(jù)是按照數(shù)據(jù)的來源進(jìn)行劃分,多維數(shù)據(jù)的劃分標(biāo)準(zhǔn)是數(shù)據(jù)的屬性,多來源也可以看作是多維度的一種維度,從這個意義上說,多維數(shù)據(jù)的含義高于多源數(shù)據(jù)。
一般來說,多源數(shù)據(jù)和多維數(shù)據(jù)之間沒有絕對的關(guān)系,單來源的數(shù)據(jù)按照不同的性質(zhì)可以劃分出多個維度,同一性質(zhì)的數(shù)據(jù)按照不同的來源也可以劃分為多個來源,且各種來源的數(shù)據(jù)大多涉及多維度處理問題,所以在處理數(shù)據(jù)時,對數(shù)據(jù)是多源還是多維的判斷通常不是絕對的。
同時分析整理文獻(xiàn)發(fā)現(xiàn),大多數(shù)多源多維數(shù)據(jù)融合研究主要針對多來源數(shù)據(jù)進(jìn)行分析,集中于理論研究、方法研究以及應(yīng)用研究,且不少文獻(xiàn)把多源數(shù)據(jù)融合簡稱為數(shù)據(jù)融合,所以筆者主要從數(shù)據(jù)融合的理論、方法與應(yīng)用三個層面展開分析。
3. 1 數(shù)據(jù)融合理論研究
大數(shù)據(jù)時代,大規(guī)模的多源多維數(shù)據(jù)關(guān)聯(lián)交叉,融合處理難度大,不少學(xué)者提出數(shù)據(jù)融合面臨著諸多困境。 整體來看,融合過程在融合方式變革、融合規(guī)模控制與數(shù)據(jù)存儲維護(hù)方面,融合結(jié)果在用戶隱私保護(hù)與實際應(yīng)用對接方面,融合技術(shù)在跨領(lǐng)域、跨學(xué)科、跨語言以及跨媒體融合方面存在著挑戰(zhàn)與問題[4]。
從具體領(lǐng)域來看,圖書館大數(shù)據(jù)融合面臨著多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)難度大、實時大數(shù)據(jù)和歷史大數(shù)據(jù)融合復(fù)雜性大、對傳感器系統(tǒng)功能性需求大、大數(shù)據(jù)安全與開放的矛盾大等挑戰(zhàn);高等教育發(fā)展也存在大數(shù)據(jù)融合利用效率低、利用力度不足、浪費嚴(yán)重、數(shù)據(jù)化水平低等困境。 部分學(xué)者針對各領(lǐng)域不同的發(fā)展目的提出了數(shù)據(jù)融合的途徑,同時還有學(xué)者進(jìn)一步對數(shù)據(jù)融合的體系建設(shè)提出了構(gòu)想,如張文萍等探討了包括數(shù)據(jù)描述模型、數(shù)據(jù)服務(wù)模型、數(shù)據(jù)管理計劃等的科學(xué)數(shù)據(jù)融合體系架構(gòu)[5];翟運開等從層次維、時間維和種類維三個角度構(gòu)建了包括精準(zhǔn)醫(yī)療多源異構(gòu)數(shù)據(jù)融合標(biāo)準(zhǔn)體系框架[6]。
總體來說,近幾年數(shù)據(jù)融合理論相關(guān)文獻(xiàn)數(shù)量不多,研究主要集中在面臨問題、融合途徑以及體系建設(shè)等方面。 關(guān)于數(shù)據(jù)融合困境的研究比較片面和泛化,未來還需根據(jù)發(fā)展需求與實際情況不斷剖析數(shù)據(jù)融合面臨的問題與挑戰(zhàn);對于數(shù)據(jù)融合途徑的研究比較薄弱,無論是從整體視角還是具體應(yīng)用領(lǐng)域來看都有很大的研究空間;許多領(lǐng)域?qū)?shù)據(jù)融合體系建設(shè)的重視度不夠,且沒有形成廣義的數(shù)據(jù)融合體系。 總之,多源多維數(shù)據(jù)融合理論不夠完善,還需在理論層面進(jìn)一步展開探討,構(gòu)建完整的系統(tǒng)理論體系。
3. 2 數(shù)據(jù)融合方法研究
受外界環(huán)境或傳感器性能等的影響,各系統(tǒng)獲得的數(shù)據(jù)存在冗余或不準(zhǔn)確的問題,數(shù)據(jù)融合方法通過對不同形式的數(shù)據(jù)進(jìn)行處理,可有效獲得準(zhǔn)確信息。 為更直觀全面地反映數(shù)據(jù)融合方法的發(fā)展現(xiàn)狀,筆者抽取與數(shù)據(jù)融合方法研究相關(guān)的文獻(xiàn),運用可視化應(yīng)用軟件 VOSviewer 構(gòu)建關(guān)鍵詞可視化圖譜。 運用較多的方法是神經(jīng)網(wǎng)絡(luò)( BP 神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))、D-S 證據(jù)理論、卡爾曼(Kalman)濾波、支持向量機(SVM)、遺傳算法、信息熵、自適應(yīng)加權(quán)、層次分析法、小波變換、粒子群算法、聚類、蟻群算法等。
(1)BP 神經(jīng)網(wǎng)絡(luò)。 BP 神經(jīng)網(wǎng)絡(luò)即反向傳播神經(jīng)網(wǎng)絡(luò),屬于淺層神經(jīng)網(wǎng)絡(luò)的一種,通常由一個輸入層、一個隱藏層和一個輸出層組成,多層的網(wǎng)絡(luò)體系結(jié)構(gòu)使得信息的輸出更加準(zhǔn)確。 如有學(xué)者設(shè)計了一款危化品倉庫巡邏機器人,在對收集的泄露危化品濃度、倉庫內(nèi)環(huán)境溫度和濕度數(shù)據(jù)進(jìn)行拉依達(dá)去噪、歸一化后利用 BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行融合輸出,大幅度提高了機器人報警的準(zhǔn)確性和可靠性[8]。 由于外界環(huán)境的復(fù)雜性以及 BP 神經(jīng)網(wǎng)絡(luò)自身的缺陷,越來越多的學(xué)者借助優(yōu)化算法,如改進(jìn)蟻群算法、改進(jìn)粒子群算法、啟發(fā)螢火蟲算法、改進(jìn)煙花算法等設(shè)計 BP 神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)融合算法,優(yōu)化了 BP 神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值,有效地減少了冗余數(shù)據(jù)傳輸,提高了融合的精度和收斂速度,改善了數(shù)據(jù)融合算法的性能。
(2)深度學(xué)習(xí)。 深度學(xué)習(xí)由淺層神經(jīng)網(wǎng)絡(luò)發(fā)展而來,是深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)稱,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中重要的算法結(jié)構(gòu)。 不同于淺層神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)擁有多個隱藏層,且較低層的隱藏層輸出可以作為較高層隱藏層的輸入[9]。 深度學(xué)習(xí)具有更強的特征表示能力,不少學(xué)者將其運用到了數(shù)據(jù)融合算法中。 如馬永軍等提出了以卷積神經(jīng)網(wǎng)絡(luò)模型為核心的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法,有效地提高了數(shù)據(jù)采集精度[10];張輝等提出了一種基于深度神經(jīng)決策森林(DNDF)的數(shù)據(jù)融合方法,有效提取了多維數(shù)據(jù)的關(guān)鍵特征,解決了體域網(wǎng)中多傳感器數(shù)據(jù)采集過程中數(shù)據(jù)冗余大、特征信息模糊的問題[11]。 總的來說,與傳統(tǒng)數(shù)據(jù)融合算法相比,深度學(xué)習(xí)可以有效地改善高噪聲、多維度、大規(guī)模、結(jié)構(gòu)復(fù)雜數(shù)據(jù)的融合效果。
3. 3 數(shù)據(jù)融合應(yīng)用研究分析
文獻(xiàn)發(fā)現(xiàn),數(shù)據(jù)融合應(yīng)用研究是當(dāng)前的重點與熱點,筆者通過整理數(shù)據(jù)融合應(yīng)用相關(guān)研究,運用 VOSviewer 軟件構(gòu)建了關(guān)鍵詞知識圖譜,數(shù)據(jù)融合應(yīng)用范圍十分廣泛,主要用于故障診斷、遙感、目標(biāo)跟蹤、導(dǎo)航、目標(biāo)檢測、交通工程、目標(biāo)識別、智慧城市、狀態(tài)評估、圖像處理、機器人、產(chǎn)地鑒別、定位、三維建模等。 總的來說,針對傳統(tǒng)物理傳感器的數(shù)據(jù)融合應(yīng)用研究偏多,“以人為中心冶 的數(shù)據(jù)融合應(yīng)用研究較為缺乏。 不同領(lǐng)域的數(shù)據(jù)融合應(yīng)用不近相同、各有側(cè)重,筆者對數(shù)據(jù)融合在圖情領(lǐng)域的具體應(yīng)用進(jìn)行了分析。
4 總結(jié)與討論
通過文獻(xiàn)梳理可知,目前我國多源多維數(shù)據(jù)融合已經(jīng)具有一定的研究規(guī)模,研究內(nèi)容包括理論、方法與應(yīng)用三個方面。 就理論研究來說,部分學(xué)者對數(shù)據(jù)融合的問題、思路與體系等給出了自己的見解;就方法研究來說,不同專業(yè)的學(xué)者對各自領(lǐng)域的數(shù)據(jù)融合方法進(jìn)行了優(yōu)化與完善;就應(yīng)用研究來說,各領(lǐng)域根據(jù)具體問題通過建設(shè)平臺、設(shè)計系統(tǒng)和構(gòu)建模型等方式對數(shù)據(jù)融合技術(shù)有了不同程度的運用。 其中,圖情領(lǐng)域?qū)?shù)據(jù)融合方法的使用更多體現(xiàn)在智慧服務(wù)發(fā)展、用戶行為分析、信息資源建設(shè)、科學(xué)前沿識別、突發(fā)事件響應(yīng)、科學(xué)評價優(yōu)化等方面。當(dāng)前研究依然存在以下幾點不足:淤理論基礎(chǔ)研究相對薄弱,對相關(guān)概念缺少統(tǒng)一的定義與認(rèn)識,缺乏系統(tǒng)的理論基礎(chǔ),沒有形成完整的理論體系。
于數(shù)據(jù)融合技術(shù)的發(fā)展面臨著數(shù)據(jù)異構(gòu)、數(shù)據(jù)不確定、數(shù)據(jù)異常和虛假、數(shù)據(jù)關(guān)聯(lián)等多個方面的問題,但是大多數(shù)技術(shù)研究只是集中在解決這些問題中的部分,缺少對解決所有問題數(shù)據(jù)融合算法的整體研究。 盂應(yīng)用研究主要集中在“以物為中心冶的數(shù)據(jù)融合上,缺少對“以人為中心冶的數(shù)據(jù)融合的研究,即對物理傳感器等設(shè)備獲得的“硬數(shù)據(jù)冶的融合研究較多,對來自社會網(wǎng)絡(luò)、數(shù)據(jù)庫等信息系統(tǒng)的“軟數(shù)據(jù)冶或“軟硬數(shù)據(jù)冶融合的研究相對較少。
同時,數(shù)據(jù)融合方法在圖情領(lǐng)域的應(yīng)用研究還處于起步階段,發(fā)展不成熟,未來還有很大的研究空間。針對上述不足,未來研究可以考慮從以下幾個方面取得進(jìn)展:淤發(fā)展和完善數(shù)據(jù)融合的基礎(chǔ)理論研究,既要有針對特定應(yīng)用領(lǐng)域數(shù)據(jù)融合的特征、準(zhǔn)則和方案等的理論架構(gòu),也要注重發(fā)展數(shù)據(jù)融合作為獨立學(xué)科廣義的融合模型與算法等系統(tǒng)理論體系。
于技術(shù)發(fā)展上注重改進(jìn)和完善現(xiàn)有數(shù)據(jù)融合算法,發(fā)展多種數(shù)據(jù)融合方法結(jié)合的綜合數(shù)據(jù)融合算法,增強異構(gòu)數(shù)據(jù)融合算法的魯棒性和準(zhǔn)確度,提高數(shù)據(jù)融合的性能。盂人可以提供物理傳感器無法獲得的有價值的信源,要加強對“以人為中心冶的“軟數(shù)據(jù)冶或“軟硬數(shù)據(jù)冶融合的應(yīng)用研究,進(jìn)一步擴(kuò)展數(shù)據(jù)融合技術(shù)在圖情領(lǐng)域的應(yīng)用。 榆構(gòu)建數(shù)據(jù)融合評估方法,對數(shù)據(jù)融合系統(tǒng)進(jìn)行多維度分析與評價。
參 考 文 獻(xiàn):
[1] Liu P, Chen L. A multi-source data aggregation and multidi鄄mensional analysis model for big data[C] / / ITM Web of Con鄄ferences. EDP Sciences, 2017: 05009.
[2] Steinberg A N, Bowman C L, White F E. Revisions to the JDLdata fusion model[J]. Proceedings of the Society of Photo-opti鄄cal Instrumentation Engineers, 1999, 3719:430-441.
[3] Hall D L, Llinas J. An introduction to multisensor data fusion[J]. Proceedings of the IEEE, 1997, 85(1):6-23.
[4] 孟小峰,杜治娟. 大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[ J]. 計算機研究與發(fā)展,2016,53(2):231-246.
[5] 張文萍,宋秀芬,魏銀珍,等. 基于 FAIR 標(biāo)準(zhǔn)的科學(xué)數(shù)據(jù)融合體系研究[J]. 中國圖書館學(xué)報,2020,46(6):41-54.
[6] 翟運開,路 薇,張瑞霞,等. 多維集成視角下精準(zhǔn)醫(yī)療數(shù)據(jù)融合標(biāo)準(zhǔn)體系構(gòu)建[J]. 中國衛(wèi)生資源,2020,23(1):23-27.
[7] Mcculloch W S, Pitts W. A logical calculus of the ideas imma鄄nent in nervous activity[ J]. Bulletin of Mathematical Biophys鄄ics, 1990, 52(1-2):99-115.
[8] 黃衍標(biāo),羅廣岳,何銘金. BP 神經(jīng)網(wǎng)絡(luò)在巡邏機器人多傳感器數(shù)據(jù)融合中的應(yīng)用[ J]. 傳感技術(shù)學(xué)報,2016,29 (12):1936 -1940.
作者:于佳會 劉佳靜 鄭建明