時間:2020年02月05日 分類:文學論文 次數:
摘要:大數據發展日新月異,新的應用需求和實踐問題層出不窮,社會各界越來越重視大數據的基礎研究。百科全書作為知識門類的概述性著作,是開展和推動基礎研究的重要載體。作為大數據知識傳播的工具,《大數據百科全書》不僅要有實用與新穎兼備的知識內容,并且還應具備準確嚴謹與通暢易懂的專業化語言文字表達。其中,術語是《大數據百科全書》不可或缺的有機組成部分,文章總結大數據領域的術語特點,并以此提出《大數據百科全書》術語方面的收錄和處理原則。
關鍵詞:大數據;百科全書;術語
相關論文投稿刊物:《百科知識》雜志社與中國大百科全書出版社同期創建于1979年, 是由中國大百科全書出版社主辦的國內惟一文理合編的國家級科普刊物; 是國內公認的具有權威性的老牌科普雜志之一!栋倏浦R》雜志的特 色是門類廣泛、文理合編、權威準確、通俗易懂。
2017年5月,中國大數據領域第一部專業百科全書———《大數據百科全書》正式啟動編纂工作,該書將由大數據戰略重點實驗室負責研究編纂,并經全國科學技術名詞審定委員會(以下簡稱“名詞委”)審定發布。該書將在科學方法論的指導下,以歷史和發展的眼光,對大數據知識體系進行全面梳理,覆蓋大數據理論、大數據戰略、大數據技術、數字經濟、數字金融、數據治理、數據安全、數權法、大數據史九個方面,并以專業規范的百科全書語言的形式編纂成書,以期推動大數據領域的知識傳播和普及,并為深入研究大數據提供基礎性研究素材。《大數據百科全書》以大數據領域內的豐富知識為主體,包括大數據領域的基本理論、重要事件、基本事實、基本概念、重要流派、重要機構組織、重要著作和出版物、重要人物、重要政策文本等內容。術語作為概念、理論的語言指稱,是《大數據百科全書》不可或缺的有機組成部分和研究重點,主要分布在百科全書的立目用詞和釋文用語。
一術語是《大數據百科全書》的有機組成部分
1.術語是大數據領域主要的專業用語
隨著大數據的飛速發展,相關知識體系逐步完善,其領域詞匯越來越豐富,相關術語所占的比重越來越大。術語是特定領域學科中的專門用語,是構建學科體系的基本元素。根據詞匯使用范圍的不同,德國學者希爾默(A.Schirmer)將其分成通用詞和專業詞匯,專業詞匯由術語、專名①、行業用語等詞匯單位組成,其中術語是基本的專業詞匯單位[1]。與專名相比,術語稱謂的普通概念更具概括性,可以指稱客觀世界的一類客體,而專名往往處于概念體系的最底層,指稱客觀世界的唯一客體,包括人名、機構名等等。
同時,術語與專名具有相通性,在某些情況下可以互相轉化。如“ENIAC”(ElectronicNumericalIntegratorandComputer),最初是指1946年的第一臺電子計算機,屬于專名,但由其發展而來的“電子計算機”已經成為計算機科學術語。與行業用語相比,術語和行業用語雖都用于專業領域,且稱謂某個專門的概念,但術語更具規范性,而行業用語中常用具有俚俗色彩的口頭語,修辭色彩更強。如計算機領域從事軟件開發的工作人員也常常自嘲為“碼農”。
2.術語是《大數據百科全書》的重要研究內容
術語不僅僅是專業領域內的語言交流的工具,還是對學科知識的凝練和濃縮,是科學理論的組成部分。術語既是語言單位,又是科學知識單位,術語符號與該知識領域的概念系統中的概念相互對應,它不僅是對專業領域內理論概念的語言指稱,還是對在認知過程中出現并完善的專業概念的形式化。它能夠概括、增加和傳遞科學知識,反映某一認知領域的發展階段和程度[2]!洞髷祿倏迫珪吩谌媸崂泶髷祿I域的基礎理論、知識門類與發展實踐的過程中,必然要對其領域的相關術語進行研究探索。以大數據領域概念為基礎的術語系統,是歸納概括領域知識的符號系統,在一定程度上體現了人們對大數據的知識系統的認識,也是《大數據百科全書》框架體系的重要參考依據。
3.術語符合《大數據百科全書》的語言要求
術語是科學語言,其科學性、簡明性以及中立性等特性與百科全書的語言要求相符,使得術語成為《大數據百科全書》的重要用語。首先,術語的科學性要求術語要與所稱謂的概念一致,準確傳遞概念內容。其次,術語的簡明性要求術語簡明扼要,易讀易記,術語一般不宜過長。各語言中超過7個字(或詞)的術語短語數量有限。冗長術語在使用時往往會被簡化,從而構成縮略形式。如“筆記本”(筆記本式計算機)、“微機”(微型計算機)等。最后,術語的修辭中立性是指術語不帶有修辭色彩、主觀情態性和其他表現力因素。在構詞時,避免使用方言或俗語詞匯[2]。
這與百科全書準確、平實、簡明的用詞特征相符!洞髷祿倏迫珪芬獮橄嚓P讀者釋疑解惑,就必須具備真實、準確、科學的大數據知識或信息。這不僅要求其內容是大數據領域的客觀真理或規律,符合客觀實際,經得起推敲和邏輯推理;同時,作為內容載體的文本語言力求嚴謹顯真,客觀準確反映表達的內容。這就要求其用詞表意準確,選用恰當、最能反映事物或現象真諦和精髓的詞語入文,忠實地表達概念,多選擇具有科技語體色彩并且表意準確的書面用語,避免使用口語化或存在歧義的日常用語[3]。
二大數據術語特點
《大數據百科全書》作為大數據領域的專業百科全書,應盡可能體現所有或者至少大多數大數據領域的專業詞匯單位。因此,《大數據百科全書》術語的范圍以大數據術語為主,此外《大數據百科全書》還包括一部分相鄰領域的相關術語。同時,大數據領域術語的一般規律和基本原則決定了《大數據百科全書》的術語特點,并深刻影響著《大數據百科全書》術語的收錄和處理。
1.前沿性
大數據作為近年出現的新興領域,相關新事物、新概念、新技術層出不窮,大數據領域術語更具有鮮明的時代性。大數據領域知識相比其他傳統學科更為年輕,該領域大部分科技術語較其他學科術語發展歷程較短。相關的概念作為新概念的期限一般不長,很快就進入使用階段。它們既是在某一段時期內科學技術領域的研究熱點,也是社會大眾關注焦點的科技名詞。“大數據”一詞首次使用于1997年,20世紀末到21世紀初期,逐漸為學術界的研究者所關注。直到2014年,“大數據”作為我國科技新詞②之一,由全國科學技術名詞審定委員會正式對外發布試用。同時,大數據領域的新詞數量多,發展快,很多術語尚未形成共識和規范,這為大數據領域的術語整理提出挑戰。
2.跨學科性
大數據術語的跨學科性來源于大數據領域多學科交叉發展的特點。大數據與多門學科都有緊密聯系,其理論基礎來自多個不同的學科領域,包括計算機科學、統計學、信息科學等,其知識系統本身具有極高的復雜交叉性[4]。大數據領域固有術語③較少,大數據領域部分基礎詞匯來源于相鄰學科的術語混合,也存在受其他學科影響而獲得新義的術語。根據國家標準《GB∕T35295—2017信息技術大數據術語》,大數據術語中包含“數據、數據處理、數據管理、關系模型、關系數據庫”等與信息技術密切相關的通用術語。大數據術語的跨學科性對整理術語及術語集界限的確定造成了一定的困難。
3.融合性
隨著大數據與經濟社會各領域進一步融合發展,大數據應用也向各細分領域延伸拓展,其領域詞匯也逐漸擴展到各細分的應用領域,并在相互作用時產生術語的混合體。2017年5月,名詞委聯合大數據戰略重點實驗室首次對外發布塊數據、主權區塊鏈、秩序互聯網、激活數據學、5G社會、數據鐵籠、數權法等大數據十大新名詞。這些新詞不僅反映大數據的創新與發展,更是大數據在各個領域融合應用的結果。融合術語集有的模糊不清,有的基本術語完全保留了原義,有的略有修改,有的經過專業化后完全改變了原義,因其成分不純,這些術語界線的確定和系統化顯得更為復雜[5]。
三《大數據百科全書》的術語收錄和使用原則
新聞出版總署等多部門曾明確發文要求“各編輯出版單位今后出版的有關書刊、文獻、資料,要求使用公布的名詞。特別是各種工具書,應把是否使用已公布的規范名詞作為衡量該書質量的標準之一”。大數據作為新興學科領域,相關術語規范標準尚未完善,部分大數據術語的規范和選擇還處于過程階段。《大數據百科全書》作為大數據知識傳播的重要載體,理應在整理、規范大數據術語方面承擔更大的責任,發揮更大的作用。
1.適量使用術語,在保證科學性的基礎上注意通俗性
《大數據百科全書》的讀者對象主要是政府的政策制定與執行部門、研究機構、企事業單位中從事大數據相關研究和應用的人士。其中,既包括大數據領域的專業人士,也包括其他大數據領域的相關人士,受眾范圍相對寬泛。由于個人專業水平和文化素質等因素的影響,這些受眾對大數據的專業認知存在差異。為盡可能滿足每一位讀者的需要,《大數據百科全書》的語言運用要處理好通俗化的問題,總體控制相關術語的收錄數量、釋義篇幅、使用范疇,盡可能避免使用艱深晦澀的專業術語,使得其知識的縱深適合。具體注意事項有以下幾點:一是釋義時僅在必要的情況下使用術語,在可以不用術語時,要選用大眾熟知的表達方式;二是在使用過于艱深羞澀的術語時需對術語做出解釋和說明;三是根據語言經濟原則,要盡可能避免術語套術語,忌循環使用術語解釋術語。
2.謹慎對待科技新詞,避免使用爭議詞
人們對大數據領域的認識有一個逐漸清晰的過程。在大數據相關概念產生和構建的過程中,部分詞匯的內涵有可能不夠明確,概念不夠穩定,學界對其認識也有個過程,在此過程中出現了大量科技新詞。隨著時間的推移,有的科技新詞逐步穩定,進入成熟的概念體系,而有的科技新詞會被更為規范的術語代替。作為一部規范性的權威辭書,《大數據百科全書》具有可信的精確性、時代性以及相對的穩定性的特點,其科技新詞和爭議詞的處理是積極但又比較謹慎的。對于這部分詞語收錄的意義不僅在于對其進行實錄和保留,更重要的是對其定型、規范釋義和傳播指導。
一方面,《大數據百科全書》的科技新詞收錄標準是嚴格的,態度是慎重的。詞的理據④上,要求名詞合理,符合漢語的構詞規律,排除和限制不規范的詞語;詞的使用上,要求收錄具有生命力⑤和普遍性⑥的詞語。一些偶發詞⑦依賴于既有詞和特定語境,且復用率極低,其意義也是臨時性的,這類詞應當避免。另一方面,有些問題雖未最終穩定下來,或者說尚未“蓋棺定論”,但已形成人們熟知的話題,形成穩定下來的問題,也具有收錄的意義。諸如類術語、準術語、偽術語這類專業詞匯,它們是大數據術語發展過程的產物,是大數據領域概念的唯一稱謂,對于那些能夠反映重要研究成果、對大數據發展影響重大的關鍵性代表性的詞匯,在經過認真篩選和審慎取舍后,應當和術語一同收入《大數據百科全書》條目表中,但在釋義中一般不推薦使用。對于這些專業詞匯的規范需要極為謹慎,以避免誤導讀者。
3.科學選擇術語,規范術語使用
對于經過時間沉淀或已形成共識的術語,我們須以科學術語規范意識為引領,積極學習大數據相關的國家術語標準,關注名詞委的新詞發布,及時了解學界術語發展,不用已被淘汰的舊名稱或概念的非推薦名,如“3D打印”(以后應使用“三維打印”)。在具體術語收錄時,綜合考慮以下因素進行取舍:術語的重要性、使用頻率、主體所屬、系統性、術語的構成能力、術語集收詞是否全面、時間因素和搭配特點等。
對于已有規范的多領域交叉術語,不同學科術語標準參差不齊。大數據領域具有跨學科交叉的特點,其基礎學科相應術語的規范形成的時間不同,規范制定的專家和出發點不同,形成的標準也不盡相同。同時,同一個術語,由于使用的地域不同,術語常常發生分歧。例如,“程序”這個術語,美國為program,英國則為programme。在中文術語中,由于我國臺灣地區特殊的地理、歷史和政治因素的影響,許多術語與大陸不同。如海峽兩岸計算機科技術語中,兩岸不一致的約占40%以上[6]。對于以上情況,有兩個最基本的原則:一是遵循服從主學科的原則,即在以大數據為核心內容的前提下,篩選術語;二是擇善而從,考慮術語出現的時間先后,以及目前的使用頻率。同時,未選擇的術語的緣由應做相應的交代。