時間:2022年07月01日 分類:經濟論文 次數:
摘 要:[目的/意義]檔案機構參與科學數據歸檔管理,對優化科學數據管理流程及實現科研檔案與科學數據協同管理具有重要意義。[方法/過程]文章以 DCC 數據管護模型作為分析框架,采用案例研究法對國內外科研院所、科研型企業、高等院校的科學數據管理實踐實例進行研究,識別出職能合并式、資源共享式及獨立運行式 3 種檔案機構參與科學數據管理的主要模式。[結果/結論]研究結果顯示,檔案機構當前未能廣泛參與到科學數據管理戰略規劃的制定之中,科學數據管理存在數據質量源頭管控缺乏、數據價值鑒定工作缺失、數據長期保存技術單一、數據共享利用監管有待加強、數據集成服務有待完善等問題。未來檔案機構應從提升數據管理意識、加強與科學數據管理機構的溝通協作、推進可行模式的探索等方面積極參與科學數據管理。
關鍵詞:科學數據;科研檔案;檔案機構;數據管理
1 引言
隨著大數據時代的到來和數字經濟的繁榮發展,數據作為生產要素的價值與日俱增。其中,科學數據在促進科技創新、國家安全等方面更具有不可替代的戰略價值。在科學研究領域,“數據密集型”科研范式的出現,標志著未來的科研流程將更大程度地建立在數據基礎之上[1]。隨著全球科技創新能力的不斷提升,科學數據數量呈現“井噴式”增長態勢。以航空航天領域為例,美國航空航天局每天要處理約24 TB 的數據;我國空間環境地基監測系統“子午工程”一期和二期項目的年生產數據總量超過 6.8 PB,數據類型超過 200 種[2]。但與此同時,受限于不恰當的管理方式,大量數據正面臨著丟失、內容不可讀取、共享和復用困難等風險,尤其是不可重復觀測的數據更是如此[3]。為此,需要對科學數據進行存檔管理,并提供支持信息以促進數據復用,實現驗證發表結果、開展元分析、提出新問題、增加引用率、支持教學等目標[4]。為了更好地實現科學數據全生命周期管理,維護科研成果的完整性,確保研究結論的長期可應用性,各國政府相繼出臺政策,科研院所、高校紛紛制定規章制度,以應對日益緊迫的科學數據管理問題。
一些科研資助機構、國際監管機構和科技期刊也要求將原始數據保存在永久的開放存取檔案庫中[5]。國務院于 2018 年出臺《科學數據管理辦法》(以下稱《辦法》),將科學數據管理上升到國家高度,提出了科學數據管理原則并明確各責任主體職責[6]。在《辦法》的指導和要求下,我國依托行業主管部門及科研院所建立了“國家高能物理科學數據中心”“國家基因組科學數據中心”等 20 個國家科學數據中心,對多學科領域的科學數據進行管理和共享[7],并形成“數據中心”和“數據中心+數據論文”2 種主要管理模式[8]。但是,在數字信息資源保存方面具有堅實理論基礎和豐富實踐經驗的檔案機構在科學數據管理中呈現缺位狀態。2020 年 10 月,《科學技術研究檔案管理規定》修訂出臺,明確科學數據屬于科研檔案的歸檔范圍[9]。在此背景下,檔案機構應如何合理參與科學數據管理并發揮相應的作用成為值得深入探討的議題。
當前,國內外學術界對于檔案機構參與科學數據管理的相關研究較少,多將檔案機構作為科學數據管理的利益相關者,探討檔案機構參與科學數據管理的動因、權責及有關路徑。Geoffery 等[10]認為檔案館應保證科學數據是長期可用的。Schumann 等[11]提出檔案館可以通過制定可信賴數字檔案館標準、啟用數據批準印章(Data Seal of Approval,DSA)等措施保障社會科學數據的真實性。盛小平等[12]認為檔案館是科學數據開放共享的利益相關者之一,具有制定相關政策標準、收集存儲與組織科學數據、提供數據培訓與監管服務等職責。閆鵬[13]基于利益相關者理論,提出檔案部門可為科學數據管理提供理論指導與實踐服務。何思源等[14-15]從概念、管理、風險收益 3個層面分析了檔案機構參與科學數據管理的合理性,并提出檔案部門和科學數據管理部門的新型協作模式。王寧等[16]對國際組織相關成果開展分析,提出檔案學視角下科學數據管理的優化路徑;糍坏萚17]從政策工具角度分析科學數據管理政策,得出檔案部門科學數據管理的啟示。
在國際實踐領域,檔案管理的理念已逐步滲入到科學數據管理之中。一方面,部分科學數據存儲庫的責任主體并未直接包含檔案機構,但仍以“數據檔案館”命名,如英國數據檔案館(UK Data Archive)、愛爾蘭社會科學數據檔案館(Irish Social Science Data Archive,ISSDA)等;另一方面,一些檔案機構已經直接參與到科學數據管理之 中 ,如 美 國 國 家 大 氣 科 學 研 究 中 心(NationalCenter for Atmospheric Research,NCAR)下設專門的檔案管理機構,對其項目產生的科學數據進行管理以支持科學研究[18]。丹麥數據檔案館(The DanishData Archive)則是由國家檔案館為科研人員和學生提供研究數據集[19]。綜上所述,本文從現實出發,選取國外科學數據管理實踐典型案例開展比較分析,梳理國內外科學數據管理工作的現狀與特點,在此基礎上歸納檔案機構參與科學數據管理的不同模式,并結合我國當前實際提出針對性的優化對策,以期為實現科學數據多方協同共治提供參考借鑒。
2 研究方法與案例選取
2.1 研究方法
本文主要采用案例研究方法,以 DCC 數據管護模型為基礎,構建理論分析框架,在此基礎上開展對國內外科學數據管理實踐案例的收集與案例數據的分析。在對國內案例開展調研時,輔以焦點小組訪談法,以檔案機構工作人員、科學數據管理機構工作人員為訪談對象,聚焦研究問題進行半結構化訪談,盡可能詳細地考察當前檔案機構參與科學數據管理的現狀。
2.2 案例選取與數據收集
本文在案例選取上主要有以下 3 方面的考慮:一是,不同類型機構需有較為豐富的科學數據管理實踐經驗;二是,綜合平衡國內外案例,選取不同學科領域具有代表性的檔案機構作為調研對象;三是,調研對象的科學數據管理涵蓋自然科學領域及社會科學領域,應涉及科研院所、科研型企業、高等院校的科學數據管理機構(如科學數據中心、圖書館)及檔案機構。經過前期的網絡調研與文獻回顧,并考慮案例資料的可獲取性,選擇國家空間科學數據中心(National Space Science Data Center,NSSDC)、國家基因組科學數據中心(National Genomics Data Center,NGDC)、天津中交第一航務勘察設計院有限公司、澳大利亞數據檔案館(The Australian Data Archive,ADA)、美國國家大氣研究中心(The National Centerfor Atmospheric Research,NCAR)作為研究案例。
NSSDC 和 NGDC 分別依托于中科院國家空間科學中心與中科院北京基因組研究所,擁有大量的科學觀測與研究數據,由于觀測數據的收集耗時長、成本高、長期復用價值大,因此,對科學數據管理的要求也比較高。NSSDC 是世界數據系統(World DataSystem,WDS)的正式成員,是被美國地球物理學會(American Geophysical Union,AGU)認可的學術論文關聯數據倉儲庫。2020 年 10 月,NSSDC 通過 CoreTrust Seal 國際數據中心資質認證,成為亞太地區空間領域首家通過認證的數據中心。NGDC 面向我國人口健康和社會可持續發展的重大戰略需求,建立生命組學大數據匯交、存儲、安全管理、開放共享與整合挖掘研究體系。
作為 2019 年我國新批準建設的 2家國家級科學數據中心,其科學數據管理相較于其他研究機構更為成熟,但尚未將檔案機構納入管理體系。研究國外同類機構的發展軌跡,探索將具備成熟電子文件管理經驗的檔案機構納入科學數據管理體系,形成更加穩定的科學數據治理體系,可為我國未來檔案機構參與科學數據管理提供借鑒。由于部分細節問題無法通過網絡資源獲取,因此,還對兩所科學數據中心的領導、管理人員及技術人員等進行了半結構化訪談以充實資料。天津中交第一航務勘察設計院有限公司將科研檔案、科學數據與企業知識管理系統相融合,在企業科學數據管理實踐上處于領先地位,因而是一個具有典型意義的研究案例。美國 NCAR 始建于 1960 年,其宗旨是領導和促進大氣、地球和太陽系科學研究和創新[20]。
NCAR 研究范圍包括氣候變化、大氣成分變化、日地相互作用、天氣信息預報及對人類社會產生的影響,在長期保存與管理科學觀測數據方面積累了豐富經驗。ADA 隸屬于澳大利亞國立大學社會研究與方法中心(Centre for Social Research and Methods,CSRM),成立于 1981 年,是通過 Core Trust Seal 認證的科學數據存儲庫,主要收集保存與社會、政治和經濟事務有關的數據,為大學、政府和其他部門的眾多社會科學研究者提供在線獲取、記錄、保存和傳播社會科學數據的服務[21],在社會科學數據管理方面具有代表性。數據收集的具體過程如下:
首先,瀏覽和觀察 5個案例的官方網站,重點關注與科學數據生命周期各個環節相關的政策性文件、平臺資源建設情況,對各案例當前科學數據管理的現狀進行初步了解;其次,基于案例分析框架設計半結構化訪談提綱,對國內 3 個案例中的 NSSDC、NGDC 和天津中交第一航務勘察設計院有限公司的相關人員進行深度訪談,涉及目前科學數據管理的現狀、面臨的問題與挑戰、對檔案機構參與科學數據管理的看法和建議等。在征得訪談對象同意后,對訪談過程進行全程錄音,訪談結束后,盡快轉錄錄音文件,形成案例分析的核心資料;最后,為保證數據資料的信度和效度,還對不同來源的資料進行三角互證,對存在異議或表述不清楚的內容及時通過電話視頻等形式予以補充和校正,以此保證資料收集的真實可靠性。受疫情影響,關于ADA與NCAR的案例數據主要通過互聯網收集。
3 研究過程
3.1 理論框架
構建為了更有效地推進數據管理實踐,相關機構紛紛提出概念化模型指導實踐工作,其中以英國數據管護中心(Digital Curation Centre,DCC)的數據管護模型最具代表性。該模型的適用對象包含任何二進制數字形式的信息,包括簡單的數字對象(文本、圖像、聲音文件)、稍復雜的數字對象(網頁)以及結構化的數據存儲庫等[22]。
數據管護生命周期活動包括描述和表示信息、制定保存計劃、社區觀察與參與、管護和保存,由此引起的順序性行動包括概念化、產生或接收、鑒定與篩選、采集、保存、存儲、獲取、利用、復用、轉化與遷移,偶然性行動包括處理、再鑒定和遷移。針對數據生命周期順序中的每一個行動,DCC都進行了相應的清單制定以確定該步驟的內容要點。DCC 數據管護模型揭示了貫穿于數據全生命周期的管護行動,本文據此構建案例分析框架,如圖 1所示,用以指導科學數據管理實踐案例的分析,探究檔案機構參與科學數據管理的程度、方式及面臨的問題與挑戰。
3.2 案例分析
本文所收集的案例資料主要是政策文件資料和訪談數據。根據案例分析框架,設定政策與訪談定性數據內容分析編碼表,包括科學數據管理的戰略規劃、數據收集、數據處理、數據保存、數據利用與服務5 個生命周期階段。同時,運用開放性編碼方法對科學數據歸檔保存進行重點分析。其中,政策文件資料采用手動編碼,機構工作人員訪談材料錄入 Nvivo 進行系統編碼,并將兩者內容進行提煉整合。在此基礎上,對檔案機構參與科學數據管理的模式與現存問題進行識別與歸納,并針對問題提出對策建議。
3.2.1 科學數據管理生命周期編碼分析由于篇幅限制,此處僅以表格形式歸納 NSSDC、NGDC、天津中交第一航務勘察設計院有限公司、澳大利亞 ADA、美國 NCAR 在戰略規劃、數據收集、數據處理、數據保存、數據利用與服務 5 個階段的科學數據管理工作要點。
3.2.2 科學數據歸檔保存分析
歸檔保存是檔案文件全生命周期管理的核心工作,相關的方法和規則經過多年實踐已經十分成熟,但是對于科學數據管理而言仍屬于比較新的挑戰,一些科學數據管理機構甚至還未開始考慮數據歸檔與長期保存的問題。NSSDC 等 5 家機構的科學數據歸檔保存方式各有特點。
4 研究發現與結論
4.1 檔案機構參與科學數據管理的模式科學數據的歸檔保存可以借鑒檔案文件的歸檔管理模式,為檔案機構參與科學數據管理提供了契機。根據表 1 和表 2 的案例資料編碼分析結果,識別出檔案機構參與科學數據管理的 3 種主要模式:資源共享式、職能合并式及獨立運行式。
4.1.1 資源共享式NCAR 下設科學數據中心、圖書館、檔案機構等信息管理機構,同時配備可以互操作的一站式檢索平臺實現包括科研檔案及科研數據在內的各類科研信息資源的檢索。本文將此模式界定為科學數據與科研檔案的資源共享模式。該模式為實現科學數據與科研檔案的協同管理提供了新思路。在資源共享管理模式下,一站式檢索平臺不僅能更大程度地提高用戶訪問各類科研信息資源的效率,優化用戶體驗,同時也能降低日常歸檔、保管和利用服務等有關工作環節所帶來的成本能耗。需要注意的是,該模式需要設置一個專門機構進行規劃指導,通過制定頂層政策、強化溝通聯系、開展協同合作等措施,實現跨部門資源的統籌集成與互操作應用。
4.1.2 職能合并式
ADA 與我國中交第一航務勘察設計院有限公司將檔案管理和科學數據管理的職能進行合并,由同一機構統一開展科研信息資源管理工作,本文將此模式界定為科學數據與科研檔案管理的職能合并模式。該模式將傳統檔案機構成功升級轉型,實現科研檔案與科學數據的協同管理,甚至承擔知識管理的職能。職能合并式管理模式對檔案機構參與科學數據全生命周期管理而言是一種可行的參考模式,該模式下的管理人員應具有“雙重身份”,一方面要深諳現代檔案管理的理念與方法,另一方面又要掌握數據挖掘開發與服務應用的先進技術。對于大型技術型企業和具備條件的科研機構,可嘗試采用該模式,將科學數據與科研檔案的歸檔管理相關聯,實現科研鏈條全過程管理,為科研活動提供強有力的信息保障支撐。
4.1.3 獨立運行式
NSSDC 與 NGDC 在開展科學數據管理工作時,尚未與檔案機構業務進行協同,本文將此模式界定為科學數據管理中心的獨立運行管理模式。該模式下科學數據管理機構與檔案機構互不干涉,各有側重?茖W數據管理機構側重于科學數據本身的統一開發與利用。檔案機構側重于科研檔案的管理,重記憶留存,對科學數據本身歸檔的指導與干預較少。由于檔案機構在數據管理技術和分析利用方面的水平尚不及科學數據中心,因此,獨立運行模式是當前我國科學數據管理最普遍的模式。總體而言,在科研范式轉變的新時代學術背景下,檔案機構亟需重新審視自身定位。隨著《科學數據管理辦法》《科學技術研究檔案管理規定》等相關法規的實施,檔案機構以科研檔案管理為切入點深度參與科學數據管理勢在必行,檔案機構協同科學數據中心、圖書館等信息機構實現科研過程全鏈條的信息保障工作將是未來科學數據管理的重點。
4.2 科學數據中心獨立運行模式存在的問題
通過前述案例訪談及實際調研可知,天津中交第一航務勘察設計院有限公司、ADA、NCAR 的檔案機構已通過職能合并或資源共享模式參與科學數據管理。本文主要結合檔案管理理論與方法,探討獨立運行模式下 NSSDC 與 NGDC 的科學數據管理實踐現狀及存在問題,從中發現檔案機構參與科學數據管理的契機并提出對策建議。
4.2.1 檔案機構戰略規劃失位的問題檔案機構職能缺位,參與科學數據管理的合規性不足。根據《科學數據管理辦法》及調研發現,在管理范疇上,當前我國科學數據管理的戰略規劃對象主要還是聚焦于科學數據本身,與科學數據相關聯的文檔與背景信息等并未被納入其中。在管理機構方面,較為強調科學數據中心對科學數據進行全生命周期管理,而檔案機構未被認定為科學數據管理的法定責任主體。在獨立運行模式下,科學數據由科學數據中心保存管理,科研檔案則由中科院檔案館保管,兩者之間的天然聯系被割裂,在管理上基本不存在業務協同,未實現各類科研信息資源的集成與互操作,難以滿足研究者在同一時間點既獲取科學數據又了解其科研項目背景信息的需求。
4.2.2 科學數據源頭失控的問題科學數據缺乏源頭管控,數量完整性難以得到保障。當前,科學數據管理機構未在科研項目立項時對科學數據實施源頭管控,科學數據的質量也因此受到一定影響。研究發現,科研人員主動向科學數據中心匯交的科學數據主要包括 2 類:項目研究數據、論文發表所形成和使用的數據。一方面,項目研究所產生的數據是否完全匯交,在很大程度上取決于科研人員的個人意愿,部分項目存在科研人員流動風險,使得數據極易留存在科研人員手中,出現數據孤島問題;另一方面,因發表論文需要,一些調查、實驗所形成的數據流入國際數據庫,導致數據主權喪失檔案管理部門在價值鑒定、安全審查方面已經形成成熟規范,但由于沒有從一開始就介入科研數據管理的戰略規劃與制度建設,致使科學數據面臨散失與流失風險,完整性難以得到保障。
4.2.3 科學數據價值鑒定缺失的問題
數據價值鑒定工作缺失,管理成本與效益難以平衡。當前,科學數據數量呈指數級增長,開展數據價值鑒定工作已迫在眉睫。數據價值鑒定工作主要包括 2 個方面:一是確定數據的保存期限;二是對保存期滿的數據進行續存、銷毀等處理。研究發現,科學數據管理機構缺乏完備的科學數據價值鑒定方案,難以準確判斷數據保存價值、合理劃分數據保存期限及對失去保存價值數據的處置方式,在對數據的價值鑒定主體、鑒定方法、保存期限、銷毀方式等關鍵問題上均未形成科學認知。如 NSSDC 和 NGDC目前采取“一刀切”方式,即永久保存所有科學數據,尚未考慮數據刪除或銷毀問題,只有當科學數據出現重大質量問題如存在造假、篡改時,才會啟動銷毀程序。隨著科學數據的不斷增加,尤其在當前“碳達峰”與“碳中和”的能源約束條件下,一刀切模式將會帶來管理成本投入增加與利用效益不平衡的風險。
4.2.4 科學數據存儲技術單一的問題
數據保存技術單一,難以維護數據的長期可讀性?茖W數據在長期保存過程中會面臨格式過時、算法陳舊、版本升級、儲存庫變遷等諸多問題,科學數據管理機構需制定長遠的保存規劃,在技術可行、成本可控、風險可預的前提下,采取綜合性的保障手段進行應對[23]。調研發現,科學數據中心長期保存科學數據的技術較為單一,如 NSSDC 僅采用容災備份這一常規手段對不可再生的科學數據(如衛星的原始觀測數據等)進行長期保存,雖然也會根據科學數據的存儲量及活躍度進行遷移處理,但事實上,這些技術難以保證科學數據在長期保存過程中運維環境的一致性及數據內容的完整性,數據的可讀性仍然受到挑戰。
4.2.5 科學數據共享中存在數據濫用的問題
在科學數據共享與服務中,數據濫用行為缺乏監管,數據集成服務有待完善。合理安全利用科學數據對維護國家安全、社會公共利益、商業機密、個人隱私具有重要意義[6]。科學數據中心目前已采取多種方式保障科學數據的安全利用。以 NSSDC 為例,一是,實行科學數據分級分類管理,如按照數據來源項目、所屬領域、使用熱度等確定管理級別;二是,簽訂共享協議,依據科研人員要求,部分科學數據需申請使用;三是,設置數據保護期,如天文領域的科學數據在保護期內(可為 1 年、2 年、3 年等)暫不公開共享。以上措施主要約束了科學數據的利用權限、利用范圍與利用時效,而較少涉及科學數據的利用途徑與利用行為,隱私泄露、違規利用等濫用問題無法得到有效解決。此外,科學數據中心通過線上線下提供多元的數據服務,包括數據應用工具開發、數據產品定制、數據系統設計與建設、數據出版、異構數據庫一站式檢索等多項服務,但還未能實現科學數據與相關科技文件材料、科研檔案之間的整合與互操作,而這也是未來檔案機構參與科學數據管理的建設重點。
5 結語
本文主要采用案例研究方法,通過對 NSSDC、NGDC、天津中交第一航務勘察設計院有限公司、ADA、NCAR 等國內外案例進行分析研究,識別出職能合并式、資源共享式、獨立運行式 3 種檔案機構參與科學數據管理的模式。調研發現,當前檔案機構未能參與到科學數據管理戰略規劃的制定之中,科學數據管理存在數據質量源頭管控缺乏、數據價值鑒定方案缺失、數據長期保存技術單一、數據共享利用監管有待加強、數據與檔案文件的關聯服務有待完善等問題。未來檔案機構應從提升數據管理意識、加強與科學數據管理機構的溝通協作、推進可行模式的試點探索等方面參與科學數據管理。
受限于案例資料的可獲取性,本文未能將國內高校的科學數據管理實踐納入案例對象。事實上,隨著科學研究范式的轉型發展和科研檔案及科學數據管理的不斷深化,如何發揮檔案機構在科學數據管理中的作用,如何實現科學數據與科研檔案的協同管理,這些問題值得深入探討。未來可對不同國家、不同地區、不同類型的科學數據管理機構及檔案機構展開更為廣泛的調研考察與對比分析,結合科研人員對科研檔案及科學數據的利用需求,提出更具合理性、適用性與實踐性的研究結論。
參考文獻:
[1] HEY T,TANSLEY S,TOLLE K.The Fourth Paradigm:Data-Intensive Scientific Discovery[M].Published byMicrosoft Research,2009.
[2] 國家空間科學數據中心.數據來源[EB/OL].(2020-09-20)[2022-03-19].
[3] 王芳,慎金花.國外數據管護(Data Curation)研究與實踐進展[J].中國圖書館學報,2014,40(04):116-128.
[4] WHITLOCK M C. Data archiving in ecology and evolution:best practices[J]. Trends in Ecology andEvolution,2011,26(02):61-65.
[5] MILLS J A,TEPLITSKY C,ARROYO B,et al.Archiving Primary Data:Solutions for Long-Term Studies[J].Trends in Ecology & Evolution,2015,30(10):581-589.
[6] 國務院辦公廳.國務院辦公廳關于印發科學數據管理辦法的通知[EB/OL].(2018-03-17)[2022-03-19].
選自期刊《科技情報研究》第4卷第3期
作者信息:❋王 芳1 韓家鈺2 卜昊昊31.南開大學商學院信息資源管理系,天津 3000712.中國航空工業集團公司西安航空計算技術研究所,西安 7100683.中國人民大學信息資源管理學院,北京 100872