時間:2021年09月13日 分類:經濟論文 次數:
摘 要 大數據提供了看待和處理信息的新視角和新工具。 高校檔案具有大數據的特性,大數據要求高校檔案管理更關注檔案信息的數據化,改變傳統檔案收集觀念,并賦予了高校檔案全生命周期管理的新內涵:按“全數據”的要求對文件和檔案進行統一管理; 以數據生命周期管理統一文件生命周期和檔案生命周期; 強化在前端進行數據的收集,為大數據分析提供充分的素材。
關鍵詞 大數據 生命周期管理 高校 檔案
信息技術的發展日新月異,給我們帶來了處理信息的新視角和新工具。 方興未艾的大數據研究給各行各業的管理帶來了歷史性的變革,高校檔案管理工作隨之發展。 作為一類特殊而有價值的檔案資源,從大數據的視角如何優化管理,成為當下高校檔案管理研究的熱門課題。 筆者主要從大數據視角看待高校檔案全生命周期管理,探討大數據對高校檔案管理的啟示和要求,通過大數據賦予檔案全生命周期管理理論新的內涵。
一、大數據的內涵
大數據一般是指“無法用傳統計算工具或手段處理的數據”,最早在航天或者氣象等自然科學領域,由于數據不斷大量地產生,且數據之間存在著弱關聯性,需要對一整個集群進行分析。 后來有人總結了大數據的4V特性,即:“大量化”(Volume)、“快速化”(Velocity)、“多樣化”(Variety)以及“價值化”(Value)。 從時代的發展來看,大數據標志著人類處理數據能力的又一次提升,我們發展了新的數據收集、分析和預測工具,包括云計算、人工智能等。 大數據時代提出的“不是隨機樣本,而盡量是全體數據”“不是精確性,而是混雜性”“不是因果關系,而是相關關系”等觀念,既是源于數據處理技術發生了翻天覆地的變化,也是一種看待事物的新視角。
二、大數據視角對高校檔案管理的啟示
從大數據視角思考高校檔案管理,不難得出以下的啟示。
1.高校檔案確實具有大數據的特性。 和各行各業的數據增長一樣,高校檔案數據也面臨著指數級別的增長。 這主要得益于兩個方面:一是原生電子檔案的快速產生。 伴隨著高校管理活動的開展,每天都在產生著大量有價值的檔案信息,例如教學活動中產生的課程教案、科學研究中產生的實驗數據、黨政管理中產生的電子公文等。 二是傳統載體檔案數字化的積極推進。 技術的進步使高校傳統載體檔案的數字化成為可能,為了更高效地利用檔案提供服務,高校檔案數字化工作正在各地如火如荼地進行著。 以上海交通大學為例,截至2010年10月15日,上海交通大學檔案館館藏檔案已數字化3667407頁,數字化信息資源約為2PB[1]39-40,且還在持續增長。 由此可見,高校檔案資源正邁向大數據行列。
2.大數據要求更關注高校檔案信息的數據化。 檔案信息的載體從古至今不斷發展變化,紙張是被使用最久的檔案信息載體。 過去,檔案信息隱藏于字里行間,需要人工去識別。 前面提到,不少高校已經開展了檔案數字化工作,但數字化工作往往只是通過掃描的形式把一些非數字化信息變成“0”和“1”的數字化形式以便于計算機閱讀,掃描的數字化的內容還大多是以圖像的形式儲存,不能通過檢索詞進行檢索,也就是數字文本沒有數據化。 顯然,只有對檔案信息進行數據化后,才談得上對檔案大數據的深度分析和整合,才能提供智能化的預測等[2]4-7。 因此,大數據要求在原有檔案數字化的基礎上,進一步進行檔案信息的數據化工作。
3.大數據意味著檔案數據收集觀念的改變。 過去,高校檔案數據的收集往往局限于歸檔范圍,不關注新的檔案形式。 而在大數據時代,要求“不是隨機樣本,而盡量是全體數據”。 全數據的好處在于:它可以覆蓋整個數據集的細節,讓我們從不同的角度,更細致地觀察和研究數據的各個方面,從而收獲意想不到的觀點,并且沒有偏見。 而刻意篩選,往往讓我們忽略了現象的細節[3]41。 因此,高校檔案與大數據的結合意味未來高校檔案數據的收集范圍將大大拓展,更加多元化,更具實時性,包括高校網頁、論壇和新媒體上的各類數據也將被列入檔案收集管理的范圍。
三、大數據視角下高校檔案全生命周期管理新內涵
最早,由美國檔案學者菲利普·布魯克斯等在20世紀文件數量急劇增長的背景下提出“文件生命周期”的概念,后來,我國檔案學界又提出了“檔案生命周期”的概念,其實這是同一事物在不同發展階段呈現的不同形態而已。 以歸檔為界,歸檔前為文件,歸檔后為檔案,文件不一定都能歸檔。 在大數據時代,更應該泛化文件和檔案的概念,因為它們的本質都是數據,應該統一用大數據的視角進行分析和處理。
文件生命周期理論(實際上文件生命周期理論的內涵已經包括檔案)指出,文件的運動具有階段性,文件的運動可以分為現行、半現行和非現行三個階段。 現行階段便是文件的實施階段,文件的信息主要為形成單位服務。 半現行階段意味著文件的實際效用已經消失,對原有單位的服務功能逐漸減弱。 文件運動的非現行階段是檔案階段,文件已經轉化為檔案,并存放在檔案室(館)以供社會利用。 而本文討論的生命周期理論就是研究文件或檔案生成、運動、變化的過程及規律的理論。
生命周期理論最早關注的是不同階段文件或檔案價值變化的規律,進而指導文檔管理工作。 然而,該理論在大數據時代亟待改革。 因為,在大數據時代,由于新的數據處理、分析工具的出現,使文件或檔案的價值在各個階段都能有所體現。 因此,過去通過人為手段篩選、鑒定檔案價值的行為,應當有所弱化。
另外,即使是歷史的數據,也不代表沒有現行的用處,因為大數據分析對未來的預測恰恰是建立在大量歷史數據的基礎上的。 誰也不能保證當前看起來沒有價值的歷史數據將來不會發揮其價值。 加上數據存儲和處理的成本日益降低,使得大量歷史數據的存放也成為可能。 因此,應重新認識高校檔案全生命周期管理的內涵。 大數據視角下高校檔案生命周期管理的新內涵應包括以下要點。
1.按“全數據”的要求對文件和檔案進行統一管理。
過去檔案管理流行“前端控制”理論,即在文件形成階段對其積極介入管理,現在講要在各信息系統中注重元數據的采集,其實都是一種“全數據”的觀點。 即盡可能全面地收集數據,避免之后由于缺乏相關數據而難以管理利用檔案。 信息系統中對文件的相應處理都應留下相應的數據,并積極將文件或檔案中的各類信息轉化為可用的數據,以適應大數據時代關注檔案信息數據化的要求。
同時,要弱化文件與檔案的區別,無論是文件還是檔案,對于大數據分析、預測都是必需的。 傳統的歸檔過程是一個篩選、鑒定的過程,會過濾掉很多未來分析預測所需要的細節。 因此,在可能的情況下,要盡量“全”地將文件歸檔,泛化檔案的概念,并將歸檔作為文件集中的一個手段,為大數據分析利用提供便利。綜上,不論在文件的哪個階段,都應以“全數據”的要求統一對文件和檔案進行管理。
2.以數據生命周期管理統一文件生命周期和檔案生命周期。
數據生命周期管理是一種基于不同階段、不同數據特性實施的管理模型,以獲取數據使用的最大價值,并有效地降低數據管理成本。 它能對數據進行主動管理。 數據生命周期理論認為,數據具有使用的生命周期。 隨著時間的推移,它遵循的一個客觀規律是:數據訪問的頻率隨積累的數據量而發生變化。 因此,我們需要根據數據的訪問頻率來評估數據的價值,并采用低成本的數據保存方法對很多低價值的信息進行處理,使數據的價值大致與存儲和管理成本相匹配,從而盡可能降低整體的數據管理和存儲成本[4]71-75。
因此,用數據生命周期管理代替傳統文件與檔案分界的生命周期劃分管理法,不刻意區分是文件或是檔案,僅僅根據實際使用頻率來進行區別管理。 對于訪問量或使用頻率較低的數據,類似計算機將不經常訪問的數據放在效率較低的存儲器上的策略一樣,可以逐步將其轉移至效率較低的存儲介質和處理工具上; 對于訪問量或使用頻率較高的數據,通過大數據工具進行預判,自動將其轉移至效率較高的存儲介質和處理工具上。
這無疑是一種符合實際需要又能大幅度節省成本的作法。 當然,理論上,應該給每個數據平等的存儲空間和處理能力,才符合大數據的精神。 但實際上,由于數據量的增大仍遠遠高于存儲空間和處理能力等的提升,因此仍然需要考慮在盡可能“全”地保存文件和檔案數據的情況下為不同數據分配不同級別的資源。
3.強化在前端進行數據的收集,為大數據分析提供充分的素材。 數據在生成階段是最活躍的,此時收集的成本要比后來收集的成本低。 舉例來說,高校的電子文件原文,如果等到歸檔后再進行紙質的數字化工作,既耗費成本,實際效果也不一定好。 因此,在數據的生成階段,就要充分考慮將來的應用場景,制定相對統一、規范的元數據采集標準,并盡量通過系統自動捕獲元數據。
同時,對文檔使用和管理人員進行培訓,使其真正將數據管理的標準落實。 元數據的標準應充分考慮數據的應用需求,而不能僅僅只考慮檔案部門的歸檔要求,歸檔要求僅僅是數據應用需求中的一部分而已,還需要了解數據的行業特性和應用場景等,這樣制定出的元數據標準才更有可操作性,而且更有利于數據充分發揮價值。
大數據既是高校檔案管理工作的機遇和挑戰,又是不可逆轉的時代潮流。 積極關注高校檔案與大數據的結合,通過大數據視角重新理解并實踐檔案全生命周期管理,按“全數據”的要求對文件和檔案進行統一管理,以數據生命周期管理統一文件生命周期和檔案生命周期,并強化在前端進行數據的收集,這將是高校檔案管理工作積極探索實踐,發揮自身最大價值的必由之路。
參考文獻:
[1]寧燕子.大數據對高校檔案工作的影響分析及對策研究[J].科技視界,2015(1).
[2]于英香.檔案大數據研究熱的冷思考[J].檔案學通訊,2015(2).
[3]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[4]劉曉.大數據環境下數據中心的數據生命周期管理研究[J].中國金融電腦,2014(10).
★作者簡介:徐欽梅,福建警察學院研究實習員,碩士研究生,研究方向為公共管理。