時間:2022年03月15日 分類:科學技術論文 次數:886
摘要介紹了作為一種新的認知范式,大數據研究常見和前沿算法及其應用在高分子材料研究中的共性基礎,圍繞材料的基礎與應用研究聚焦的定量組成-工藝-結構-性質-性能關系,剖析了該關系中的要素和可數值化、定量化的資源和途徑.進而系統介紹近4年在高分子材料的合成與自組裝、機械熱性質、光電聲磁性質、分離性質和加工性質等方面大數據研究的一些典型進展,梳理了當前高分子材料大數據研究的難題和挑戰,對這一新興快速發展方向和一段時間內可能的突破進行了展望.
關鍵詞高分子材料,大數據,組成-工藝-結構-性質-性能關系,計算輔助材料設計
高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時,也成為全球人類可持續發展和環境保護的主要挑戰之一.高分子材料的機械熱、光電聲磁、分離、降解和加工性質是設計、生產和應用的聚焦內容,其柔性可設計的特征,有力地支撐著社會的多樣化發展,對密切相關的組成、加工、結構及其性質關系的認識也在不斷完善中.
在對高分子材料個性化、智能化生產和應用的驅動下,傳統經驗理論提供的定性指導模型漸不能滿足,而對支撐給定性質實現材料逆設計的定量決策模型產生大量需求.特別是人們對于給定目標性質實現對材料組成工藝精準定位“逆設計”的渴求,迫切需要對高分子材料多因素及其聯系的定量化研究,即大數據研究,取得進展.基于我們4年前對材料基因組學研究的梳理[1],本文將介紹對高分子材料大數據研究共性基礎的進一步思考,綜述近幾年高分子材料大數據研究的代表性進展,探討高分子材料大數據研究這一急速升溫領域的前沿方向和當前面臨的主要挑戰.
1材料大數據研究的共性基礎
眾所周知,人類探索未知世界存在4種認知范式,即以實驗試錯法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計算模擬仿真為主的第三范式,和以數據驅動創新為主的第四范式.這4種范式都可以產生基礎可用的數據,在數據基礎上建立聯系形成可流通的信息,從信息流中梳理出一定條件下存在的模式形成知識,進一步凝練出法則(principle)從而獲得智慧,即科學認知的DIKW(Data,Information,Knowledge,Wisdom)框架.
在該框架中,人類生活生產和研究長期匯集的基礎科學數據逐步成為一種資源并可以較為廣泛地公開共享,機器學習、人工智能、深度學習和大數據(注:這4個專業名詞的內涵具有高度重疊的共同知識,但有不同的側重,相互間聯系仍在變化中)為代表的新興理念和技術手段,正快速地發展并重塑著生產力和生活模式.
統計力學和貝葉斯統計學與多個學科交叉,先后形成了生物信息學、化學信息學和材料信息學3個前沿學科.目前生物信息學發展的典型代表是AlphaFold2[2]的產生,在預測蛋白質序列到三維折疊結構的經典難題中已經部分超過人類專家.化學信息學仍在快速發展中,對短程關聯體系,小分子、力場和作用、化學語言的符號化和定量表達等的進展強有力地推動著對眾多物理、化學、生物現象和過程的定量認識,其中近幾年以人工智能驅動新藥開發(即AI制藥)而廣為人知.
而材料信息學正處于急速膨脹階段,個性化和智能制造正滲透到社會的方方面面,有力地支撐著全人類的可持續發展和未來美好生活愿景.高分子材料的大數據研究是材料信息學的前沿核心內容,而材料信息學的研究存在的共性框架,即組成-工藝-結構-性質-性能關系(CPSPPr),其中包含組成工藝決定結構,結構性質關系(QSAR/QSPR)以及性質性能關聯三方面主要內容.要實現精準可靠的“逆設計”,需要明確CPSPPr中的因果關系,部分或者能可靠外推的充分必要關系,而這幾個要素及其內在可控因素實現定量可計算是首要任務.下面將圍繞這些因素展開:
材料的組成量化了物質的種類即電子、原子、結構或功能基團、結構片段、分子、聚集體、相界面和部件種類及其配比分數,決定了體系的相互作用,相貌形態和成本.相互作用用于定量描述材料體系的勢能和動能,也包括表征、生產和應用中對外場的響應.
在25℃(298.15K),1.01×105Pa的參考態下,1個熱力學漲落能量單位與多種性質和響應能量存在如下等價關系,1kBT= 1RT/NA,4.11×10−21J,4.11pN·nm,9.83×10−22Cal,0.0256eV,9.408×10−4Hartree,6.2×1012Hz,48.4×104nm,2.479kJ·mol−1,0.593kCal·mol−1,200cm−1,該等價關系包含kB是Boltzmann因子,T是絕對溫度(K),R是氣體常數,NA是阿伏伽德羅常數,h是普朗克常數,C為真空光速.
其中,除常見能量單位焦耳J,卡路里Cal外,pNnm用于如單分子力譜測量鍵長變化或構象變化,電子伏特eV測量光電能量,Hartree是量子化學計算中的能量單位,赫茲Hz、nm和cm−1則從不同角度衡量探測波的能量.該關系表明了從微觀到宏觀,相互作用在能量層面上對力、光電聲磁、波和譜學的可探測信號可以實現統一.
對于高分子材料類的軟物質,在高于25℃的環境中,低于1kBT(T=298.15K)的能量擾動不會引起相態變化,或誘發臨界現象.材料不同尺度相互作用的定量計算可以基于量子化學、全原子和粗粒化力場、介觀碰撞和耗散力、宏觀連續介質固體和流體力學.這些定量信息則來自不同時空尺度的實驗、理論模型和計算方法的相互佐證和層級關聯.但在大數據研究中,不同尺度的相互作用則可被視為平等信息,從而可不受已有模型約束用于建立經驗理論模型之外的關聯關系.材料的相態包含相圖,相變或相轉變,性質和結構特征等數據信息,是區分和刻畫材料組分的本征屬性.成本是材料產業化的要素,包括原子經濟、生產和應用的能源成本、生態成本和經濟成本等.
在工藝方面,主要包含對配方組分的反應、分散和融合3類操作.反應是化學鍵的變化,涉及物質本征屬性改變,包括物質的合成、修飾改性、化學交聯、降解等,常見的因素包括手性、異構、鍵生成斷裂平衡、活性、選擇性以及與反應關聯的小分子產物,反應過程伴隨的物質和能量擴散和傳遞的調節控制等.分散是通過對體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達到熱力學平衡狀態(一般是熵增過程),或者使物質分布達到具有特定分布結構的穩態狀態.融合主要是破壞或黏合熱力學不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實現結構錨定(藥物篩選的原則之一)等.
這些工藝涉及較多人為經驗性因素,易造成精細層面的可重復性低,對復雜、精密、長期或在極端條件服役的材料體系,在生產和應用之前一般會引入宏觀尺度的計算機輔助設計/制造(CAD/CAM).在實際CAD建模計算模擬仿真中,常常需要引入材料中組分的體相宏觀性質,如密度、模量、泊松比以及可以描述物質相態的本構方程等[3~5],已有一些商業軟件如Abaqus,Ansys,Comsol等.性質分為組分、材料和器件性質,組分性質一般接近其本征性質,但在材料的多組分作用下,其性質可能發生大幅變化.在高分子材料體系里,無論是從單體到聚合物,還是聚合物鏈的交聯、共混等,材料性質都很難用組分性質直接或者加權平均近似[6].
在器件性質層面,材料構成的本體結構和表面形貌都具有重要貢獻.小分子的流失、材料降解、表面形貌退化等化學或結構性變化都可能導致器件性質失效.而材料在模擬或實際應用中的機械、熱、光電聲磁、分離、加工性能等則可以解析為多種性質在實際應用場景中給定閾值范圍內的疊加,即材料性能通過一系列標準組合或依據第一、二和三范式的專家經驗實現性質拆分.不同于小分子、金屬、無機非金屬材料,利用大數據研究實現從性質到分子結構的“逆設計”已有不少成功報道[7~12],高分子材料則少有類似成功,主要障礙在于其結構的定量化,將在下一節單獨介紹.在材料大數據研究的這些共性因素中,通過一系列變量調控,可以使材料的性質發生顯著變化.
由于高分子多分散性的特點,高分子材料在CPSPPr中各要素都存在分布.即從某屬性或性質的當前分布A,逐步產生小概率事件偏倚或分布外的離散事件形成拖尾分布B,進而通過持續條件演化對小概率事件和離散事件的富集產生拖尾分布C,進一步演化為平衡態或穩態分布D.典型的例子是Ising模型中磁疇的變化,雖然單個磁子(spin)的取向是瞬時變化的,但在時間或磁場強度的連續變化中,總能觀察到不同磁子取向的拖尾分布.高分子材料常見的性質調控、結構控制、相變過程等的序參量分布演化都滿足這個模式.
2高分子材料結構定量數據
一般地,材料結構的定義為組成基元的時空間分布,組成基元可以是電子、原子、離子、基團、分子片段、分子、聚集體、相區和器件單元,分布可以表達為笛卡爾坐標、極坐標、內坐標或傅里葉倒空間的基元豐度,或者場模型中的概率密度.基元的屬性和分布可以隨時間發生變化,存在內部的熱漲落或對外部的刺激響應,從而通過表征手段獲得信號或表達出材料的不同性質.結構是一系列探測手段與材料作用的譜學信號,而性質也是材料對外部的刺激響應結果.
因此,材料的定量結構活性/性質關系(QSAR/QSPR)在本質上是不同譜學信號的相互關聯,當某些表征信號可以比較完備地描述性質時,該表征手段常被作為性質的代理量(surrogate).如利用某種試劑盒的UV特征吸收表達物質的生物活性,用楊氏模量刻畫材料的彈性,特定條件下的熔融指數衡量高分子材料的加工性,以及溶脹率表征材料的體積穩定性等.因為結構可由組成和工藝共同決定,并通過物理、化學的知識闡明機理,因而結構性質關系常用結構特征建立性質的代理模型或代理量,從而用于理解、設計和調節控制材料的宏觀性質.從理論和計算模擬仿真角度來看,高分子材料的結構僅包括化學結構和聚集結構兩方面.
化學結構用于區分組成物質的屬性,其定量化是化學信息學研究的核心內容.主要包含化學語言的定量描述,包括編碼與解碼,比較成熟的有SMILES(simplifiedmolecular-inputline-entrysystem)和InChI(internationalchemicalidentifier)2套系統.化學結構的圖論和圖特征表達這類有長久歷史的方法也存在一定程度應用和發展[13,14].
在此基礎上,進一步通過分子指紋算法如Avalon、Daylight和開源RDKit庫[15]等計算出組成基元的數量、鍵連接、鍵角、二面角、共軛面、拓撲和電荷、極性、排斥體積、氫鍵等加權平均的拓撲幾何、物理、化學性質參數.化學信息學的這些計算方法的目的是從不同角度得到化合物的唯一編碼和性質數據,但對于具有多層次結構的高分子來說這并不簡單[16],需要在整體覆蓋尺度和細節分辨率之間權衡[17].由于高分子存在手性、異構、構象、拓撲結構和多聚體,多個單體化學鍵連接存在強協同效應等,使得高分子既不能像蛋白質中的二十余種保守氨基酸進行可以枚舉成序列描述,又不能像小分子的SMILES可直接轉換為數值向量.
因此,高分子化學結構的定量描述仍需要取得突破.另一方面是精確力場的發展,受高通量藥物和精準催化劑設計的驅動,經典的通用力場如CHARMM[18],AMBER,UFF[19],OPLS[20],MMFF[21]等已不能滿足需求,大量的研究工作在通用力場基礎上,針對特定一類分子體系,建立了力 場修正,如ReaxFF系列[22],可遷移力場TAFFI[23]等.對于高分子材料聚集結構的計算可分為粒子模型和場模型,前者將每個結構基元看作具有一定質量、性質和時空間排它占有的實體粒子,后者則描述結構基元在特定時空間的出現概率密度.
而計算模擬方法常見的有量子力學(quantummechanics,QM),分子力學(molecularmechanism,MM),分子動力學(moleculardynamics,MD),蒙特卡洛(MonteCarlo,MC),耗散粒子動力學(dissipativeparticledynamics,DPD),格子波爾茲曼(latticeBoltzmann,LB),密度泛函(densityfunctionaltheory,DFT),自洽場(self-consistentfieldmethod,SCFT),相場模型(phase-fieldmodel,PFM)和有限元分析(finiteelementanalysis,FEA)等.
這些計算方法涵蓋了電子、原子、分子、聚集體、相區、表界面和宏觀組件的多個尺度.但是目前宏觀尺度和場論的計算方法還無法定量分辨材料的精確化學結構差異,微觀和介觀的計算模擬數據難以和宏觀性質形成充要關聯,使“逆設計”陷入困境,這也是高分子材料多尺度計算長期未解決的難題.該計算難題同樣也存在高分子材料多尺度結構的實驗表征中,特別是聚集結構的定量解析實現還需要長時間的努力.化學結構、晶體結構或單分散結構通過X光衍射、NMR、冷凍電鏡、小角散射等可以較準確解析,而在計算方面,除共聚或共混兩相組裝相圖有較系統的定量數據外,實際材料至多有半定量數據.常見的材料結構實驗表征和計算方法的共性認識.結構的實驗表征可分為組分、物相和微觀結構三大類,包括化學、色譜、能譜、質譜和光譜分析等手段.
結構信息的獲取包含材料樣品、探測源、作用原理與信號3部分.探測源的能量可以從伽瑪射線、電子、中子、X射線、紫外可見紅外/偏振、微波、剪切或周期力等,而這些探測源在與樣品發生諸如透射、反射、折射、散射/衍射、吸收、熒光、共振和形變等作用后,結構表征信號可以探測到直接的強度或強度差、相位或相位差、微分或積分面積、水平或角度分辨等,從而產生了不同角度、不同原理的結構定量數據,即譜學信號.在統計力學的框架中,理論上所有的譜學信號都可以通過量子化學計算獲得,但由于高分子多尺度、多分散和長程關聯的特性,量化計算的時空尺度和計算成本受限導致可用數據非常稀少.
目前機器學習對于小分子化合物的光譜預測已取得一定進展[24],IR[25],MS[26],NMR[27]等在已知條件下能夠較為準確預測和譜圖模式識別.即使是對于較為復雜的X光吸收光譜(XAFS),通過神經網絡算法結合圖論已能達到高于90%可靠度的準確預測,對峰位的預測誤差小于1eV[28].可以預見,從國家大科學裝置、儀器開發商到終端科研和檢測人員,對高分子材料結構的定量數據一直都十分關注,大數據輔助結構定量數據的收集、分析和綜合利用的進展報道將越來越多.大數據與結構譜學分析深度結合,未來將繼續向精細分辨、高通量快速分析,以及多尺度多角度結構數據的整合等方向發展.
3大數據研究的數據和算法進展
材料大數據研究的主要流程可參考綜述文獻[1],近4年來該研究領域蓬勃發展,算法和數據兩方面都形成了一些新的趨勢.
大數據研究的算法主要包括數據挖掘和機器學習兩部分,前者側重從文獻報道、專利、書籍、標準等文本或圖表中的信息批量提取,構建可機讀、可批量計算的數據庫或數據集,利用統計學呈現數據的完備性和代表性,當前的顯著進展與自然語言處理(naturallanguageprocessing,NLP)以及化學信息學對化學物質的編碼和解碼算法的研究前沿密切關聯.
而機器學習側重于對給定單一或多目標算法的優化,自擴展搜索空間和給定函數的快速收斂.與之緊密相關的是人們對數據資源的認識加深,涌現了一大批長期積累的、由專家參與的數據整理建設,目前與高分子材料相關的一些代表性數據庫或數據集列于.
相比于4年前的綜述調研[1],傳統數據庫的數據量,以及材料對應的物化性質等獲得了大量擴充,數據的完備性進一步提升,如PoLyInfo(polymer.nims.go.jp/en/).同時也看到,基于量化和力場準確計算的物化參數也急劇增加,填補過去大量材料物化性質缺失,如clogP,HOMO,LUMO等.值得一提的是PubChem(pubchem.ncbi.nlm.nih.gov),Reaxys(www.reaxys.com),SciFinder(sso.cas.org),QM7/9[29]等數據庫支撐了深度學習在小分子設計[30~33],反應合成[34~36]等領域的應用,同時也對高分子的合成和性質預測提供了應用基礎.
在機器學習的算法方面,增強學習[43,44]、主動學習[45]、深度神經網絡等在近幾年取得長足發展.在傳統的監督式和無監督式學習方法中,用于回歸分析、分類算法、聚類和降維分析除了經典算法如隨機森林(randomforest,RF)[46]、邏輯回歸(logisticregression)[47]、樸素貝葉斯(naiveBayes)[48]、支持向量機(supportvectormachine,SVM)[49]、K-means聚類[50]、層次聚類(hierarchicalclustering)[51]和主成分分析(principalcomponentanalysis,PCA)[52]等得到進一步的廣泛應用外。
一些新的算法也從提出快速地得到應用,多學科交叉促進材料研究模式變化的節奏隨著信息高度流通明顯加快.對于缺少大量專家標記數據的應用場景,半監督式學習算法得到快速發展,包含自我訓練[53]、協同訓練[54]、直推式支持向量機[55]和圖網絡方法[56]等.
在強化學習算法方面,其原理類似于給定模型的計算模擬仿真,通過打分和懲罰函數在迭代反饋中優化,建立代理模型.典型的強化學習算法有Q-learning方法(如深度Q-網絡[57],Q值函數反向傳播算法[57~59]、策略梯度方法[60]和信任區域策略優化[61])等.這些算法與前述經典學習算法復合或定制用于特定場景,出現了主動學習、強化學習、遷移學習、多任務學習等一系列新的方法分支.這些算法可以對已知人工數據點進行生成擴充[62~66],進而提升模型性能,同時也可助力高分子材料實現高通量實驗和高通量表征[67],為高效構建高分子實驗數據庫提供了新思路[68].這方面感興趣的讀者可參考文獻[69,70]等書籍了解更多原理和應用細節.特別值得一提的是近幾年深度學習對整個機器學習算法、人工智能和大數據從基礎研究到生產應用都帶來了極大的沖擊.
人工智能自動編程,機器學習數據自動生成等的急速發展與深度學習算法的高速發展密切相關,在廣泛應用的機器學習編程語言Python,R,Matlab的基礎上,新產生了一些建模框架,如Pytorch,TensorFlow,MxNet等.一些新的數據和工具包也形成了一定的流行度,如Hyperopt[71]和GPTune[72],COMBO[73]等.也有一些經典的數據和算法項目得到持續發展,如早期DeepChem開源項目,包括MoleculeNet[74]有機分子的基準和訓練數據集,面向化學和材料數據的建模軟件ChemML[75],以及面向QSPR/QSAR的自動化工具TPOT[76],auto-sklearn等[77~80].
但這些數據和工具包很少考慮高分子的應用場景,主要原因是數據集較小,缺少基準數據,數據不確定性高或歧義較多等.在算法方面,迄今得到廣泛使用的深度學習算法包括循環神經網絡(RNN)[81],變分自動編碼器(VAE)[82],生成對抗網絡(GAN)[83]等.這些算法在高分子材料領域已得到一定的應用并表現出巨大潛力.如Chen等利用RNN對基于SMILES準確預測了高分子的玻璃化轉變溫度(Tg)[84].Batra等[85]利用VAE結合高斯過程回歸(GPR)模型發現了預期在高溫、高電場極端條件下具有潛在使用價值的新聚合物.Hiraide等開發了一個逆向設計框架GAN算法,對一類具有共性結構的高分子材料實現了從楊氏模量到化學結構的“逆設計”[86].
4高分子材料大數據研究的代表性進展
4.1進展分類
高分子材料大數據研究是材料基因組學或材料信息學中極具挑戰的重要課題,當前階段材料基因組學強調高通量計算、高通量表征和高通量制備及數據共享,但高通量對于高分子材料實現起來存在諸多困難,源于高分子材料多分散和多尺度關聯等特性.另一方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對象的生物信息學最先發展成型,這類體系的組成單元收斂可枚舉,多分散性效應不明顯.近年來仍在高速發展的化學信息學,聚焦化學語言數值化、微觀結構多角度精確計量等極大地促進了材料信息學的發展,特別是在小尺寸強關聯體系用化學信息學方法可直接指導材料的“逆設計”.
為了系統地介紹近幾年高分子材料大數據研究的代表性進展,在CPSPPr中,主要按材料應用性質分類,包含新型高分子合成與自組裝、機械熱性質、光電聲磁性質、分離性質等材料分類.在大數據計算方法、數據集,以及計算預測與實驗驗證迭代的方法和思路的進展也將融合到這些具體材料分類中.整體來說,得益于化學信息學對物質化學屬性和近程作用的精確刻畫,光電聲磁功能高分子材料的大數據研究已取得可媲美金屬合金、無機非金屬材料方面的成功應用,但其他性質的高分子材料大數據研究還缺乏能夠推動行業研究和生產模式發生改變的顯著成果.
在組成工藝決定結構、結構性質關系(QSPR/QSAR)以及性質性能3類主要關系中,結構性質關系研究較多,而結構多數限于化學結構,對高分子材料聚集結構的關聯關系研究報道非常少見.高分子材料大數據研究的實際應用如配方工藝優化、材料新性質發現,以及材料組成工藝決定結構的基礎研究這些方面的報道也較少.下面我們將圍繞材料性質分類對近幾年的代表性進展進行簡要回顧介紹.
5難題與挑戰
如前所述,建立高分子材料的定量CPSPPr是大數據研究的核心,在數學本質上是譜學數據的預測.目前基于量化計算對小分子的多尺度譜學數據已能較為準確的計算和預測,對于多分散系數趨近于1的體系如蛋白、核酸等其結構和生物活性利用生物信息學的一體化建模(information-drivenintegrativemodeling)已經能夠提供可與人類專家媲美的準確預測.
蛋白與核酸結構定量化的成功與PDB的長期建設密不可分,但對于高分子,由于其二面角旋轉位壘與熱漲落能量1kBT相當,并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結構數據不能夠用原子坐標的辦法直接描述,需要更復雜的構象集合來表示,但目前還缺少公認可靠高效的概念和框架.
在實際的高分子材料體系,往往還包括一定量的復合成分、添加劑或助劑,這些物質分布廣泛,小分子可用的比如SMILES定量描述系統失效,而高分子自帶的手性、支化、成環、長程作用的芳環堆砌、靜電作用等對構象、聚集和性質的影響規律往往還依賴計算模擬近似分析,缺少可遷移利用的基礎定量數據.總的來說,對于具有典型的多分散、局域精度高和大尺度準確、存在非線性、非單調性累積協同效應的高分子材料體系,從近程作用化學異構和拓撲結構的化學信息學定量描述到跨尺度關聯,大數據研究仍面臨權衡.
這些問題在傳統研究中長期存在,常見表述為臨界現象、相變和相轉變、標度行為、多級弛豫等概念模型.理論模型中會采用了多種近似,如假定結構分布在平均場背景中、或假定高分子鏈長或拓撲結構滿足高斯分布、或假定物質聚集可用隨機相近似(randomphaseapproximation,RPA),或假定結構和性質關系在多層次具有自相似性(selfsimilarity),或在臨界點附近拖尾分布存在標度關系指數分布等.在實際應用的材料中,這些假設可能失效但某些模型在一定條件下可能仍舊適用,而理論模型的不可靠性需要嚴格評估.因此,當前高分子材料大數據研究的首要難題和挑戰是系統客觀地評估已有的理論模型、經驗公式的可靠性,以及模型定量描述的準確度和適用性邊界.
6結語與展望
高分子材料大數據研究還處于積累和爆發階段,可以預見在未來幾年中,相關的研究報道和生產應用實踐將急劇增加.得益于生物信息學較為成熟的多學科交叉深入合作和數據共享模式,化學信息學對物質屬性的覆蓋度和準確率的提升,以及應對復雜體系和模糊語義的機器學習算法發展,材料信息學在金屬、無機非金屬和有機小分子材料研究中取得了廣泛的成功,也切實推動了高分子材料的大數據研究.
由于高分子材料描述模糊和歧義命名等長期歷史積累問題,以及高分子的多分散、多尺度、非線性協同效應顯著、長程弱關聯強響應等特點,對高分子材料的準確定量數據和高通量計算難以實現,是造成高分子材料大數據研究進展滯后的主要因素.
在數據的標準化和可共享流通方面,生產應用數據與實驗室研究數據嚴重脫節、工業化和原料供應數據不透明造成大量重復表征測試,基于不同關注點對高分子的基礎表征數據和性質測試方法等關鍵信息缺失,使高分子材料可用的數據庫遠未達到諸如CSD,Reaxys,PDB,UniProt等規模水平,但專一聚焦的高分子材料數據庫已有許多在路上.高分子材料大數據研究基礎的數據源建設發展方向,很可能類似當前計算模擬領域的通用力場和專用力場修正的發展模式,即通用高分子多譜學數據與功能高分子特殊結構性質數據的整合.
出版社(如ACS,Wiley,Elsevier,Springer,Cambridge,CRC等)、政府機構(如NIST,NIMS等)以及跨國公司等已廣泛布局數據的匯集和價值開發,數據已成為重要資源.數據的增加主要將朝著類似地理地圖大數據的方向發展,在頂層設計和支持下對具有多種應用場景的高分子材料具有高覆蓋度、精細分辨,支持高通量快速分析,提供多尺度多角度全方位數據支持或數據共享.同時在面向特定應用和研究興趣,前沿領域的專業數據積累將更快地與新興大數據方法交叉,在高分子新材料研發或經典問題的研究中產生突破進展.
REFERENCES:
1LiYunqi(李云琦),LiuLunyang(劉倫洋),ChenWenduo(陳文多),AnLijia(安立佳).SciSinChim(中國科學:化學),2018,48(3):243-255
2JumperJ,EvansR,PritzelA,GreenT,FigurnovM,RonnebergerO,TunyasuvunakoolK,BatesR,ZidekA,PotapenkoA,BridglandA,MeyerC,KohlSAA,BallardAJ,CowieA,Romera-ParedesB,NikolovS,JainR,AdlerJ,BackT,PetersenS,ReimanD,ClancyE,ZielinskiM,SteineggerM,PacholskaM,BerghammerT,BodensteinS,SilverD,VinyalsO,SeniorAW,KavukcuogluK,KohliP,HassabisD.Nature,2021,596:583-589
3KaurG,HomaD,SinghK,PandeyOP,ScottB,PickrellG.JPowerSources,2013,242:305-313
4CrawfordAJ,ChoiD,BalducciPJ,SubramanianVR,ViswanathanVV.JPowerSources,2021,501:230032-230047
5LigonSC,LiskaR,StampflJ,GurrM,MulhauptR.ChemRev,2017,117(15):10212-10290
6KrevelenDWV,NijenhuisKT.PropertiesofPolymers.4thed.Amsterdam:Elsevier,2009
7ShenC,KrennM,EppelS,Aspuru-GuzikA.MachLearn:SciTechnol,2021,2(3):03LT02
8NohJ,KimJ,SteinHS,Sanchez-LengelingB,GregoireJM,Aspuru-GuzikA,JungY.Matter,2019,1(5):1370-1384
9Gomez-BombarelliR,WeiJN,DuvenaudD,Hernandez-LobatoJM,Sanchez-LengelingB,SheberlaD,Aguilera-IparraguirreJ,HirzelTD,AdamsRP,Aspuru-GuzikA.ACSCentSci,2018,4(2):268-276
10KimB,LeeS,KimJ.SciAdv,2020,6:eaax9324
11Sanchez-LengelingB,Aspuru-GuzikA.Science,2018,361(6400):360-36512VasudevanR,PilaniaG,BalachandranPV.JApplPhys,2021,129(7):070401
作者:劉倫洋1,2丁芳1,2李云琦1,2
和国外研究员成为1篇论文的作者,共享学术资源,节省时间和精力,发表有保障。
针对学术论文,从投前评估到录用,全过程指导并协助,减少浪费时间。
同领域研究员推荐期刊,分析论文质量、作者需求、期刊征稿要求精准推荐。
文章预审评估服务,邀请同领域专家审稿,给出修改意见,提高被接收的几率。
改善非英语母语科研学者文章语言,确保文章不因语言、语法等问题而退修甚至拒稿。
国内外高校和科研机构精通中英双语的专家翻译文章,确保英文词语准确性、专业性。
使用国际期刊通用数据库进行英文查重,获得与出版商相同重复率信息,提前降重。
旨在帮作者将稿件提交至目标期刊投稿系统,作者避免耽误时间,或因误操作导致退稿。