時間:2021年07月12日 分類:推薦論文 次數:
摘要:為研究京津冀能見度狀況和分析影響能見度的特征貢獻模式,基于2019年京津冀氣象站點和空氣質量監測站點數據研究能見度時序變化特征,運用隨機森林算法建立能見度估算模型分析影響因子整體解釋度,并基于SHAP框架結合隨機森林模型構建能見度影響因子可解釋模型,對特征因子貢獻大小、方向以及單變量貢獻情況進行了詳細解釋和分析:①能見度狀況在早晚高峰時較差,每日15時左右最好,工作日和非工作日無明顯差別,從季節上看冬季能見度最差;②隨機森林模型擬合系數解釋方差為0.8973,R2為0.8978,擬合結果良好;③根據SHAP可解釋模型分析結果可得,PM2.5是影響能見度的最重要因子,呈負向相關,且貢獻度變化率以濃度100μ/m3為轉折點由急促轉向平緩。實驗證明,基于SHAP框架的能見度解釋模型不僅能反映貢獻度的大小以及影響效應的方向,而且可以對單個變量的貢獻進行詳細分析,提高了特征貢獻分析的精細度和準確性。
關鍵詞:隨機森林;能見度;SHAP框架;貢獻解釋
0引言
大氣能見度,又稱水平能見度,即視力正常的人能將目標物從背景中識別出來的最大距離[1],一般以米為單位,既是一個氣象觀測因子,也是反映大氣透明度和表征空氣質量的重要指標。隨著我國經濟的快速發展,霧霾天氣頻發造成城市能見度降低,國家為改善能見度狀況也采取許多措施,比如出臺相應政策遏制工業污染排放、管理機動車輛及尾氣排放、鼓勵低碳生活等[2]。能見度下降依然是空氣污染方面的重要研究熱點。
已有研究表明,氣象因素和污染因素是影響大氣能見度的主要因素。文獻[3]采用2014年邢臺市逐時氣象監測數據及空氣質量監測數據,基于Pearson相關統計方法分析了不同季節邢臺市能見度與氣溫、露點溫度、氣壓、相對濕度、平均風速等氣象要素以及SO2、NO2、CO、O3、PM10、PM2.5等污染物濃度的關系,結果表明不同季節各因子與能見度相關性存在差異.
其中PM2.5全年相關系數約為-0.64,相對濕度約為-0.30,分別是與能見度相關性最高的污染物因子和氣象因子;文獻[4]基于2007年到2015年的20個國家級自動氣象站觀測數據分析得出北京地區能見度的主要影響因子是PM2.5濃度、相對濕度和風速,相關系數分別為-0.56、-0.54以及0.29,可見能見 度與PM2.5濃度和相對濕度負相關,與風速呈正相關;文獻[5]收集了中國寶雞的長期氣象數據分析了能見度變化趨勢,運用正矩陣分解受體模型定量分析影響因素并解釋了能見度降低的原因等等。
傳統的Pearson相關系數、多元線性回歸等模型難以反映影響因素與能見度之間復雜的非線性關系,為處理該問題,決策樹、支持向量機、神經網絡等機器學習算法被應用于能見度研究之中,文獻[6]使用決策樹算法識別了影響印度加爾各答機場能見度的主要參數,得出影響能見度最主要參數分別是NO2、風速、相對濕度、CO和溫度,隨后運用人工神經網絡構建回歸模型,實驗結果表明所選影響因素對能見度的總體解釋度良好;文獻[7]分別使用支持向量機、多層感知器、極限學習機以及高斯處理回歸等不同機器學習方法構建西班牙低能見度回歸模型,通過對比分析發現極限學習機對低能見度的總體解釋度均優于其他方法.
文獻[8]使用太原地區2016—2019年的站點監測數據研究了太原市大氣能見度時空分布特征,并通過神經網絡構建了能見度與相對濕度及PM2.5濃度的非線性關系模型,相關系數超過了0.8,并且通過了顯著檢驗,表明相對濕度及PM2.5對能見度有很高的解釋度。受限于機器學習過程的可解釋性,以上方法側重影響因素對能見度的總體解釋度和單個影響因素與能見度線性相關程度評估,然而同一影響因素在不同的值域區間內對能見度的影響程度和影響方向可能有所不同,因此有必要對單個影響因素的非線性貢獻模式進行更加深入的分析。文獻[9]提出的SHAP(shapleyadditiveexplanation)框架能夠解釋機器學習模型中各特征對每個預測值的貢獻,進而幫助人們理解機器學習模型這種“黑箱模型”的運行過程。
文獻[10]使用SHAP模型解譯了三維景觀指數對地表溫度的影響,例如,建筑物高度對地表溫度的貢獻隨高度增加先升高后降低,并在30m左右呈現平穩狀態;文獻[11]將SHAP用于互聯網金融場景中,解釋了各指標對貸前逾期識別的影響大小和方向等,可見SHAP框架具有強大的可解釋性。隨機森林是一種集成學習算法,相較于單一算法具有更高的準確性,對數據集的適應能力強,并且具有良好的抗噪能力和優越的性能,已被應用于人口經濟、空氣污染等多個領域中,如文獻[12]基于隨機森林算法對上海市PM2.5濃度評估,文獻[13]等基于隨機森林模型研究了西藏人口分布格局并分析了其影響因素等。
本文分析了京津冀地區能見度在日、周、月3個尺度的時序變化規律;建立基于氣象因子和污染因子的能見度隨機森林估算模型,分析影響因素對能見度的總體解釋度;將SHAP解釋框架引入能見度影響因素貢獻分析中,揭示各影響因素在不同值域區間內對能見度的貢獻方向和程度。
1研究區域概況與數據
1.1研究區域概況
本文研究區域為京津冀地區,該地區位于華北地區,包括北京市、天津市以及河北省的石家莊、張家口、承德、保定、秦皇島、唐山、廊坊、滄州、衡水、邢臺和邯鄲13個主要城市,占地面積約為2.18×105km2,人口總數約1.127億(2018年),2019年地區生產總值合計約8.46萬億元,約占全國的8.5%。京津冀是我國的政治、文化中心和經濟發展核心區域,其大氣污染問題由來已久,且進入21世紀后呈現爆發式增長[14],因此,研究京津冀能見度對了解城市空氣質量具有重要意義。
1.2數據來源及預處理
本文選取京津冀主要城市2019年1月1日至12月31日逐時的氣象監測站點數據和同期的空氣質量監測站點數據為原始數據,其中氣象數據來自中國氣象數據網(http:∥data.cma.cn/),選取京津冀區域的171個氣象監測站點的逐時監測數據, 包括降水量(precipitation,Prcp)、氣壓(barometricpressure,BP)、相對濕度(relativehumidity,RH)、氣溫(temperature,Tem)、風速(windspeed,WS)以及水平能見度(visibility,Vis)(人工)等指標.
空氣質量數據來自中國環境監測總站全國城市空氣質量實時發布平臺(http:∥www.cnemc.cn/),收集京津冀區域的79個站點逐時監測數據,包括PM2.5、PM10、SO2、NO2、O3和CO等指標,其中CO的單位為mg/m3,其他指標的單位均為μ/m3。本研究對數據進行清洗,刪除原始數據中整體漏測的數據,并采用均值法,即上下時刻的均值對其他缺失值填充;將各城市區域所包含所有站點某指標監測值的日均值作為該區域的該指標數值,按城市區域合并氣象數據和空氣質量數據,完成數據集的構建。
2研究方法
2.1隨機森林算法
隨機森林(randomforest,RF),是一種基于決策樹的機器學習方法,最早由LeoBreiman等人提出[15]。基于Bootstrap抽樣從訓練樣本集中隨機有放回的抽取樣本;針對每個樣本集分別建立決策樹模型,并在分裂過程中,隨機選擇部分屬性,擇優分裂;多個決策樹組成隨機森林,新樣本的值則由多棵樹的投票結果或均值決定[16-17]。隨機森林的雙重隨機性,決定了其具有效率高、性能強等特點,同時也不易出現過擬合現象。根據前人研究情況可知,氣象因子和空氣污染物因子為能見度最主要的影響因素[3-9,13-14],綜合考慮數據的科學性及可獲取性.
本文選取PM2.5、SO2、NO2、O3和CO等空氣污染物因子以及相對濕度、風速等氣象因子作為輸入變量,以能見度作為輸出變量,構建隨機森林估算模型,由于PM10與PM2.5相關性過高,會造成信息冗余,進而影響實驗效果[18],因此未將PM10作為模型輸入變量。為了保證模型精度,分別運用學習曲線法調整基評估器的數量,以及網格搜索法調整樹的節點分枝最小樣本數、葉子節點最小樣本數、決策樹最大深度、分枝時最大特征個數以及不純度衡量指標等重要參數;為了方便檢驗模型的性能,將數據集的80%作為訓練集,20%作為測試集,基于訓練集訓練模型,再通過測試集檢驗擬合效果。
2.2能見度影響因子解釋模型
SHAP框架是一種經典的事后解釋框架,將博弈論思想和局部解釋相結合,通過計算每個樣本每個特征變量的重要性值而達到解釋效果,在SHAP框架中,該值被稱為SHAPvalue,是樣本中每個特征所分配到的數值,也可直觀地認為是每個特征的貢獻值[19]。
3實驗結果與分析
3.1能見度時序變化特征
為了全面分析京津冀地區能見度情況,分別從日、周、月3個尺度分析其時序變化規律。縱觀不同尺度時序變化圖,京津冀能見度變化趨勢相近,其中北京能見度狀況最優、天津次之,河北最差。一天當中,早上7時之前,能見度略微下降趨勢,8時之后,能見度開始提升,一直到15時達到峰值,之后開始回落,夜間能見度較低。原因是早高峰時期,人流量、車流量較為集中,導致空氣中污染物濃度增加,從而降低了能見度。
隨后人車流量減少,同時太陽升起,溫度回升,空氣中濕度降低,能見度回升,午后到達峰值,之后晚高峰到來,能見度開始下降,到了晚上,由于大氣逆溫,污染物不易擴散,導致能見度較低;從周尺度來看,京津冀的工作日和非工作日能見度區別并不大,可能是因為雙休日出游多的原因,人和車流量并沒有明顯差別,所以能見度也沒有明顯變化[24];冬季能見度最差,到春季有所回暖,春、夏兩季能見度整體狀況較好,到秋季又呈現下降趨勢,說明能見度與氣候和天氣密切相關[25]。
具體來說,一年之中,3月、5月、8月和9月是能見度狀況最好的,而7月份有所下降,可能是2019年7月份陰雨天氣較多的緣故,導致能見度狀況整體不佳,12月份天津和河北的能見度較上個月有所下降,而北京卻有所提升,通常來說,由于天氣和供暖等原因,冬天能見度低是正常的,而北京有所回升,可能跟北京空氣污染管理和防治有關。總之,京津冀地域能見度在日和月尺度上存在明顯的時序特征,周際特征不明顯。由于地域相近等原因,能見度整體變化趨勢也大致相同,北京的能見度狀況最好,應是近幾年北京大氣污染治理力度加大所致,北京能見度狀況隨之有所改善。
3.2隨機森林模型估算結果分析
基于隨機森林算法,選取京津冀各城市2019年1月1日至12月31日的風速、相對濕度、氣壓、溫度、降水量以及PM2.5、SO2、NO2、O3和CO的日均值作為輸入,同時間節點能見度日均值作為輸出,并將數據的80%作為訓練集,20%作為測試集構建模型。運用學習曲線法調整基評估器的數量,調整為163個,運用網格搜索法調整樹的節點分枝最小樣本數、葉子節點最小樣本數、決策樹最大深度、分枝時最大特征個數以及不純度衡量指標等參數,結果分別為2、3、10、6,衡量分枝質量指標為“均方誤差(MSE)”。
基于以上參數,將測試集特征參數代入模型,得出能見度估算結果,其中橫軸是能見度的實測值,縱軸為能見度的估算值,紅色直線是擬合線,雖然有少數點偏離擬合線較遠,但整體擬合情況良好。解釋方差(explainedvariance)以及擬合系數R2是評價模型擬合效果以及模型可解釋程度的重要指標,兩者的取值范圍都是[0,1],越接近1說明回歸效果越好,可解釋度越高,為了判斷所選因子對能見度整體解釋度。
3.3基于SHAP框架的特征貢獻分析
可清晰地反映各影響要素的SHAP值如何對能見度進行解釋,以其中一個樣本為例。基于隨機森林模型得出基線值為14689.99m,以該值為基礎,每個特征根據自己的SHAP值推動最終結果,推高最終值的要素用紅色表示,如風速和NO2等,降低最終值的要素用藍色表示,如PM2.5和CO等。在所有要素SHAP值共同作用下,得出該樣本能見度最終估計值為12322.07m。
總體上看,空氣污染物中PM2.5、CO、SO2濃度以及相對濕度SHAP值是主要呈單調遞減,對能見度呈負向影響;NO2的SHAP值則是曲折向下,與能見度負向相關;風速SHAP值主要呈單調遞增,對能見度呈正向相關;而氣溫SHAP值曲折上升、氣壓SHAP階段式下降、降雨量SHAP值呈散點式下降,規律性較弱。
總的來說,單樣本SHAP值可解釋各特征對每個樣本能見度估計值的影響,平均SHAP值絕對值和可反映各特征的總體重要性和貢獻度,特征摘要圖可分析各因子的貢獻方向,特征SHAP依賴圖可顯示各特征變量在不同區間對能見度的具體貢獻情況。相較于傳統機器學習模型的可解釋性,本研究所提結合隨機森林和SHAP框架的解釋模型不僅能反映影響因子貢獻度的大小和方向,而且能清晰地揭示特征變量的確切貢獻模式,提升了特征貢獻分析的精細度和準確性,具有更好的解釋效果。
氣象評職知識:氣象人員可以評什么職稱
4結束語
本文基于京津冀氣象監測數據和空氣質量監測數據,分析了大氣能見度的日、周、月變化特征,揭示京津冀能見度時序變化規律;然后選取氣象因子和空氣污染物因子為特征變量,利用隨機森林算法構建了能見度估算模型并分析了整體解釋度;最后創新性地引入SHAP解釋模型,基于每個特征變量的SHAPValue的變化分析了各影響因子對能見度貢獻度大小、方向,以及單個變量對結果詳細的貢獻情況,提升了特征解釋效果。后續的研究會繼續探索長時間序列能見度及影響因素的年際變化情況,考慮到城、郊區人口、經濟、建設等狀況不同會造成同一影響因素的貢獻情況存在區間差異,故后續研究將探索能見度影響因素在不同區域對能見度的貢獻差異。
參考文獻
[1]馬佳,于興娜,安俊琳,等.南京北郊冬春季大氣能見度影響因子貢獻研究[J].環境科學,2016,37(1):41-50.(MAJia,YUXingna,ANJunlin,etal.ContributionsoffactorsthatinfluencedthevisibilityinnorthsuburbofNanjinginwinterandspring[J].EnvironmentalScience,2016,37(1):41-50.)
[2]韓貴甫.霧霾天氣形成的原因及治理對策[J].湖北農機化,2020(16):38-39.(HANGuifu.Causesoftheformationofhazeweatherandcountermeasures[J].HuBeiNongJiHua,2020(16):38-39.)
[3]郝巨飛,張功文,楊允凌.大氣能見度及影響因子特征分析[J].干旱區資源與環境,2017,31(4):160-164.(HAOJufei,ZHANGGongwen,YANGYunling.Thecharacteristicsofatmosphericvisibilityandinfluencingfactors[J].JournalofAridLandResourcesandEnvironment,2017,31(4):160-164.)
[4]姜江,張國平,高金兵.北京大氣能見度的主要影響因子[J].應用氣象學報,2018,29(2):188-199.(JIANGJiang,ZHANGGuoping,GAOJinbing.MaininfluencingfactorsofvisibilityinBeijing[J].JournalofAppliedMeteorologicalScience,2018,29(2):188-199.)
作者:張楊1,張福浩1,陳才1,2,焦冠棋2,仇阿根1,3,歐爾格力3