時間:2022年05月11日 分類:科學技術論文 次數:
摘要:本文在分析了國內外學者水質研究現狀的基礎上,明確了中小型企業排放廢水特征,對排放廢水歷史水質數據進行分類和關聯分析,分析容易監測的水質指標與水質等級之間的關系,提出了基于水質等級分類的中小型企業排放廢水水質監測模型。利用決策樹算法構建水質等級分類模型,可以有效替代傳統采購價高、運行成本高的設備,為企業、政府等相關部門提供方便、科學的排放廢水監測體系。以某市河道水質數據進行模型驗證,準確率可達 78.56%,證明該方法的可行性,為中小型企業排放廢水提供全天候在線監測,為分布廣、比重大、監管難的中小企業排放廢水提供可推廣的監測體系。
關鍵詞:水質等級分類;決策樹算法;中小型企業;廢水排放水質監測
隨著中國社會生產力、科學技術的發展以及產業結構向工業等領域調整,中國城鎮化步伐不斷加快,但一系列的環境問題也隨之而來,其中水污染問題尤其突出。針對水資源保護問題,中國采取了一系列科學的法律手段,先后出臺了多項規范和排污標準,包括《中華人民共和國水法》《中華人民共和國水污染防治法》《中華人民共和國環境保護法》等,以規范化和法制化手段合理利用水資源,不斷完善中國水資源法律制度體系。水污染會影響各類環境資源、破壞生態平衡,還會降低工業和農業生產質量,甚至危害人類生活和身體健康?v觀近年來的水污染現象,突發水污染事件占比較大,其中絕大多數是由于企業違規排放廢水或工廠事故泄露所引起,而一些環保設備差、裝備水平低的中小型工業企業最容易出現事故。
因此,在國務院于 2015 年印發的《水污染防治行動計劃》中,第一點就強調了對工業污染的防治工作,尤其是對小型工業企業的排查,對小型企業的污水治理工作提出了更高的要求。但是污水監測的全套設備包括其運行維護費用每年高達 50~60 萬,導致很多小型企業因無法承擔該項費用而排放不達標廢水,對人類安全造成極大的威脅。因此,尋找適合中小型企業污水水質等級監測的方法已刻不容緩。本文基于某市河道水質數據,分析容易監測的水質指標與水質等級之間的關系,以決策樹算法構建的水質等級監測模型對企業污水排放進行監控,有效替代傳統采購價高、運行成本高的設備,減少費用壓力,可以為企業、政府等相關部門提供方便、科學的排放廢水監測體系,為中小型企業污水排放前的監測提供理論參考。
1 研究現狀
1.1 水質等級監測研究現狀
在水質等級監測研究中,主要以多種算法為基礎,構建水質評價模型,并根據實踐中的突出問題加以改進。張穎等[1]以流域的三大監測斷面點為研究對象,采用灰色模型對水質的各個參考值進行預測,利用模糊神經網絡方法構建水質預測模型,綜合把握水質變化,達到了預警效果。
高學平等[2]關注季節變化對水質指標權重的影響,以層次分析法創造性地提出時域權重矩陣,并將此與實測權重相結合,得到綜合評價權重,設計改進的模糊綜合評價法提高水質評價的準確度。肖金球等[3]針對水質監測系統在太湖應用中存在的數據和等級評價不準確的問題,提出一種改進型 GA-BP 的神經網絡,基于此可以辨識復雜的水質模型,以此消除干擾因素帶來的誤差。
閆佰忠等[4]以地下水水質評價為對象,基于安陽市 8 個監測點的數據,以隨機森林設計水質評價模型,并與神經網絡模型相比較,結果顯示該方法的準確性與穩定性更高。張瑩等[5]在大數據背景下聚焦于海洋水質評價,以機器學習算法為基礎,以40萬站點和 13個水質指標信息為樣本,構建海洋多水質指標信息的綜合評價模型。1.2 水污染溯源研究現狀隨著中國城鎮化不斷發展,水污染現象逐年增加,水污染溯源研究被廣大學者所重視,尤其是針對企業污水溯源的研究。Boano 等[6]針對任意分布源的水污染溯源和多個獨立點源的水污染溯源,采用地質統計法對水污染事件進行回溯。Wei 等[7]利用AM 算法和正向模型的不確定性特征對水污染事件過程進行反演,針對水中污染物特征判斷整個污染過程,在反演過程中尋求最終結果。
李欣欣等[8]利用改進的 AFSA 算法對構建的污染物時空溯源模型和排放總量模型進行求解,確定污染物排放量、排放位置和時間 3個參數,借助 GIS技術進行污染源企業排查清單的確定。王忠慧等[9]利用耦合的概率密度分析方法優化水力學模型,并采用 BAS 算法進行求解,實現污染物源項信息的確定,有效減少計算量并提高了精準度。孫策等[10]利用貝葉斯和蒙特卡洛相結合的方法,基于已知污染源信息,利用函數求得污染源的概率密度,將溯源問題轉化為求概率密度的抽樣問題,使結果更有效快速地接近目標。呂清等[11]以南方某市 S 河的一次水質異常事件為例,對水紋識別技術在水污染溯源中的實際應用進行驗證,根據水紋峰變化推斷入侵過程,比對水體水紋與污染源水紋,最終實現溯源。
1.3 決策樹算法應用研究現狀決策樹算法以其速度快,精確度高等特點,已被學者們應用到各行各業的研究中。Chandra[12]將決策樹創造性應用于地質學領域,用以確定發生滑坡的概率,選用地質構造,坡度等 9個主要因素進行分析,生成滑坡敏感性圖,結果表明該圖可以用于中等規模和區域的規劃中。Arlita等[13]在運輸領域,采用決策樹方法開發選擇模型,以確定最佳貨物運輸方案,為公司業務發展提供合理計劃。楊泉[14]將決策樹算法應用到漢語短語關系分類上,建立 7 個分類特征,在自建庫中生成決策樹,以投票給出最終結果 ,并 采 用 1020 條 數 據 進 行 測 試 ,正 確 率 高 達94.8%。
劉曉娜等[15]主要將其應用到解決橡膠林地的遙感識別,以 Landsat MSS/TM/ETM 數據和 MO⁃DIS-NDVI 數據為基礎,利用決策樹方法構建簡單快捷的橡膠林地分類方式,提取所需地區的橡膠林地,有助于生態保護和土地合理開發利用。程華等[16]利用 C4.5 決策樹方法解決港航班延誤預測問題,構建預測模型,并以中國某大型機場數據為例,進行大量實驗驗證其正確率。王焱[17]在對國內外行人檢測的研究現狀進行分析后,創造性的提出將梯度提升決策樹算法應用于行人檢測中,并與區域建議網絡相結合,設計出可以用于檢測不同尺度行人的檢測算法。
2 數據來源及研究方法
2.1 數據來源
本文水質數據來源為某市 20 條河流的監測數據,時間跨度為 2018年 1月至 2020年 8月,數據中包含了緯度、地區、水質等級、高錳酸鹽指數、氨氮、總磷、PH值、水溫、溶解氧、濁度、電導率、總氮、數據時間等屬性。對排放廢水歷史水質數據進行分類和關聯分析,探究其中容易監測的水質指標與水質等級之間的關系,經過篩選后,選擇特征屬性以構建水質等級分類模型。
2.2 研究方法
在構建水質等級分類模型時主要采用決策樹算法對水質進行分類。決策樹算法是為了解決 ID3算法忽略對葉子數目的研究而提出的一種改進算法,是通過一系列規則對數據進行分類的方法,其基本原理是通過歸納學習訓練集的規律生成相應的決策樹,用所生成的決策樹規律對新的數據進行分類。該算法具有速度快、準確性高、可處理連續字段和種類字段等優點[18]。決策樹主要表現為樹形結構,包括一個根節點、若干個內部節點和若干個葉子節點,其中每個內部節點代表一種屬性測試,每個葉子節點代表一種決策結果。節點之間通過分支進行聯系,每個分支代表一種測試輸出。
同時決策樹也代表了對象值與其屬性之間的映射關系,其中對象用節點表示,每一個從根節點到葉子節點之間所有的路徑代表對象值,而每一個分支則代表可能的屬性值。一棵決策樹生成的過程也就是決策樹的學習過程。主要分為特征選擇,決策樹生成和決策樹剪枝3 個步驟,首先進行特征選擇,從訓練數據樣本中選擇特征作為節點分叉標準,其中特征的選擇具有不同的選擇標準,評估標準不同最終的決策樹算法也不同,接著進行決策樹的生成,根據之前選擇的特征標準,對訓練數據采用從上至下的遞歸法生成子節點,直至分叉結束,最后是決策樹修剪過程,由于決策樹易因過擬合現象而導致分類有誤,因此在決策樹生成后要進行樹枝的修剪過程,通過減小樹的結構達到解決過擬合的問題。
3 基于決策樹算法的水質等級分類模型構建
3.1 水質等級監測模型的屬性
選擇決策樹中含有多個特征屬性,但只有一些特征屬性對分類可以起到關鍵作用,影響水質類別的所有特征對其分類具有不同的敏感程度,特征的選擇對模型的準確度和效率具有直接影響。傳統的水質等級評價會選擇 pH,溶解氧,高錳酸鹽指數,氨氮等30 多種評價指標作為特征屬性,但很多中小型企業由于資金原因無法承擔全套的水質評價儀器,致使工廠排放的廢水未經過等級評價便排放到河道中,導致污染物超標,劣Ⅴ類水增加。因此,在對水質等級與各因素之間的影響程度以及各種組合結果的對比后,最終選擇溫度和總磷作為最終的特征屬性。其中總磷是指水中所有形態磷的總量,是反映水體質量和污染程度的重要指標。
在水體中,磷一般為磷酸鹽和有機磷的形式存在,絕大多數來源于企業污水中磷的使用。磷是水中最主要的影響元素,是促進水中生物和微生物生長的關鍵因素,若磷過于富集,則會導致水體質量下降。對中小型企業排放廢水中的總磷的監測和分析,可以辨別水質的污染程度,了解水質的富營養化狀況,因此總磷是水質分析中的必測項目,是評價水質的重要因素,選擇磷作為特征屬性具有一定的理論和實際支撐。測定總磷含量的國家標準是鉬酸分光光度法。該方法的主要原理是,首先在保持中性的水環境下,用過硫酸鉀或者硫酸—高氯酸對水樣進行消解操作,使水樣中的所有形態的磷轉化為正磷酸鹽,接著在酸性介質中,將消解的正硝酸鹽與鉬酸銨發生反應,從而保持在銻鹽存在的條件下將生成的磷鉬雜多酸立即用抗壞血酸還原生成藍色的絡合物,最后在 700 nm條件下進行吸光度測定。
3.2 水質等級監測
模型的建立水質等級的分類模型是指從已知的水質數據中利用決策樹分類算法,將水質類別分類中的規律提取出來的過程,其中已知類別的數據稱為樣本數據,可以分為訓練集和測試集兩部分。在建立水質等級分類模型過程中,首先根據需求和數據特點選擇決策樹算法作為分類模型;接著將訓練集數據作為算法輸入值,總結歸納分類標準后輸出相應的分類模型;最后利用測試集數據驗證分類模型的準確性和有效性,使用構建的分類模型將測試數據進行分類,完成后與實際分類情況比對,統計最終的準確率,若準確率達到要求的標準,則認為該模型可作為水質分類模型,否則需要重新構建。
4 面向中小型企業的廢水排放水質監測模型
構建面向中小型企業的廢水排放水質監測模型是基于水質等級分類模型建立的。對企業而言,定期對廢水進行取樣,測定廢水的溫度以及其中的總磷含量,將數據輸入構建的基于決策樹算法的水質等級分類模型中,輸出相應的水質類別,判斷是否符合排放標準,若符合記錄數據后可以要求進行排放程序,若不符合則需要進行再次處理,重復過程直至廢水達到排放標準。而對政府相關部門而言,在進行廢水排放水質抽查時,首先將監測到的數據輸入基于水質等級分類的模型中,判斷企業排放的廢水是否符合標準,是否對水體造成了污染,若初步監測符合標準則記錄在冊,若結果不符合,水質的類別低于Ⅲ類水質或者當地標準,則將樣水送至相關機構,采用專業設備進行監測后,再次判斷是否符合標準,一旦發現不符合則根據相關政策對企業進行罰款、教育和政治工作。該模型有效降低了中小型企業和政府對廢水排放水質的監測費用,有效防止企業偷排超標廢水的行為,減少水體污染現象。在構建決策樹的過程中,需要找出最佳節點和最佳分枝方法,衡量這個“最佳”的指標叫做“不純度”。通常來說,“不純度”越低,決策樹的擬合效果越好。參數 Criterion 是用來決定“不純度”的計算方法。
在 sklearn 庫中提供了 entropy(信息熵)和 GiniImpurity(基尼系數)2 種計算方法。使用的決策樹算法在分枝方法上的核心大多是圍繞在對某個“不純度”相關指標的最優化上。“不純度”是基于節點來計算的,樹中的每個節點都會有一個“不純度”。信息熵相較于對“不純度”的處理更加敏感,當使用信息熵作為指標時,決策樹的生長會更加“精細”,對于高維數據、噪音很多的數據,信息熵容易發生過擬合現象,而基尼系數在這種情況下的效果要優于信息熵。本文選擇基尼系數計算“不純度”。在構建模型時可以對特征標簽重要性進行可視化,結果發現總磷的重要性為 0.960 2,水溫的重要性為 0.039 78,可見總磷相較于溫度,對水質等級的影響更大,也更加直接。同時為了方便構建決策樹模型,將 I 類、II 類、III 類、IV 類、V 類、劣 V 類 6 個水質等級分別用數字 1、2、3、4、5、6進行替代。
5 應用測試與分析
對決策樹進行評估時最常用的標準是預測正確率。訓練集共有 50 206 條數據,使用決策樹對水質等級進行預測,預測正確數據為 39 443條,正確率為78.56%;模型的訓練集得分低于測試集,為 72.87%。在計算評估指標時,樣本被分為 4類,分別為 TP(True Positives)、FP(False Positives)、FN(False Nega⁃tives)、TN(True Negatives)。TP 是指將正類判定為正類,FP 是指將負類判定為正類,FN 是指將正類判定為負類,TN 是指將負類判定為負類。其中精確度的計算公式為 TP/(TP+FP),召回率的計算公式為TP/(TP+FN),加權調和平均值的計算公式為 2TP/(2TP+FP+FN)。以 III類水為例,正類數據指的則是III類的數據,負類數據指的則是除 III類之外的其他等級的數據。
當水質等級預測全部正確時,III類水對應的樣本數量應為 17 149。在實際使用決策樹模型進行預測時,預測出的屬于 III 類水的數據共19 458條,其中的正確判定為15 022條,則TP為15 022條,FP則為 4 436條,FN為 2 127條,TN為 30 748條,精確度為 15 022(/ 15 022+4 436),即 77.20%;召回率為 15 022(/ 15 022+2 127),即 87.59%;加權調和平均值 2×15 022(/ 2×15 022+4 436+2 127),即 82.07%。
6 小結
隨著中國城鎮化步伐不斷加快以及環境保護和水污染防治行動的不斷深入,大型企業已經建成完善的監測和處理廢水體系,而由于廢水監測設備昂貴、運行成本高,是中小企業完善廢水監測體系面臨的主要問題。因此,構建符合中小型企業的廢水排放水質監測模型顯得尤為重要和緊迫。針對這種現象,本文采用決策樹算法,將水質數據劃分為訓練集與測試集,通過構建水質等級分類模型來預測水質等級,測試集驗證的水質等級正確率為 78.56%,證明了該方法的可行性,可用于對中小型企業的廢水水質進行初步分級,減少監測費用,同時對水質進行監控,以便在水質異常時采集水樣進行深入監測,并及時采取治理措施,形成針對中小型企業的廢水監測體系,減少水污染現象。
參考文獻:
[1]張 穎,高倩倩 .基于灰色模型和模糊神經網絡的綜合水質預測模型研究[J].環境工程學報,2015,9(2):537-545.
[2]高學平,孫博聞,訾天亮,等 .基于時域權重矩陣的模糊綜合水質評價法及其應用[J].環境工程學報,2017,11(2):970-976.
[3]肖金球,周 翔,潘 楊,等 .GA-BP 優化 TS 模糊神經網絡水質監測與評價系統預測模型的應用——以太湖為例[J].西南大學學報(自然科學版),2019,41(12):110-119.
[4]張 瑩,謝仕義,鄧偉彬,等 .基于機器學習理論的海洋水質評價模型[J].物探化探計算技術,2019,41(6):819-825.
[5]閆佰忠,孫 劍,安 娜 .基于隨機森林模型的地下水水質評價方法[J].水電能源科學,2019,37(11):66-69.
[6]BOANO F,REVELLI R,RIDOLFI L. Source identification in riverpollution problems:A geostatistical approach[J]. Water resourcesresearch,2005,41(7):1-13.
[7]WEI G,CHI Z,YU L,et al. Source identification of sudden contami⁃nation based on the parameter uncertainty analysis[J].Journal of hy⁃droinformatics,2016,18(6):919-927.
[8]李欣欣,王 寧,姜秋俚 . 基于改進 AFSA 算法的河流突發水污染溯源[J].計算機系統應用,2020,29(7):139-144.
[9]王忠慧,貢 力,康春濤,等 .基于 BAS算法的河渠突發水污染溯源[J].水資源保護,2020,36(5):87-92.
[10]呂 清,徐詩琴,顧俊強,等 .基于水紋識別的水體污染溯源案例研究[J].光譜學與光譜分析,2016,36(8):2590-2595.
[11]孫 策,李傳奇,白 冰,等 .基于貝葉斯方法的突發水污染事件溯源研究[J].中國農村水利水電,2020(8):71-75,81.
[12]CHANDRA P P. Landslide susceptibility analysis using decisiontree method,Phidim,eastern Nepal[J].Bulletin of the departmentof geology,2013(15):69-76.
作者:俞 武1,薛夢瑤2,3 ,何 斌2,3,馬金萍1,杜子龍4