時間:2021年10月11日 分類:推薦論文 次數:
摘要:為了應對大規模電動汽車調度模型求解復雜、算力要求高的問題,機器學習方法在電動汽車充電導航調度中越來越受到關注。針對充光儲一體化能源站,文中提出了一種基于深度強化學習(DRL)的充光儲能源站調度策略。首先,分析了能源站運行策略與DRL基本理論。其次,基于后悔理論刻畫用戶對不同充電方案時間與費用的心理狀態,建立了智能體對“人-車-站”狀態環境全感知模型,并引入時變ε-greedy策略作為智能體動作選擇方法以提高算法收斂速度。最后,結合南京市實際道路與能源站分布設計了多場景算例仿真,結果表明所提方法在考慮用戶心理效應的基礎上能夠有效提高能源站光伏消納率,為電動汽車充電調度提供了一種新思路。
關鍵詞:電動汽車;充光儲能源站;充電調度;深度強化學習;后悔理論;全感知模型
0引言
面對日益嚴峻的能源危機與環境污染問題,電動汽車(electricvehicle,EV)作為環境友好型交通工具迎來了發展機遇[1—2]。然而規模化EV的隨機充電行為會導致負荷峰值增加、電能質量降低等問題,給配電網的安全與經濟運行帶來了挑戰[3—4]。同時,面對規模化電動汽車調度算力要求高、計算復雜的問題,傳統優化模型無法滿足實時調度需求。因此,研究充光儲一體化能源站的區域電動汽車優化調度策略,已成為亟待解決的重要問題。目前,國內外學者在針對光儲能源站的電動汽車調度方面已取得一定成果。
新能源汽車論文: 新能源電動汽車低溫熱泵型空調系統研究
考慮光伏發電等可再生能源對優化調度策略的影響,文獻[5]以能源站運行成本為優化目標,基于多模態近似動態規劃進行求解,在不同定價模型與光伏出力情況下均表現出較強魯棒性。文獻[6]以減少微電網與配電網交換功率以及微電網網絡損耗為優化目標,采用序列二次規劃算法進行求解。通過對EV進行充放電調度使日負荷曲線跟蹤發電曲線,并網模式下的網絡損耗及離網模式下的所需儲能系統容量均得到降低。
文獻[7]考慮能源站源荷互補特性,提出了一種考慮不確定性風險的能源站多時間尺度調度模型。文獻[8—9]考慮光伏出力預測誤差等不確定性,建立了以充光儲能源站日運行成本最小為目標的充電站日前優化模型,并在此基礎上建立實時 滾動優化模型。文獻[10]以大規模EV接入的配電網運行成本最小和負荷曲線方差最小為目標建立EV優化調度模型,在保證系統運行成本的同時有效降低了負荷峰谷差。
上述研究均建立單/多目標-多約束優化模型解決EV調度問題,但應用在實時調度方面均面臨著海量計算的壓力,無法滿足實時調度的需求。同時,上述研究過度依賴模型,當實際應用中包含模型未考慮的不確定性因素時,模型的優化結果得不到保證,算法的魯棒性與泛化能力有待改進。隨著機器學習算法的逐漸成熟,已有少量學者開展了深度強化學習(deepreinforcementlearning,DRL)應用于EV充電調度的研究。
文獻[11]提出一種基于競爭深度Q網絡的充電控制方法,在含高滲透率分布式電源的系統中能夠兼顧配電網的安全運行與用戶出行需求。文獻[12]考慮EV行駛距離限制,以最小化EV總充電時間為目標,建立DRL模型進行訓練求解。文獻[13]考慮用戶用電需求,將EV充放電能量邊界作為部分狀態空間,建立了以最小化功率波動與充放電費用為目標的實時調度模型。文獻[14]考慮電價與用戶通勤行為的不確定性,從充電電價中提取特征訓練Q網絡,并采用Q值最大化原則執行動作。文獻[15]以最小化EV用戶行駛時間與充電成本為目標,利用最短路徑法提取當前環境狀態訓練智能體。
雖然上述研究理解了DRL方法的本質,以用戶充放電時間或費用作為目標,將車輛與充電站參數作為環境狀態進行求解。然而,作為車輛行駛與充電行為的最終執行者,EV車主對充電方案的感知 效應尤為重要,影響調度策略的可執行性與適用性。為此,文中提出了一種考慮人類行為心理的能源站EV調度方法。基于后悔理論刻畫EV用戶心理狀態,建立智能體“人-車-站”全狀態環境感知模型。同時,引入時變ε-greedy策略作為智能體動作選擇方法以提高算法收斂速度。最后結合南京市實際道路與能源站分布設計了多場景算例仿真,驗證文中所提策略的有效性與實用性。
1EV調度問題構建
光伏系統由多組太陽能電池板串并聯組成,電池板接收太陽能發電經DC/DC變換器接入直流母線,電能主要用于EV充電。儲能系統由電池組構成,通過雙向DC/DC變換器接入直流母線。當光伏系統發電有剩余時,其儲存電能;當光伏發電不足時,其釋放電能。AC/DC模塊為配電網系統與能源站的連接單元,當能源站內部電能不能滿足充電需求時由配電網經AC/DC接入充電負荷。
2基于DRL的EV調度方法
2.1DRL基本原理
DRL是一種結合深度學習的感知能力與強化學習的決策能力的人工智能算法。通過智能體不斷與環境進行交互,并采取一定的動作使得累計獎勵最大化[17—18]。智能體本質上是一個狀態空間到動作空間的映射關系。強化學習算法以馬爾科夫過程(Markovdecisionprocess,MDP)為數學基礎,即環境下一時刻狀態僅與當前狀態有關,與前序狀態無關。
2.2人類行為決策理論
EV用戶在充電過程中不僅僅追求預期效用的最大化,也會受限于認知水平及主觀心理情緒等因素的影響,因此很難選擇出全局最優或個人利益最大的充電選擇方案。事實上,個體往往尋求決策后的正面情緒,從而規避決策可能帶來的負面情緒。為此,文中引入后悔理論建立人類行為決策心理模型,刻畫用戶在EV充電調度過程中的心理狀態,作為DRL智能體“人-車-站”環境狀態感知的一部分。后悔理論最早由Bell提出,其將后悔描述為一件給定事件的結果或狀態與他將要選擇的狀態進行比較所產生的情緒[19]。依據人類在離散事件選擇中的后悔規避心理,當所選方案優于備選方案時,決策者會感到欣喜,反之則會感到后悔。因此,決策者個體更傾向于選擇預期后悔最小的方案。
2.3DQN實現
EV充電調度針對能源站的EV充電調度問題每一個時刻的狀態僅與前一時刻狀態及智能體動作有關,符合馬爾科夫決策過程,因此,文中采用DQN方法建立EV充電調度模型,利用智能體進行“人-車-站”多主體狀態感知,通過不斷地探索與利用,建立狀態-動作與Q值的映射關系,實現EV實時調度。
3EV充電調度框架
該過程可分為以下3個步驟:2Flowchartofoptimizedschedulingstrategy(1)智能體通過更新時間、EV位置及動力電池SOC獲取車輛狀態,更新各能源站運行狀態并預測下一時刻光伏出力,通過后悔理論感知EV用戶的心理狀態,得到當前時刻環境狀態st。(2)智能體將感知到的環境狀態輸入深度神經網絡,得到各備選動作的Q值,通過時變ε-greedy策略選擇動作at。(3)智能體執行所選動作,重復上述步驟直至車輛抵達所選能源站。
4算例分析
4.1參數設置
為驗證文中所提策略的有效性與實用性,選取南京市部分區域,范圍為經度(東經)118.735152~118.784076,緯度(北緯)32.059057~32.092003作為算例路網。同時,選取該區域已經投入運營的15座能源站,假設該區域能源站均配置了光伏發電及儲能系統,且站內充電樁均為快充。
不同天氣類型對智能體所獲得獎勵值有較大影響,3種天氣下智能體平均獎勵分別為9.95,9.38,7.23,特別地,陰雨天氣獎勵值較晴天降低27.34%。這是由于智能體的到站獎勵與區域內能源站平均光伏消納功率有較大關系,雖然陰雨天氣智能體所得獎勵較晴天更低,但此時智能體已經實現了最優策略的學習。同時,觀察算法收斂速度可見,所提DQN方法在前2種場景下分別在400與200回合達到穩定,而在第3種場景下訓練約80回合即實現收斂,表明智能體能夠有效利用前期累積的經驗,當環境狀態發生較大改變時,其能夠調整神經網絡參數以快速適應當前環境狀態。
5結論
針對能源站EV充電導航與調度問題,提出基于DRL方法的調度策略。算例從多角度分析了優化調度策略,得到如下結論:(1)DQN方法中智能體對EV狀態、能源站運行狀態以及用戶心理狀態進行全狀態感知,通過學習狀態-動作與Q值的映射關系能夠有效進行充電調度。(2)在晴天與陰雨天等能源站常見運行場景下,所提方法均能夠兼顧用戶心理感知進行調度,同時有效提高了能源站光伏利用率,具有較強的實用性與泛化能力。(3)不同行為人對時間與費用的感知效用會影響智能體狀態感知與策略參數,進而影響所提方法對其的導航與調度策略。盡管如此,限于篇幅文中并未分析DQN算法參數對調度策略的影響,在下一步的工作中DQN算法參數的選擇可以繼續完善。此外,基于用戶感知異質性的研究,可以進一步改進所提策略。
參考文獻:
[1]肖定垚,王承民,曾平良,等.電力系統靈活性及其評價綜述[J].電網技術,2014,38(6):1569-1576.XIAODingyao,WANGChengmin,ZENGPingliang,etal.Asurveyonpowersystemflexibilityanditsevaluations[J].PowerSystemTechnology,2014,38(6):1569-1576.
[2]劉洪,閻峻,葛少云,等.考慮多車交互影響的電動汽車與快充站動態響應[J].中國電機工程學報,2020,40(20):6455-6468LIUHong,YANJun,GEShaoyun,etal.Dynamicresponseofelectricvehicleandfastchargingstationsconsideringmulti-vehicleinteraction[J].ProceedingsoftheCSEE,2020,40(20):6455-6468.
[3]邵尹池,穆云飛,余曉丹,等.“車-路-網”模式下電動汽車充電負荷時空預測及其對配電網潮流的影響[J].中國電機工程學報,2017,37(18):5207-5219,5519.SHAOYinchi,MUYunfei,YUXiaodan,etal.Aspatial-temporalchargingloadforecastandimpactanalysismethodfordistributionnetworkusingEVs-traffic-distributionmodel[J].ProceedingsoftheCSEE,2017,37(18):5207-5219,5519.
[4]江明,許慶強,季振亞.基于時序差分學習的充電站有序充電方法[J].電力工程技術,2021,40(1):181-187
作者:孫廣明1,陳良亮1,王瑞升2,陳中2,邢強2