亚洲女同精品中文字幕-亚洲女同japan-亚洲女人网-亚洲女人天堂a在线播放-极品小帅哥连坏挨cao记-极品销魂一区二区三区

學(xué)術(shù)咨詢

讓期刊論文更省時、省事、省心

基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人操作行為研究綜述

時間:2022年02月15日 分類:電子論文 次數(shù):

摘要:通過梳理、總結(jié)前人的研究,首先對深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本理論和算法進(jìn)行介紹,進(jìn)而對深度強(qiáng)化學(xué)習(xí)的流行算法和在機(jī)器人操作領(lǐng)域的應(yīng)用現(xiàn)狀進(jìn)行綜述。最后,根據(jù)目前存在的問題及解決方法,對深度強(qiáng)化學(xué)習(xí)在機(jī)器人操作領(lǐng)域未來的發(fā)展方向作出總結(jié)與展望。 關(guān)鍵

  摘要:通過梳理、總結(jié)前人的研究,首先對深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本理論和算法進(jìn)行介紹,進(jìn)而對深度強(qiáng)化學(xué)習(xí)的流行算法和在機(jī)器人操作領(lǐng)域的應(yīng)用現(xiàn)狀進(jìn)行綜述。最后,根據(jù)目前存在的問題及解決方法,對深度強(qiáng)化學(xué)習(xí)在機(jī)器人操作領(lǐng)域未來的發(fā)展方向作出總結(jié)與展望。

  關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);機(jī)器人操作;深度強(qiáng)化學(xué)習(xí);機(jī)器人學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)

  1引言(Introduction)

  隨著機(jī)器人技術(shù)的發(fā)展,機(jī)器人被廣泛應(yīng)用于醫(yī)療、工業(yè)、國防以及家庭服務(wù)等領(lǐng)域。機(jī)器人在人工示教、遙操作以及復(fù)雜編程等傳統(tǒng)方法的基礎(chǔ)上,經(jīng)過訓(xùn)練后具備一定的操作技能,并且在結(jié)構(gòu)化環(huán)境下可以快速準(zhǔn)確地完成任務(wù)[1-2]。然而,在智能化時代,機(jī)器人面對的往往是復(fù)雜多變的非結(jié)構(gòu)化環(huán)境,傳統(tǒng)的機(jī)器人技術(shù)會面對一些難題,比如機(jī)器人不具備處理未知環(huán)境的能力、開發(fā)時間長以及專業(yè)技能需求高等[3]。在一些情況下機(jī)器人僅能完成固定工作且不能泛化到新任務(wù)[4]。為了使機(jī)器人技能泛化到新環(huán)境中,機(jī)器人需要不斷地與環(huán)境交互和學(xué)習(xí),提高應(yīng)對復(fù)雜環(huán)境的能力[5]。

  隨著人工智能(artificialintelligence,AI)的發(fā)展,AI賦予了機(jī)器人強(qiáng)大的學(xué)習(xí)能力,使機(jī)器人學(xué)習(xí)更快并且縮減了機(jī)器人操作技能的開發(fā)時間,機(jī)器人的學(xué)習(xí)能力在一定程度上甚至能達(dá)到人類的水平[6-7]。在AI背景下,機(jī)器學(xué)習(xí)為機(jī)器人領(lǐng)域帶來了新的機(jī)遇[8],尤其是強(qiáng)化學(xué)習(xí)(reinforcementlearning,RL)。RL是機(jī)器人與環(huán)境不斷交互,進(jìn)而不斷強(qiáng)化自身決策能力的過程。RL不僅可以有效地解決復(fù)雜編程的問題,而且已經(jīng)在機(jī)器人操作領(lǐng)域得到了廣泛應(yīng)用。深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合形成的深度強(qiáng)化學(xué)習(xí)進(jìn)一步提升了機(jī)器人學(xué)習(xí)操作技能的能力。

  深度強(qiáng)化學(xué)習(xí)(deepreinforcementlearning,DRL)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,可以直接根據(jù)輸入信息控制機(jī)器人的行為,賦予了機(jī)器人接近人類的思維方式,是機(jī)器人獲得操作技能非常重要的方法。機(jī)器人技能學(xué)習(xí)是使機(jī)器人通過交互數(shù)據(jù),從行為軌跡中自主獲取和優(yōu)化技能,并應(yīng)用于類似的任務(wù)[9]。機(jī)器人操作技能作為機(jī)器人與外界交互的重要技能之一,對機(jī)器人的發(fā)展應(yīng)用具有重要意義。近年來,機(jī)器人操作行為的研究已經(jīng)成為機(jī)器人領(lǐng)域的研究趨勢和熱點[10-11]。

  但RL應(yīng)用于機(jī)器人操作行為的研究存在數(shù)據(jù)特征提取困難和機(jī)器人缺乏感知能力等問題。因此,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合必不可少。本文首先對基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人操作行為研究進(jìn)行了概述,然后介紹了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的核心概念和算法模型、深度強(qiáng)化學(xué)習(xí)的流行算法及原理以及深度強(qiáng)化學(xué)習(xí)在機(jī)器人操作領(lǐng)域的實際應(yīng)用以及存在的問題,最后對深度強(qiáng)化學(xué)習(xí)在機(jī)器人操作領(lǐng)域的應(yīng)用研究進(jìn)行展望和總結(jié)。

  2概念和術(shù)語(Conceptsandterminology)

  2.1深度學(xué)習(xí)

  深度學(xué)習(xí)側(cè)重于對事物的感知和表達(dá),其核心思想是通過多層網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換,將低層次數(shù)據(jù)特征映射為易于處理的高層次表示,以發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系和特征表示。深度學(xué)習(xí)使用多層結(jié)構(gòu)抽象表征數(shù)據(jù)特征以構(gòu)建計算模型,足夠復(fù)雜的結(jié)構(gòu)可以處理高維度的原始數(shù)據(jù)。深度學(xué)習(xí)的模型主要有深度信念網(wǎng)絡(luò)(deepbeliefnetwork)、卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork)等。CNN是前饋神經(jīng)網(wǎng)絡(luò),經(jīng)典的CNN由一個或多個卷積層和頂端的全連接層組成。CNN使用反向傳播算法訓(xùn)練模型,在圖像處理方面應(yīng)用廣泛。

  對CNN進(jìn)行改進(jìn)的典型工作如下:Krizhevsky等[12]提出AlexNet深度卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)引入了全新的深層結(jié)構(gòu),并采取隨機(jī)丟棄部分隱藏神經(jīng)元的方法抑制過擬合現(xiàn)象;Simonyan等[13]通過增加網(wǎng)絡(luò)層數(shù),提出了VGG-Net模型,圖像識別準(zhǔn)確率進(jìn)一步提升;Lin等[14]通過增加卷積模塊,利用多層感知卷積層提取圖像特征,大大降低了圖像識別錯誤率。研究表明,CNN圖像識別具有良好的性能,為基于視覺的機(jī)器人操作研究工作提供了技術(shù)保證。

  將深度學(xué)習(xí)方法應(yīng)用到機(jī)器人操作領(lǐng)域具有一定的挑戰(zhàn)性,其中包括狀態(tài)估計中存在噪聲干擾、獎勵函數(shù)難以確定、連續(xù)行為空間難以處理等[15]。但是仍有研究人員在基于深度學(xué)習(xí)的機(jī)器人操作領(lǐng)域進(jìn)行了深入研究:杜學(xué)丹等[16]提出了基于深度學(xué)習(xí)算法的機(jī)械臂抓取方法,在UniversalRobot5機(jī)械臂上驗證了方法的有效性和魯棒性。伍錫如等[17]運用CNN進(jìn)行圖像處理以定位目標(biāo),并通過六軸柔性工業(yè)分揀機(jī)器人驗證了模型的識別精度可達(dá)98%。除此之外,深度學(xué)習(xí)已經(jīng)成功應(yīng)用在機(jī)器人推動目標(biāo)物[18]、操作3維物體模型[19]和操作容器傾倒液體[20]等任務(wù)。 然而,基于深度學(xué)習(xí)訓(xùn)練的機(jī)器人模型不具備行為決策能力和對未知環(huán)境的適應(yīng)能力,因此強(qiáng)化學(xué)習(xí)的應(yīng)用不可或缺。

  2.2強(qiáng)化學(xué)習(xí)

  2.2.1強(qiáng)化學(xué)習(xí)算法原理

  強(qiáng)化學(xué)習(xí)算法的原理是智能體不斷與環(huán)境交互,理解最佳的行為方式,最終學(xué)習(xí)到最優(yōu)的行為策略。

  2.2.2強(qiáng)化學(xué)習(xí)算法分類

  (1)無模型(model-free)算法和基于模型(model-based)的算法無模型強(qiáng)化學(xué)習(xí)算法是智能體通過與環(huán)境交互產(chǎn)生的樣本數(shù)據(jù),直接優(yōu)化動作,而不是擬合模型。該算法以最小化偏差的方式與動態(tài)環(huán)境進(jìn)行交互,保證算法漸近收斂,最終獲得最優(yōu)解。但是,無模型算法在樣本數(shù)據(jù)收集方面非常昂貴,相對簡單、低維度的行為也可能需要百萬級數(shù)據(jù),高維度的復(fù)雜行為需要花費更多的時間和精力。

  除此之外,無模型算法對超參數(shù)(比如學(xué)習(xí)率)非常敏感,微調(diào)參數(shù)后才能達(dá)到較好的結(jié)果。基于模型的強(qiáng)化學(xué)習(xí)算法是智能體根據(jù)其與環(huán)境交互產(chǎn)生的數(shù)據(jù),訓(xùn)練并擬合模型,然后智能體基于模型優(yōu)化行為準(zhǔn)則。在基于模型的算法中,智能體可以推斷未知的環(huán)境狀態(tài),提前計算狀態(tài)轉(zhuǎn)移概率和未來期望獎勵,提高了樣本效率。然而,該算法對未知的、復(fù)雜的動態(tài)環(huán)境難以精確地建模。

  因此,模型可能存在嚴(yán)重的偏差,且不能保證算法最優(yōu)解漸近收斂,導(dǎo)致難以產(chǎn)生有效的行為策略。總之,無模型的和基于模型的強(qiáng)化學(xué)習(xí)方法沒有絕對的好壞之分,不同的任務(wù)設(shè)計需求對應(yīng)不同的算法類型。基于深度強(qiáng)化學(xué)習(xí),機(jī)器人操作行為研究多采用無模型強(qiáng)化學(xué)習(xí)方法。(2)基于價值(value-based)的算法和基于策略(policy-based)的算法在基于價值的強(qiáng)化學(xué)習(xí)算法中,動作選擇策略固定不變,如ε貪婪策略[6]。特定狀態(tài)下,動作的選擇方式相同。

  3深度強(qiáng)化學(xué)習(xí)(Deepreinforcementlearning)

  3.1深度強(qiáng)化學(xué)習(xí)概述及分類

  深度強(qiáng)化學(xué)習(xí)可以直接根據(jù)輸入的原始數(shù)據(jù)進(jìn)行動作選擇,是一種更加接近人類思維方式的人工智能算法[25]。深度學(xué)習(xí)通過學(xué)習(xí)深層的非線性網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)集的本質(zhì)特征,實現(xiàn)函數(shù)的逼近[26]。智能體在與環(huán)境交互的過程中,利用強(qiáng)化學(xué)習(xí)通過不斷試錯和最大化累積獎勵來生成最優(yōu)的行為策略[21]。

  近年來,深度強(qiáng)化學(xué)習(xí)[27]已經(jīng)成功應(yīng)用到圍棋[28-31]、視頻游戲[32-38]和多智能體[39]等領(lǐng)域。許多公司及機(jī)構(gòu),如DeepMind公司、OpenAI公司及加州大學(xué)伯克利分校等,基于深度強(qiáng)化學(xué)習(xí)對機(jī)器人行為的研究做出了突出貢獻(xiàn)。DeepMind公司成功將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到連續(xù)動作領(lǐng)域,比如機(jī)器人操作和運動等[40]。Heess等[41]基于分布式近端策略優(yōu)化算法,使用前向傳播的簡單獎勵函數(shù),在多種具有挑戰(zhàn)性的地形和障礙物上,成功訓(xùn)練了多個虛擬人物完成跑酷任務(wù)。

  OpenAI公司提出了新型的近端策略優(yōu)化算法[42],成功訓(xùn)練多腿機(jī)器人相互玩游戲,并指導(dǎo)機(jī)器人不斷適應(yīng)彼此策略中的增量變化[43]。加州大學(xué)伯克利分校提出策略搜索算法,該算法迭代擬合局部線性模型以優(yōu)化連續(xù)的動作軌跡[44],并且訓(xùn)練機(jī)器人成功完成了擰瓶蓋任務(wù)[45]。

  總之,上述研究工作極大地促進(jìn)了機(jī)器人領(lǐng)域的發(fā)展,為機(jī)器人實現(xiàn)智能化提供了強(qiáng)大的技術(shù)支撐。TRPO算法首先通過蒙特卡洛方法估計Q值,然后根據(jù)平均Q值得到目標(biāo)和約束的估計,最后采用共軛梯度和線搜索方法近似解決約束優(yōu)化問題[70]。TRPO算法保證了策略優(yōu)化過程中性能漸進(jìn)提高。但是,由式(19)~(23)的推導(dǎo)可知,其計算量較大,并且策略與值函數(shù)之間參數(shù)不共享。

  針對TRPO算法存在的問題,Schulman等[42]提出了TRPO1階近似形式的改進(jìn)型算法,近端策略優(yōu)化(proximalpolicyoptimization,PPO)算法。PPO算法同樣有AC架構(gòu)形式,采用重要性采樣機(jī)制重復(fù)利用樣本數(shù)據(jù),提高了樣本效率,限制了采樣網(wǎng)絡(luò)和訓(xùn)練網(wǎng)絡(luò)的分布相差程度。PPO算法在目標(biāo)函數(shù)中增加剪切項,將策略更新限制在規(guī)定區(qū)間內(nèi)。PPO算法使用了1階近似形式,相比較TRPO算法的2階泰勒展開,在復(fù)雜的高維度空間中具有更好的性能,保證了精度和訓(xùn)練速度。

  相對于TRPO算法,ME-TRPO(modelensembletrust-regionpolicyoptimization)算法[60]采用集成神經(jīng)網(wǎng)絡(luò)解決環(huán)境中數(shù)據(jù)不穩(wěn)定性的問題,并交替進(jìn)行模型學(xué)習(xí)和策略學(xué)習(xí),對復(fù)雜任務(wù)具有良好的適應(yīng)性。SLBO(stochasticlowerboundoptimization)算法[61]相對于ME-TRPO算法,保證了單調(diào)性的提高,并使用L2范數(shù)損失函數(shù)訓(xùn)練動力學(xué)模型。少樣本訓(xùn)練時,SLBO算法在多項MuJoCo仿真器任務(wù)中的性能優(yōu)于SAC算法、TRPO算法等。

  3.2.其他深度強(qiáng)化學(xué)習(xí)算法

  HER(hindsightexperiencereplay)算法主要解決了稀疏獎勵導(dǎo)致強(qiáng)化學(xué)習(xí)困難的問題。HER算法通過附加目標(biāo)獎勵和價值函數(shù),使得智能體到達(dá)的每個狀態(tài)均有目標(biāo),且每個目標(biāo)均對應(yīng)一套稀疏獎勵函數(shù)。智能體可以利用失敗的探索經(jīng)歷進(jìn)行動作限制,提高了樣本利用率。除此之外,HER算法將目標(biāo)數(shù)據(jù)附加到經(jīng)驗池中,重塑了經(jīng)驗池數(shù)據(jù)結(jié)構(gòu)。Andrychowicz等[62]基于HER算法進(jìn)行了機(jī)械臂推動、滑動、抓取并放置方塊等3個任務(wù)。實驗表明,HER算法可以結(jié)合任意的離線策略算法,并且效果優(yōu)于原版算法。

  4深度強(qiáng)化學(xué)習(xí)在機(jī)器人操作中的應(yīng)用(ApplicationsofDRLtorobotmanipulation)

  機(jī)器人操作行為是機(jī)器人與外界交互的首要條件,機(jī)器人只有具備了類似人類的思維方式,才能自主地與外界環(huán)境交互。研究表明,基于深度強(qiáng)化學(xué)習(xí),機(jī)器人能夠根據(jù)交互信息學(xué)習(xí)到行為策略,并根據(jù)行為策略和環(huán)境的狀態(tài)表征選擇合適的操作行為。傳統(tǒng)機(jī)器人操作研究的局限性表現(xiàn)為:動態(tài)環(huán)境具有不可預(yù)測性、機(jī)器人僅在固定位置完成任務(wù)且不具備自主學(xué)習(xí)的能力、機(jī)器人技術(shù)開發(fā)時間長等。

  部分傳統(tǒng)機(jī)器人依靠多種傳感器采集機(jī)器人工作過程信息,傳感器信息的融合過程不僅會導(dǎo)致信息丟失,而且會嚴(yán)重壓縮信息質(zhì)量。機(jī)器學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域廣泛應(yīng)用,這使得越來越多的機(jī)器人將視覺信號作為輸入控制信號[71]。基于視覺的機(jī)器人操作系統(tǒng)是從圖像中提取視覺特征信息來控制機(jī)器人運動,直接根據(jù)輸入信息,輸出機(jī)器人的行為。

  相對于基于多傳感器數(shù)據(jù)融合的機(jī)器人操作系統(tǒng),以基于深度強(qiáng)化學(xué)習(xí)的視覺信息作為輸入的機(jī)器人操作系統(tǒng)能夠直接將狀態(tài)信息映射到行為空間,高效且精確。以機(jī)器人抓取為例,機(jī)器人需要通過視覺采集物體的空間位姿,計算出最佳的抓取位置和方向。因此,基于深度強(qiáng)化學(xué)習(xí)、以視覺信息為輸入的機(jī)器人操作行為研究成為機(jī)器人操作領(lǐng)域的主流方向。本節(jié)主要討論基于深度強(qiáng)化學(xué)習(xí)、以視覺信息為輸入的機(jī)器人操作行為研究。

  針對不同的目標(biāo)物屬性,總結(jié)了以剛性物體和非剛性物體為操作目標(biāo)的研究工作;針對不同的模型訓(xùn)練場景,總結(jié)了在模擬環(huán)境和真實環(huán)境中訓(xùn)練模型的研究工作;針對不同的獎勵函數(shù)設(shè)計方式,總結(jié)了以稀疏獎勵和塑性獎勵為行為評價標(biāo)準(zhǔn)的研究工作;針對不同質(zhì)量的示范數(shù)據(jù),總結(jié)了示范和次優(yōu)示范的研究工作,包括模仿學(xué)習(xí)在其中的應(yīng)用;針對模型遷移到新任務(wù)需要進(jìn)行大量微調(diào)或重新訓(xùn)練的問題,對元強(qiáng)化學(xué)習(xí)在機(jī)器人操作行為中的應(yīng)用進(jìn)行了總結(jié)。其中列舉的工作為基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人操作行為的近期研究成果和被引量較高的工作。

  4.1剛性目標(biāo)和非剛性目標(biāo)

  大多數(shù)機(jī)器人的操作目標(biāo)主要是剛性物體,當(dāng)機(jī)器人操作剛性物體時,物體不會發(fā)生形變或者形變可忽略不計。最近幾年,家庭輔助機(jī)器人的產(chǎn)量逐年遞增,機(jī)器人被大規(guī)模地應(yīng)用于現(xiàn)實生活當(dāng)中,而且人們對家庭輔助機(jī)器人的性能要求越來越高。家庭輔助機(jī)器人的操作對象主要集中在非剛性物體,如衣服、毛巾等。由于機(jī)器人操作非剛性物體會導(dǎo)致結(jié)構(gòu)發(fā)生變化,非剛性物體的精確建模異常困難,因此,基于不同的操作對象屬性選擇不同的深度強(qiáng)化學(xué)習(xí)方法至關(guān)重要。

  5挑戰(zhàn)和未來展望(Challengesandfutureprospects)

  基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人操作研究,其發(fā)展動力主要源自于如何將深度強(qiáng)化學(xué)習(xí)的能力最大化。機(jī)器人只有具備了自主思考的能力,才能像人類一樣在面對未知環(huán)境時探求最優(yōu)的行為方式。雖然基于深度強(qiáng)化學(xué)習(xí)的算法已經(jīng)解決了多種多樣的機(jī)器人操作任務(wù),并使機(jī)器人在執(zhí)行操作任務(wù)時具備自主學(xué)習(xí)的能力,但是仍然存在很多技術(shù)挑戰(zhàn)。

  幾乎沒有機(jī)器人操作問題可以被嚴(yán)格地定義為馬爾可夫決策過程,而是表現(xiàn)為部分可觀性和非平穩(wěn)性,這是實驗效果并不如預(yù)期的原因之一。對于多步驟任務(wù)而言,它涉及到很多動作和行為,不可能對每個動作或者行為都設(shè)置獎勵函數(shù)。因此,機(jī)器人為了達(dá)到目標(biāo)狀態(tài)會表現(xiàn)出大量不合理的動作。

  此外,如何平衡“探索”和“利用”一直是機(jī)器人操作領(lǐng)域難以解決的問題,許多工作通過機(jī)器人在實驗過程中的表現(xiàn),人為限定“探索”和“利用”的界限,但是機(jī)器人難以自主學(xué)習(xí)如何去平衡“探索”和“利用”。基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人操作研究仍然在如下幾個方面存在挑戰(zhàn):

  1)非剛性物體難以被精確建模。機(jī)器人在重復(fù)性高、環(huán)境設(shè)定簡單和操作不確定度小等場景下表現(xiàn)較好,但所操作的對象大部分為剛性物體。而非剛性物體(如毛巾、衣服等)的姿態(tài)和形狀是不斷變化的,難以構(gòu)造其精確的物理模型,因此機(jī)器人在操作這類物體時難以選擇抓取點,或者抓取點被遮蓋住,直接導(dǎo)致機(jī)器人操作任務(wù)失敗。針對此挑戰(zhàn),設(shè)計多指靈巧機(jī)械手和開發(fā)非剛性物體的開源模擬平臺可能成為機(jī)器人操作柔性物體的有效解決方法。具體而言,多指靈巧機(jī)械手的手指可以相互配合,類似于人類手指,并且每個手指可以單獨動作。對于柔性物體的姿態(tài)和形狀發(fā)生變化的情況,開發(fā)強(qiáng)大的模擬平臺實時對物體形狀進(jìn)行建模以確定理想的操作位置是有效解決途徑。

  2)模型難以從模擬環(huán)境遷移到真實環(huán)境。大部分機(jī)器人操作研究首先在模擬場景中訓(xùn)練行為模型,然后將其遷移到真實機(jī)器人測試。雖然模擬場景有訓(xùn)練速度快、采樣效率高和不損耗機(jī)器人設(shè)備等優(yōu)點,但是由于模擬場景和真實場景存在物理約束和環(huán)境差異等領(lǐng)域差異,模型遷移后需要進(jìn)行大量微調(diào)工作才能工作,往往效果不佳。因此,根據(jù)實驗需求,將二者的領(lǐng)域差異因素加入到模擬環(huán)境中,可使行為策略具備更強(qiáng)的魯棒性。在算法層面上,開發(fā)高級深度強(qiáng)化學(xué)習(xí)算法并從動力學(xué)角度加入真實場景中的摩擦力、光照、噪聲等干擾因素,也可以成為一種有效減小領(lǐng)域差異的途徑。

  3)不同環(huán)境不同任務(wù)間模型可移植性差。在某個特定環(huán)境和特定任務(wù)中訓(xùn)練的行為策略移植到新環(huán)境中往往需要微調(diào)以適應(yīng)環(huán)境;移植到新任務(wù)中往往不具備直接完成任務(wù)的能力,甚至需要重新開始訓(xùn)練。針對此挑戰(zhàn),元強(qiáng)化學(xué)習(xí)可成為有效解決方法。元強(qiáng)化學(xué)習(xí)可根據(jù)經(jīng)驗和少量樣本數(shù)據(jù),改進(jìn)行為策略適應(yīng)新任務(wù)、新環(huán)境。此外,多任務(wù)學(xué)習(xí)可以通過多個任務(wù)間共享結(jié)構(gòu)實現(xiàn)不同任務(wù)間的模型移植[172]。

  6結(jié)論(Conclusion)

  對深度強(qiáng)化學(xué)習(xí)算法的原理及其在機(jī)器人操作領(lǐng)域的應(yīng)用現(xiàn)狀進(jìn)行了詳細(xì)的論述。基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人技術(shù)打破了傳統(tǒng)方法中復(fù)雜編程及示教編程的壁壘,并賦予了機(jī)器人自主學(xué)習(xí)操作技能的能力。在基于深度強(qiáng)化學(xué)習(xí)算法的機(jī)器人操作任務(wù)中,深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練的行為策略可指導(dǎo)機(jī)器人探索行為空間,使機(jī)器人面對未知環(huán)境時具備一定的決策能力。

  在此算法下,機(jī)器人面對未知環(huán)境時能自動調(diào)整行為策略以適應(yīng)不同的操作任務(wù)。目前,深度強(qiáng)化學(xué)習(xí)已經(jīng)在機(jī)器人操作領(lǐng)域取得了顯著的成功,但仍面臨非剛性物體建模困難、模型遷移性差、數(shù)據(jù)效率低等挑戰(zhàn)。總之,深度強(qiáng)化學(xué)習(xí)的創(chuàng)新與進(jìn)步促進(jìn)了機(jī)器人操作行為的研究進(jìn)程,為機(jī)器人真正實現(xiàn)智能化提供了技術(shù)保證。

  參考文獻(xiàn)(References)

  [1]劉乃軍,魯濤,蔡瑩皓,等.機(jī)器人操作技能學(xué)習(xí)方法綜述[J].自動化學(xué)報,2019,45(3):458-470.LiuNJ,LuT,CaiYH,etal.Areviewofrobotmanipulationskillslearningmethods[J].ActaAutomaticaSinica,2019,45(3):458-470.

  [2]倪自強(qiáng),王田苗,劉達(dá).基于視覺引導(dǎo)的工業(yè)機(jī)器人示教編程系統(tǒng)[J].北京航空航天大學(xué)學(xué)報,2016,42(3):562-568.NiZQ,WangTM,LiuD.Visionguidebasedteachingprogrammingforindustrialrobot[J].JournalofBeijingUniversityofAeronauticsandAstronautics,2016,42(3):562-568.

  [3]RozoL,JaquierN,CalinonS,etal.Learningmanipulabilityellipsoidsfortaskcompatibilityinrobotmanipulation[C]//IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.Piscataway,USA:IEEE,2017:3183-3189.

  [4]BroquereX,SidobreD,NguyenK.Frommotionplanningtotrajectorycontrolwithboundedjerkforservicemanipulatorrobots[C]//IEEEInternationalConferenceonRoboticsandAutomation.Piscataway,USA:IEEE,2010:4505-4510.

  作者:陳佳盼1,鄭敏華1,2

主站蜘蛛池模板: S货SAO死你BL大点声叫BL | 中文乱码35页在线观看 | 无修肉动漫在线观看影片 | 日韩人妻无码精品久久中文字幕 | 妙玉被肉干高H潮文 | 欧美男男网站免费观看videos | 亚洲爆乳无码精品AAA片蜜桃 | 5278欧美一区二区三区 | 暖暖免费观看日本在线视频 | caoporen超碰在线视频 | 亚洲成年男人的天堂网 | 成视频高清| 好男人WWW免费高清视频在线 | 古装性艳史电影在线看 | 久久精品影视 | 国产全肉乱妇杂乱视频 | 吃春药后的女教师 | 曰本女人牲交视频免费 | 免费看美女的网站 | 亚洲欧美日韩中字视频三区 | 久久九九少妇免费看A片 | 被cao的奶水直喷高H | 99免费在线观看视频 | 久久精品热只有精品 | 邻居的阿2中文字版电影 | 国产乱人伦AV麻豆网 | 亚洲精品乱码久久久久久直播 | 午夜性爽视频男人的天堂在线 | 国产精品99精品无码视亚 | 国产综合18久久久久久软件 | 古月娜下面好紧好爽 | 欧美视频精品一区二区三区 | 久久成人精品免费播放 | 亚洲 欧美 国产 伦 综合 | 亚洲精品国偷拍自产在线 | 亚洲AV无码一区二区三区牛牛 | 国产精品一国产精品免费 | 国产成人免费片在线视频观看 | 亚洲精品第一国产综合 | 羞羞漫画视频 | 国精产品一区一区三区有 |