摘要:由于工業(yè)機器人構型空間和工作環(huán)境的復雜性,傳統運動(dòng)規劃算法難以在有限時(shí)間內進(jìn)行路徑求解,如何提高算法的規劃效率與最優(yōu)性成為研究熱點(diǎn)。本文跟蹤目前工業(yè)機器人運動(dòng)規劃算法的發(fā)展現狀,針對主流隨機采樣算法的原理與發(fā)展脈絡(luò )進(jìn)行了細致分析與總結。在此基礎上,詳細闡述了基于強化學(xué)習的隨機采樣算法,該方法引入了規劃學(xué)習機制,在保證求解速度的同時(shí),還能不斷提高求解質(zhì)量。同時(shí)對當前運動(dòng)規劃算法存在的一些不足提出了建議與展望。
關(guān)鍵詞:快速隨機搜索樹(shù);運動(dòng)規劃;隨機采樣;強化學(xué)習
Abstract: Due to the complexity of configuration space and working environment of industrial robot, traditional motion planning algorithmsaredifficulttoobtainthepath inlimitedtime.Howto improvetheplanningefficiencyandoptimalityofthealgorithms become the current research focus. In view of the current development of industrial robot operation planning algorithms, this papermakesadetailedanalysisand summaryoftheprincipleand developmentofthemainstreamrandomsamplingalgorithm. On this basis, the random sampling algorithmbasedon reinforcement learning is described in detail. This method introduces the planning learning mechanism, which can not only ensure the speed of solution, but also improve the quality of solution. At the same time, somesuggestionsandprospectsareputforwardaccordingtothe shortcomings of the current motion planning algorithms.
Key words: Rapidly-exploringRandomTree; Motionplan; Random sampling; Reinforcement learning
1 引言
工業(yè)機器人運動(dòng)規劃是指在無(wú)人參與示教的情況下,通過(guò)算法搜索出一條符合約束的無(wú)碰撞路徑,是實(shí)現工業(yè)機器人智能化的關(guān)鍵技術(shù)。傳統運動(dòng)規劃方法需要建立機器人構型和障礙物的位姿空間模型,計算復雜度隨著(zhù)機器人自由度增加成指數增長(cháng),難以解決在復雜環(huán)境與高維構型空間下的運動(dòng)規劃問(wèn)題[1]。針對上述問(wèn)題,研究人員提出了隨機采樣方法,可避免在位形空間中復雜的障礙物建模運算,能夠快速求解高維度運動(dòng)規劃問(wèn)題[2]。其中最著(zhù)名的兩種算法是:隨機路圖法(PRM)[3]和快速隨機搜索樹(shù)(RRT)[4],兩種算法都能快速獲得可行解,但由于采樣過(guò)程引入了隨機性,使求解結果極不穩定,難以運用于實(shí)際場(chǎng)景,因此如何最大程度提高運動(dòng)規劃算法的搜索效率和可行解質(zhì)量成為極具挑戰的任務(wù)。
為了提高可行解質(zhì)量,研究人員嘗試將強化學(xué)習與隨機采樣算法相結合,以保證求解速度并不斷提高求解質(zhì)量,為解決運動(dòng)規劃問(wèn)題提供了新思路,但該算法的性能取決于策略函數和獎勵函數的優(yōu)劣。因此,如何利用強化學(xué)習良好的自適應和自學(xué)習特性,將其與隨機采樣算法相結合成為了近年的研究熱點(diǎn)。
本文針對工業(yè)機器人高維構型空間的運動(dòng)規劃問(wèn)題,詳細介紹了快速隨機搜索樹(shù)算法的基本原理,并分析其改進(jìn)方法的特點(diǎn)。在此基礎上,重點(diǎn)闡述了基于強化學(xué)習的隨機采樣算法,并對工業(yè)機器人運動(dòng)規劃未來(lái)的研究方向進(jìn)行了展望。
2 基于隨機采樣的運動(dòng)規劃算法
由于工業(yè)機器人的運動(dòng)規劃所面臨的任務(wù)環(huán)境往往是高維復雜的,傳統搜索算法計算復雜度隨著(zhù)構型空間維度的增加成指數增長(cháng),無(wú)法解決高維運動(dòng)規劃問(wèn)題。而隨機采樣算法可避免高維空間復雜環(huán)境的建模運算,能夠快速求解高維度、復雜環(huán)境下的運動(dòng)規劃問(wèn)題,已成為解決這類(lèi)規劃問(wèn)題的主流算法。
2.1 快速隨機搜索樹(shù)算法及其擴展
為解決在復雜非完整約束與動(dòng)態(tài)系統中的規劃問(wèn)題,LaValle[4~6]提出基于隨機采樣的快速擴展隨機樹(shù)(Rapidly-exploringRandomTree,簡(jiǎn)稱(chēng)為RRT)算法,該算法避免了對空間的建模,不需要任何預處理,具有高效的搜索特性,為多自由度機器人復雜約束下的運動(dòng)規劃問(wèn)題提供了一種快速求解方法。同時(shí)LaValle也證明了該算法具有概率完備性[5],即只要保證足夠的搜索時(shí)間,就一定能找到可行解。
由于隨機采樣的RRT算法隨機性強、盲目性高,為了提高該算法在運動(dòng)規劃上的表現,DU Mingbo[7]等人借鑒啟發(fā)式算法的思想,在隨機擴展樹(shù)的生長(cháng)過(guò)程中引入一個(gè)目標概率偏置參數,使隨機采樣偏向目標節點(diǎn),減少隨機性,提高運動(dòng)規劃效率。在無(wú)障礙或障礙較少的環(huán)境中,引入目標偏置可以使規劃出來(lái)的路徑更接近于理想路徑。但環(huán)境中障礙物較多時(shí),上述方法的避障效果明顯下降。為了解決此問(wèn)題,王道威[8]等人提出一種動(dòng)態(tài)步長(cháng)技術(shù),用于平衡目標導向性并保證避碰效果。另外,何兆楚[9]等人提出將RRT與人工勢場(chǎng)法結合,利用人工勢場(chǎng)法進(jìn)行局部規劃,當陷入局部最小點(diǎn)時(shí),使用改進(jìn)的RRT算法自適應選擇臨時(shí)目標點(diǎn),使搜索過(guò)程跳出局部最小值。而康亮[1]等人則將滾動(dòng)規劃與RRT相結合,依靠滾動(dòng)規劃法實(shí)時(shí)探測到的局部信息生成優(yōu)化子目標。由于規劃問(wèn)題壓縮至滾動(dòng)窗口內,計算量與全局規劃相比大幅下降。
2.2 RRT-Connect算法及其擴展
由于單向搜索的RRT算法在擴展節點(diǎn)具有很強的隨機性,即使在標準RRT基礎上進(jìn)行引導修正,算法的效率依然低下。因此,Kuffner與LaValle[10]提出了RRT-Connect算法,通過(guò)增加搜索樹(shù)數目提高路徑生成速度。算法分別以起始節點(diǎn)x_start和目標節點(diǎn)x_goal作為兩棵隨機擴展樹(shù)的根節點(diǎn),設計啟發(fā)函數引導兩棵樹(shù)的搜索。
基于上述思路,王維[11]等人在虛擬人雙臂運動(dòng)規劃問(wèn)題上使用雙向平衡的RRT規劃算法,以一種近乎平衡的方式引導兩棵樹(shù)交替朝向對方快速擴展。而J Michael[12]等人提出的JT-RRT將RRT在位姿空間的探索與工作空間的偏置結合起來(lái),高效地解決了在復雜環(huán)境中的規劃問(wèn)題。此外,Rosen[13]等人將雙向RRT與JT-RRT結合,提出一種同時(shí)在位姿空間和工作空間進(jìn)行擴展的雙向RRT算法,該算法位于工作空間的擴展樹(shù)可以給位姿空間的擴展樹(shù)提供啟發(fā)式信息,避免了整個(gè)位姿空間的搜索,極大提升了規劃效率。而Chang-bae[14]等人則提出在不考慮機器人運動(dòng)學(xué)的情況下,工作空間樹(shù)在目標工作空間中尋找最近集合,而狀態(tài)空間樹(shù)則在考慮運動(dòng)學(xué)和動(dòng)態(tài)約束下生成機器人路徑的雙樹(shù)形結構。
2.3 RRT*算法及其擴展
RRT算法雖然具有概率完備性,能處理高維復雜環(huán)境中的問(wèn)題,但無(wú)法保證算法所得到的可行解質(zhì)量,即由RRT算法所規劃出來(lái)的路徑往往都是非最優(yōu)的。針對這一問(wèn)題,一系列基于RRT的最優(yōu)運動(dòng)規劃方法被提出[15]。
根據RRT算法的表現情況,Karaman和 Frazzoli[16]指出,其收斂到最優(yōu)的概率基本為零。同時(shí),他們提出一種基于RRT且具有漸進(jìn)最優(yōu)性的算法:RRT*。該算法在每一次拓展時(shí)都進(jìn)行優(yōu)化處理:取拓展點(diǎn)附近的所有點(diǎn)逐一比較代價(jià)值,從而選取最小代價(jià)值的父節點(diǎn)。雖然該算法具有漸近最優(yōu)的特性,但每次增加新節點(diǎn)時(shí)都要進(jìn)行遍歷以達到優(yōu)化的目的,導致了搜索時(shí)長(cháng)大幅增加[17]。
在此基礎上,Jonathan D[18]等人指出,用于提升解決方案的狀態(tài)子集可以被描述成扁長(cháng)的超球體,Informed RRT*可以通過(guò)直接采樣這個(gè)子集來(lái)提升RRT*算法的效率,快速返回鄰近的最優(yōu)方案。而 P-RRT*-connect[19]則是將雙向人工勢場(chǎng)結合到RRT*中,兩棵樹(shù)按照采樣點(diǎn)的人工勢場(chǎng)法生成的引力場(chǎng)和斥力場(chǎng)同時(shí)相互前進(jìn)直到二者相遇,該算法特別適用于窄通道問(wèn)題。另外,J Wang[20~21]等人提出了一個(gè)基于RRT*的生物啟發(fā)路徑規劃算法:Tropistic RRT*。該算法使用高斯混合模型來(lái)模仿植物的自然生長(cháng),減小抽樣空間,提高了運動(dòng)規劃效率,但同時(shí)也導致了采樣分布不均。而Reza[22]等人在雙向RRT和Informed RRT*的基礎上,提出Hybrid RRT,其將規劃過(guò)程分為三個(gè)部分,基于雙樹(shù)搜索初始解,并將兩棵樹(shù)合并成一棵,再采用Informed RRT*優(yōu)化路徑。該方法用非最優(yōu)搜索來(lái)發(fā)現初始解,不僅比最優(yōu)規劃速度更快,還能返回臨近最優(yōu)解。
2.4 其他相關(guān)擴展算法
為了從各個(gè)方面更好地解決各式各樣的機器人運動(dòng)規劃問(wèn)題,研究人員在RRT變體的基礎上做了廣泛的嘗試與結合。如BIT*通過(guò)在RRT中加入表搜索,將圖表法與基于抽樣的規劃技術(shù)相結合,提升了返回初始解的速度[23]。為解決低效率和易陷入局部最小的問(wèn)題,Haojian[24]等人在RRT的基礎上提出使用衰退機制來(lái)避免過(guò)度搜索位姿空間,另外,算法通過(guò)優(yōu)化關(guān)節空間的邊界節點(diǎn)來(lái)持續地提升可到達的空間信息,避免重復搜索已擴展節點(diǎn)。而MT-RRT則是利用四個(gè)不同的多線(xiàn)程策略進(jìn)行改進(jìn),減少了計算時(shí)間[25]。除此之外,Ariyan[26~27]等人則在RRT基礎上提出CODES3算法,用以解決在高度受限的環(huán)境中的規劃問(wèn)題,此外,他們還提出了基于雙向樹(shù)搜索的6模型結構,每個(gè)模型中包含多個(gè)備選策略,根據環(huán)境背景信息從中尋找到最好的搭配來(lái)靈活地解決不同問(wèn)題。
2.5 總結
到目前為止,從RRT的總體發(fā)展脈絡(luò )來(lái)看,學(xué)者們主要是在規劃效率與結果最優(yōu)性?xún)蓚€(gè)方面對原始的RRT進(jìn)行改進(jìn)與提高。主要的改進(jìn)手段是利用增加隨機擴展樹(shù)數目提升搜索效率的RRT-Connect和通過(guò)改進(jìn)每次拓展方式來(lái)達到算法漸進(jìn)最優(yōu)性的RRT*。因此,如何在此基礎上繼續提升算法性能也成為研究人員陸續關(guān)注的熱點(diǎn)。此外,結合其他技術(shù)或在算法結構上進(jìn)行調整,也是工業(yè)機器人運動(dòng)規劃領(lǐng)域未來(lái)的研究方向。
3 基于強化學(xué)習的運動(dòng)規劃算法
強化學(xué)習的基本思想是智能體在與環(huán)境交互的過(guò)程中根據環(huán)境反饋得到獎勵,并不斷調整自身的策略以實(shí)現最佳決策,適用于現實(shí)中無(wú)法提供大量標簽數據的決策優(yōu)化類(lèi)問(wèn)題[28]。由于其具有自學(xué)習性與自適應性等優(yōu)點(diǎn),受到各領(lǐng)域專(zhuān)家學(xué)者們的廣泛關(guān)注,近年來(lái),也有不少學(xué)者們將強化學(xué)習應用在機器人運動(dòng)規劃問(wèn)題上,為解決這一類(lèi)問(wèn)題提供了新思路。
3.1 基于傳統強化學(xué)習的方法
提高機器人的自主決策與學(xué)習能力,僅依靠設計者的經(jīng)驗和知識是很難獲得對復雜不確定環(huán)境的良好適應性。因此,如何在機器人的運動(dòng)規劃中引入學(xué)習機制,成為研究人員關(guān)注的熱點(diǎn)[29]。如Jan Peters與Stefan Schaal[30]提出將動(dòng)作基本體與隨機策略梯度學(xué)習相結合,并證明了在強化學(xué)習中用動(dòng)作基本體來(lái)生成參數化控制策略的合理性。而Evangelos Theodorou[31~32]等人提出一種基于具有路徑積分的隨機優(yōu)化控制結構的強化學(xué)習參數化控制策略PI2,該方法中用于學(xué)習的更新式既不需要矩陣的逆解也不需要梯度學(xué)習率,因此從數學(xué)的角度而言其有簡(jiǎn)單且穩定的特點(diǎn)。在此基礎上,MrinalKalakrishnan[33]等人,使用動(dòng)覺(jué)示范初始化機器人的初始位置控制策略,且利用 PI2算法通過(guò)優(yōu)化一個(gè)價(jià)值函數來(lái)學(xué)習末端感知器所需要的力、轉矩等信息,從而在轉動(dòng)把手開(kāi)門(mén)和拾取桌上的筆兩個(gè)環(huán)境的實(shí)驗中取得了良好的效果。另外,Yanan Li[34]等人則將強化學(xué)習應用在多機器人協(xié)作的任務(wù)上,解決每個(gè)機器人與所要操縱的物體之間未知的動(dòng)力學(xué)問(wèn)題。
3.2 基于深度強化學(xué)習的方法
雖然傳統的強化學(xué)習在機器人運動(dòng)規劃問(wèn)題上有所應用,但大多難以克服高維復雜環(huán)境,解決的規劃問(wèn)題也略為簡(jiǎn)單。隨著(zhù)深度強化學(xué)習的發(fā)展,通過(guò)龐大且深層的神經(jīng)網(wǎng)絡(luò )與強化學(xué)習結合,以一種通用的形式將深度學(xué)習的感知能力與強化學(xué)習的決策能力相結合,并通過(guò)端對端的學(xué)習方式實(shí)現從原始輸入到輸出的直接控制,在眾多需要感知高維度原始輸入數據和決策控制任務(wù)中取得實(shí)質(zhì)性的突破[35]。
沿著(zhù)深度網(wǎng)絡(luò )與強化學(xué)習結合的這一研究思路,也有許多經(jīng)典的深度強化學(xué)習算法被陸續提出,如 TRPO[36],DDPG[37],NAF[38]等,雖然受現實(shí)系統中的采樣復雜度影響,其能否靈活適用在現實(shí)環(huán)境中仍不明確,但這些算法的提出使機器人在人為操作很少的前提下學(xué)習復雜的技巧成為可能。在此基礎上,Sergey Levine[39]等人提出利用一個(gè)7層、92,000個(gè)參數的深度卷積神經(jīng)網(wǎng)絡(luò )進(jìn)行策略學(xué)習。策略學(xué)習過(guò)程中不再需要全部的狀態(tài)信息即可掌握未知的位姿信息,并可使用隨機梯度下降等的常規方法進(jìn)行訓練。而ShixiangGu[40]等人指出,由于高采樣復雜度,深度強化學(xué)習的應用僅限于仿真與簡(jiǎn)單的實(shí)際任務(wù)中,因此他們提出一個(gè)適用于復雜3D機器人任務(wù)的基于深度Q網(wǎng)絡(luò )的離線(xiàn)策略訓練方法。實(shí)驗證明該方法可以在不需要先驗示范或人為設計的情況下學(xué)習一系列復雜的3D機器人運動(dòng)技能。李廣創(chuàng )與程良倫[41]則以點(diǎn)焊機器人為研究對象,將機器人在三維空間的自動(dòng)點(diǎn)焊轉化為機器人的避障路徑規劃問(wèn)題,使用一個(gè)三層的DNN網(wǎng)絡(luò ),經(jīng)過(guò)離線(xiàn)訓練后,自行訓練出一條接近于最優(yōu)的運動(dòng)軌跡,成功地避開(kāi)障礙物到達目標點(diǎn)。
3.3 強化學(xué)習與基于隨機采樣的方法結合
鑒于強化學(xué)習的自學(xué)習性與自適應性,以及隨機采樣方法的高效搜索與概率完備等優(yōu)點(diǎn),近年來(lái),將二者結合應用在機器人運動(dòng)規劃問(wèn)題上的全新思路開(kāi)始涌現。
沿著(zhù)這一研究方向,Kei Ota[42]等人將RRT所生成的路徑作為強化學(xué)習的范例,指導其快速學(xué)習及收斂,且引入一個(gè)由淺入深的總課程學(xué)習模式來(lái)解決稀疏回報下訓練困難的問(wèn)題,該方法在6自由度機器人裝配電腦部件的復雜實(shí)驗環(huán)境下取得了良好效果。而 Hao-Tien Lewis Chiang[43]等人提出RL-RRT算法,使用深度強化學(xué)習來(lái)學(xué)習避障策略,將其作為局部?jì)?yōu)化器,再采用可達性估算器作為距離函數對樹(shù)的生長(cháng)方向進(jìn)行偏置。另外,Aleksandra Faust[44]等人提出PRM-RL算法,使用強化學(xué)習來(lái)處理小范圍內點(diǎn)到點(diǎn)的規劃,再用PRM提供連接著(zhù)機器人位姿的路標,成功解決了機器人遠距離規劃導航問(wèn)題。而Philippe Morere[45]等人則提出先由RRT搜索初始可行解,再利用強化學(xué)習進(jìn)行優(yōu)化的R3L算法。該方法減少了算法的收斂時(shí)間,并且克服了稀疏回報下未獲得第一個(gè)正回報前的盲目探索問(wèn)題。除此之外,Binghong Chen[46]等人在處理高維狀態(tài)-動(dòng)作空間問(wèn)題上,通過(guò)學(xué)習以前的經(jīng)驗來(lái)解決新的規劃問(wèn)題的一種神經(jīng)探索利用樹(shù)NEXT。相比起一些已有的基于學(xué)習的規劃器,NEXT更加通用,并且可以在探索與利用之間找到平衡。
3.4 總結
隨著(zhù)強化學(xué)習技術(shù)的不斷發(fā)展,專(zhuān)家學(xué)者們利用這個(gè)技術(shù)在工業(yè)機器人運動(dòng)規劃領(lǐng)域做了許多有價(jià)值的嘗試。但無(wú)論是通過(guò)傳統的強化學(xué)習或是結合深度網(wǎng)絡(luò )的強化學(xué)習,要么難以克服高維復雜環(huán)境,要么需要利用非常龐大且復雜的網(wǎng)絡(luò ),具有很強的不穩定性,難以應用在現實(shí)環(huán)境中。于是,研究人員開(kāi)始把目光轉向結合強化學(xué)習的自學(xué)習、自適應性與基于隨機采樣方法的高效搜索性、概率完備性的新思路上。這個(gè)方法不僅可以保證求解的速度,還可以逐步提高規劃結果的質(zhì)量,是一個(gè)值得深入發(fā)掘的方向。
4 目前存在問(wèn)題及研究展望
根據目前工業(yè)機器人運動(dòng)規劃算法存在的不足和目前研究的現狀,本文認為未來(lái)研究方向主要有:
(1)提高隨機采樣算法的求解穩定性。雖然隨機采樣算法求解效率高,但引入了隨機性,導致有限時(shí)間內的求解結果極不穩定,這種不確定性使算法難以在實(shí)際中應用。因此,提高解的穩定性是未來(lái)的一個(gè)研究方向;
(2)提高強化學(xué)習算法訓練效率?;趶娀瘜W(xué)習的隨機采樣算法保證了求解效率和質(zhì)量,但強化學(xué)習算法本身也具有很強的隨機性,如何提高探索效率、收斂速度也是未來(lái)重點(diǎn)考慮的問(wèn)題;
(3)考慮實(shí)際場(chǎng)景下的環(huán)境約束、運動(dòng)學(xué)約束和動(dòng)力學(xué)約束等。目前工業(yè)機器人運動(dòng)規劃算法主要停留在實(shí)驗室研究階段,考慮實(shí)際工況約束的運動(dòng)規劃算法將是未來(lái)研究的重點(diǎn)。
參考文獻:
[1] 康亮,趙春霞,郭劍輝.未知環(huán)境下改進(jìn)的基于RRT算法的移動(dòng)機器人路徑規劃[J].模式識別與人工智能,2009,22(3):337-343.
[2] 唐華斌,孫增圻.基于隨機采樣的機器人雙臂協(xié)調運動(dòng)規劃[C].中國智能自動(dòng)化會(huì )議論文集.2005.
[3] Amato N M,Wu Y.A Randomized Roadmap Method for Path and Manipulation Planning[C]. IEEE International Conference on Robotics&Automation.IEEE,1993.
[4] S M LaValle,J J Kuffner.Rapidly-exploring random trees:Progress and prospects[C].Proceedings Workshop on the Algorithmic Foundations of Robotics.2000.
[5] S M LaValle,J J Kuffner.Randomized Kinodynamic Planning[C].Proceedings of the 1999 IEEE International Conferenceon Robotics&Automation.USA,1999:473-479.
[6] S M LaValle.Rapidly-exploring random trees:A new tool for path planning[R].Ames,USA:Department of Computer Science,Iowa State University,1998.
[7] DU Mingbo,MEI Tao,CHEN Jiajia,etc.RRT-based Motion Planning Algorithm for Intelligent Vehicle in Complex Environments[J].Robot,2015,37(4):443-450.
[8] 王道威,朱明富,劉慧.動(dòng)態(tài)步長(cháng)的RRT路徑規劃算法[J].計算機技術(shù)與發(fā)展,2016,26(3):105-112.
[9] 何兆楚,何元烈,曾碧.RRT與人工勢場(chǎng)法結合的機械臂避障規劃[J].工業(yè)工程,2017,20(2):56-63.
[10] J J Kuffner,S M LaValle.RRT-connect:An efficient approach to single-query path planning[C].Proceedings of the 2000 IEEE International Conference on Robotics and Automation.USA:San Francisco,2000.1-7.
[11] 王維,李焱.基于RRT的虛擬人雙臂操控規劃方法[J].系統仿真學(xué)報,2009,21(20):6515-6518.
[12] J Michael Vandeweghe,David Ferguson,Siddhartha Srinivasa.Randomized Path Planning for Redundant Manipulators without Inverse Kinematics[C].Proceedings of IEEE-RAS International Conference on Humanoid Robots.USA,2007.
[13] Rosen Diankov,Nathan Ratliff,David Ferguson,etc.Proceedings of Robotics:Science and Systems[C].Proceedings of Robotics:Science and Systems.2008.
[14] Chang-bae Moon,Woojin Chung.Kinodynamic Planner Dual-Tree RRT(DT-RRT) for Two-Wheeled Mobile Robots Using the Rapidly Exploring Random Tree[J].IEEE Transactions on Industrial Electronics,2015,62(2):1080-1090.
[15] Sertac Karaman,Emilio Frazzoli.Sampling-based algorithms for optimal motion planning[J].The International Journal of Robotics Research,2011,30(7):846-894.
[16] Sertac Karaman,Emilio Frazzoli.Incremental Sampling-based Algorithms for Optimal Motion Planning[C].Robotics:Science and Systems 2010.Spain:Zaragoza,2010.
[17] Joshua John Bialkowski,Sertac Karaman,Emilio Frazzoli.Massily parallelizing the RRT and the RRT*[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:San Francisco,2011:3513-3518.
[18] Jonathan D.Gammell,Siddhartha S.Sriivasa,Timothy D.Barfoot.Informed RRT*:Optimal sampling-based path planning focused via direct sampling of an admissible elnlipsoidal heuristic[C].2014 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:Chicago,2014.2997-3004.
[19] Wang Xinyu,Li Xiaojuan,Guan Yong,etc.Bidirectional Potential guided RRT* for motion planning[J].IEEE Access,2019,7:95034-95045.
[20] Jiankun Wang,Wenzheng Chi,Mingjie Shao etc.Finding a High-Quality Initial Solution for the RRTs Algorithms in 2D Environments[J].Robotica,2019,37(10):1677-1694.
[21] Jiankun Wang,Charles X.-T.Li,Wenzheng Chi,etc.Tropistic RRT*:An Efficient Planning Algorithm via Adaptive Restricted Sampling Space[C].2018 IEEE International Conference on Information and Automation.China:Wuyi Mountain,2018.1639-1646.
[22] Reza Mashayekhi,Mohd Yamani Idna Idris,Hossein Anisi,etc.Hybrid RRT:A Semi-dual-tree RRT-based Motion Planner[J].IEEE Access,2020,8:18658-18668.
[23] Jonathan D.Gammell,Siddhartha S.Srinivasa,Timothy D.Barfoot.Batch Informed Trees(BIT*):Sampling-based Optimal Planning via the Heuristilly Guided Search of Implicit Random Geometric Graphs[C].2015 IEEE International Conference on Robotics and Automation (ICcaRA).USA:Seattle,2015.3067–3074.
[24] Haojian Zhang,Yunkuan Wang,Jun Zheng,etc.Path Planning of Industrial Robot Based on Improved RRT Algorithm in Complex Environments[J].IEEE Access,2018,6:53296-53306.
[25] Andrea Casalino,Andrea Maria Zanchettin,Paolo Rocco.MT-RRT:a general purpose multithreading library for path planning[C].IEEE/RSJ IROS.China:Macau,2019.1510-1517.
[26] Ariyan M.Kabir,Brual C.Shah,Satyandra K.Gupta.Trajectory Planning for Manipulators Operating in Confined Workspaces[C].2018 IEEE 14th International Conference on Automation Science and Engineering.Germany:Munich,2018.84-91.
[27] Pradeep Rajendran,Shantanu Thakar,Ariyan M.Kabir,etc.Context-Dependent Search for Generating Paths for Redundant Manipulators in Cluttered Environments[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems.China:Macau,2019.5573-5579.
[28] 馬騁乾,謝偉,孫偉杰.強化學(xué)習研究綜述[J].指揮控制與仿真,2018,40(6):68-72.
[29] 陳學(xué)松,楊宜民.強化學(xué)習研究綜述[J].計算機應用研究,2010,27(8):2834-2844.
[30] Jan Peters,Stefan Schaal.Reinforcement learning of motor skills with policy gradients[J].Neural Networks,2008,21(4):682-697.
[31] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.Reinforcement Learning of Motor Skills in High Dimensions:A Path Integral Approach[C].2010 IEEE International Conference on Robotics and Automation.USA:Anchorage,2010.2397-2403.
[32] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.A Generalized Path Integral Control Approach to Reinforcement Learning[J].Journal of Machine Learning Research,2010,11:3137-3181.
[33] Mrinal Kalakrishnan,Ludovic Righetti,Peter Pastor,etc.Learning Force Control Policies for Compliant Manipulation[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. USA:San Francisco,2011.4639-4644.
[34] Yanan Li,Long Chen,Keng Peng Tee,etc.Reinforcement learning control for coordinated manipulation of multi-robots[J].Neurocomputing,2015(170):168-175.
[35] 劉全,翟建偉,章宗長(cháng),等.深度強化學(xué)習綜述[J].計算機學(xué)報,2017,40(1):1-28.
[36] John Schulman,Sergey Levine,Pieter Abbeel,etc.Trust Region Policy Optimization[C].Proceedings of the 32nd International Conference on Machine Learning.France:Lille,2015.1889-1897.
[37] Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,etc.Continuous control with deep reinforcement learning[C].4th International Conference on Learning Representations,ICLR 2016-Conference Track Proceedings(2016).Puerto Rico:Caribe Hilton,2016.
[38] Shixiang Gu,Timothy Lillicrap,Ilya Sutskever,etc.Continuous deep Q-learning with model-based acceleration[C].International Conference on Machine Learning.USA:New York,2016.2829-2838.
[39] Sergey Levine,Chelsea Finn,Trevor Darrell,etc.End-to-End Training of Deep Visuomotor Policies[J].Journal of Machine Learning Research,2016(17):1-40.
[40] Shixiang Gu,Ethan Holly,Timothy Lillicrap,etc.Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates[C].2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:Singapore,2017.3389-3396.
[41] 李廣創(chuàng ),程良倫.基于深度強化學(xué)習的機械臂避障路徑規劃研究[J].軟件工程,2019,22(3):12-15.
[42] Kei Ota,Devesh K.Jha,Tomoaki Oiki,etc. Trajectory Optimization for Unknown Constrained Systems using Reinforcement Learning[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).China:Macau,2019.3487-3494.
[43] Hao-Tien Lewis Chiang,Jasmine Hsu,Marek Fiser,etc.RL-RRT:Kinodynamic Motion Planning via Learning Reachability Estimators from RL Policies[J].Robotics and Automation Letters,2019,4:4298-4305.
[44] Aleksandra Faust,Oscar Ramirez,Marek Fiser,etc.PRM-RL:Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning[C].IEEE International Conference on Robotics and Automation(ICRA).Australia:Brisbane,2018.5113-5120.
[45] Philippe Morere,Gilad Francis,Tom Blau,etc.Reinforcement Learning with Probabilistically Complete Exploration.arXiv:2001.
[46] Binghong Chen,Bo Dai,Qingjie Lin,etc.Learning to Plan via Neural Exploration-Exploitation Trees[C].2020 International Conference on Learning Representations(ICLR).Ethiopia:Addis Ababa,2020.
作者簡(jiǎn)介:
劉暾東(1970-),山西原平人,教授,博士生導師,現任教于廈門(mén)大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是工業(yè)機器人與機器視覺(jué)。
陳 馨(1997-),福建福州人,現就讀于廈門(mén)大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是工業(yè)機器人控制與規劃。
吳曉敏(1992-),福建福州人,現就讀于廈門(mén)大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是工業(yè)機器人控制與強化學(xué)習。
邵桂芳(1978-),黑龍江阿城人,副教授,碩士生導師,現任教于廈門(mén)大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是機器視覺(jué)與智能優(yōu)化。
摘自《自動(dòng)化博覽》2020年4月刊