• <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

    <table id="fficu"></table>

    <sup id="fficu"></sup>
    <output id="fficu"></output>
    1. ABB
      關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
      CAIAC 2025
      2025工業(yè)安全大會(huì )
      OICT公益講堂
      當前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

      資訊頻道

      機器人演示編程技術(shù)研究進(jìn)展
      • 作者:周忠祥,胡晉,王越,熊蓉
      • 點(diǎn)擊數:47924     發(fā)布時(shí)間:2020-06-22 12:38:00
      • 分享到:
      制造業(yè)的轉型升級對機器人的部署效率提出了很高的要求,現有的示教盒編程模式適合于對簡(jiǎn)單作業(yè)的位置和軌跡示教,難以快速實(shí)現制造業(yè)中大量裝配作業(yè)的示教。而機器人演示編程技術(shù)能夠使機器人系統直接從人的演示操作中提取有效信息,并將該信息轉化為機器人的運動(dòng)程序,從而使機器人完成相應的操作,能夠大大加快機器人部署的節奏。本文結合制造業(yè)的發(fā)展需求,總結了機器人演示編程技術(shù)的國內外研究現狀,并介紹本課題組在機器人演示編程技術(shù)方面的工作,最后探討了機器人演示編程技術(shù)未來(lái)的研究方向。
      關(guān)鍵詞:

      摘要:制造業(yè)的轉型升級對機器人的部署效率提出了很高的要求,現有的示教盒編程模式適合于對簡(jiǎn)單作業(yè)的位置和軌跡示教,難以快速實(shí)現制造業(yè)中大量裝配作業(yè)的示教。而機器人演示編程技術(shù)能夠使機器人系統直接從人的演示操作中提取有效信息,并將該信息轉化為機器人的運動(dòng)程序,從而使機器人完成相應的操作,能夠大大加快機器人部署的節奏。本文結合制造業(yè)的發(fā)展需求,總結了機器人演示編程技術(shù)的國內外研究現狀,并介紹本課題組在機器人演示編程技術(shù)方面的工作,最后探討了機器人演示編程技術(shù)未來(lái)的研究方向。

      關(guān)鍵詞:機器人學(xué)習;機器人演示編程;機器人示教學(xué)習

      1 引言

      在過(guò)去十幾年中,隨著(zhù)工業(yè)機器人的大規模部署,企業(yè)的生產(chǎn)力和產(chǎn)品質(zhì)量得到了大幅度提升,這些提升得益于工業(yè)機器人可以快速、高精度地完成大量重復性的工作,然而為了讓機器人能夠完成特定的工作,往往需要專(zhuān)業(yè)的機器人工程師花費幾天甚至幾個(gè)月的時(shí)間進(jìn)行機器人程序的設計和編寫(xiě)。與此同時(shí),隨著(zhù)中國制造業(yè)的轉型升級,工業(yè)機器人的應用領(lǐng)域和應用場(chǎng)景大大擴展,從傳統的汽車(chē)制造、機械加工向3C、五金、家具等各個(gè)離散制造行業(yè)推廣應用。這些新興應用行業(yè)具有典型的柔性制造特性,即多品種、小批量、短周期,其生產(chǎn)的快節奏對機器人部署編程的快速性、易用性提出了很高的要求。但傳統的工業(yè)機器人編程模式難以滿(mǎn)足這樣的需求,現有的示教盒編程模式適合于對簡(jiǎn)單作業(yè)的位置和軌跡示教,難以快速實(shí)現制造業(yè)中大量裝配作業(yè)的示教;而離線(xiàn)編程模式需要完整精確的設計模型,并由精通機器人專(zhuān)業(yè)技能的人員和精通行業(yè)應用工藝的人員合作完成。機器人部署的效率瓶頸極大地限制了工業(yè)機器人在中小型制造企業(yè)的推廣使用。提高工業(yè)機器人的易用性,特別是簡(jiǎn)化裝配作業(yè)編程已經(jīng)成為工業(yè)機器人在3C、五金、家具等制造行業(yè)推廣應用亟需解決的一個(gè)重要問(wèn)題。

      演示編程(Programming by Demonstration,簡(jiǎn)稱(chēng)PbD),也稱(chēng)為演示學(xué)習(Learning fromDemonstration,簡(jiǎn)稱(chēng)LfD),是由機器人系統從人的演示操作中提取有效信息,進(jìn)而將該信息轉化為機器人的運動(dòng)程序及操作參數,從而使機器人完成相應的操作[1]。演示編程提供了一種新的向機器人傳遞信息的方式,是簡(jiǎn)化機器人編程的重要途經(jīng)。與傳統機器人編程方法相比,它可以在機器人使用和編程方面大大降低對操作者的專(zhuān)業(yè)知識要求,對于機器人的推廣具有重要意義。

      2 機器人演示編程技術(shù)研究現狀

      根據所提取的學(xué)習信息,現有的機器人演示編程研究可以分為面向底層運動(dòng)的演示編程和面向高層任務(wù)的演示編程。前者是對機器人運動(dòng)控制律的學(xué)習,分為對運動(dòng)軌跡的學(xué)習和對力控制的學(xué)習,主要涉及信息的采集、提取和轉化應用。后者則面向由多個(gè)運動(dòng)組合而成的某個(gè)特定任務(wù)或綜合任務(wù),涉及操作物體、操作動(dòng)作、動(dòng)作序列、操作結果等多個(gè)方面,不僅涉及多方面的信息采集、提取和轉化應用,而且需要對提取到的信息進(jìn)行推理理解。

      2.1 面向底層運動(dòng)的演示編程研究

      面向底層運動(dòng)的演示編程研究可以分為對運動(dòng)軌跡的演示學(xué)習和對作業(yè)力控制的示教學(xué)習,并包含“數據獲取”和“學(xué)習建?!眱蓚€(gè)階段。在數據獲取階段,相關(guān)方法需要解決如何采集記錄示教者的運動(dòng)數據。在學(xué)習建模階段,相關(guān)方法需要解決如何從示教數據中提取有效信息并進(jìn)行學(xué)習應用。對運動(dòng)軌跡的演示學(xué)習具有較長(cháng)的研究歷史,形成了相對成熟的理論和方法。

      2.1.1 運動(dòng)軌跡的演示學(xué)習

      運動(dòng)軌跡的演示學(xué)習有兩種數據采集方式,如圖1所示。一種是映射方法,即采用視覺(jué)、慣導、數據手套等傳感器獲得示教人的運動(dòng)數據,進(jìn)而將人的數據映射到機器人[2~4]。這種方法的優(yōu)點(diǎn)是對于示教者而言比較直觀(guān),生成的軌跡比較連續平滑而且符合人類(lèi)的期望,但是由于示教者和機器人兩者存在構型、尺寸、能力等方面的差異,需要建立兩者之間的匹配映射。另一種是非映射方法,由示教者通過(guò)遙控的方式或者牽引機械臂的動(dòng)覺(jué)示教方式控制機器人的運動(dòng),直接記錄機器人本體運行的數據作為下一步學(xué)習的基礎[5~7]。這類(lèi)方法省去了示教者和機器人之間的數據映射,缺點(diǎn)是生成軌跡不夠平滑,并且精度較低,只能應用于一些對精度要求較低的操作場(chǎng)景,比如:噴涂或碼垛。并且對于示教者而言,直接控制一臺多自由度的機械臂也很困難,因此機器人需要具有被動(dòng)的重力自平衡功能或者主動(dòng)的運動(dòng)跟隨能力,但后者存在對于示教者的安全隱患。

      56.jpg

      (a)映射方法 (b)非映射方法中的動(dòng)覺(jué)示教方法

      圖1 運動(dòng)軌跡演示學(xué)習中的數據采集方式

      所采集/映射得到的數據可以直接用于機器人執行,但考慮到泛化應用需求,例如適應不同作業(yè)位置,需要基于以上數據對機器人的運動(dòng)控制模型進(jìn)行學(xué)習。目前主要方法有策略學(xué)習和回報學(xué)習兩大類(lèi)。策略學(xué)習方法學(xué)習示教數據中狀態(tài)到動(dòng)作的映射策略函數,屬于監督學(xué)習的范疇;而回報學(xué)習方法學(xué)習示教數據中隱式的評價(jià)動(dòng)作好壞的回報函數,屬于逆強化學(xué)習范疇。用比較通俗的語(yǔ)言來(lái)描述,策略學(xué)習是“學(xué)習怎樣運 動(dòng)”,而回報學(xué)習是“學(xué)習怎樣運動(dòng)比較好”。

      (1)動(dòng)作策略學(xué)習

      策略學(xué)習方法也稱(chēng)為行為克?。˙ehavioral cloning)。一般的工業(yè)機械臂能夠通過(guò)人工導引或示教盒輸入等方式來(lái)示教機械臂的運動(dòng)位置或運動(dòng)軌跡,并在后續使用中重復再現人示教的結果。這種示教再現方式的缺點(diǎn)在于機械臂只能夠簡(jiǎn)單重復示教結果,無(wú)法適應環(huán)境變化。示教學(xué)習與示教再現的區別在于示教學(xué)習方法能夠從示教數據中提取有效信息,生成運動(dòng)模型,并應用到新任務(wù)場(chǎng)景中。

      在早期研究成果中[8~11],工業(yè)機械臂一般通過(guò)示教器遙控的方式進(jìn)行示教。示教過(guò)程中,機械臂末端位姿、與被操作物體的接觸力、障礙物位姿及目標位置等信息被記錄下來(lái)。然后軌跡中的多個(gè)關(guān)鍵點(diǎn)從示教數據中被分割提取出來(lái)。最終學(xué)習得到的映射策略可以描述為一連串關(guān)鍵幀狀態(tài)和幀與幀間動(dòng)作組成的序列。

      隨著(zhù)統計學(xué)習方法的發(fā)展,大量的研究成果使用隱馬爾科夫模型(Hidden Markov Model)這一概率統計模型來(lái)對示教數據進(jìn)行建模。隱馬爾可夫模型是一種非常強大的處理時(shí)序數據的方法,其基本思想是把輸入數據描述為一連串隱含的離散狀態(tài)的轉移,如圖2所示。Tso等人[12]利用隱馬爾科夫模型編碼和復現笛卡爾空間軌跡。Akgun等人[13]使用隱馬爾科夫模型同時(shí)對動(dòng)作數據和環(huán)境感知數據進(jìn)行建模。Calinon等人[14]采用一種帶有明確時(shí)間周期的隱馬爾科夫模型來(lái)描述運動(dòng)中的時(shí)空約束,在任務(wù)執行階段顯示出了一定的抗擾動(dòng)性。

      57.jpg

      圖2 示教數據使用隱馬爾科夫模型建模

      總的來(lái)說(shuō),上述方法[8~14]都是使用一連串離散狀態(tài)及狀態(tài)間的轉換來(lái)描述示教軌跡。這類(lèi)方法的缺點(diǎn)是無(wú)法獲得一條連續平滑軌跡,這樣就無(wú)法直接控制機器人的各關(guān)節運動(dòng)。在實(shí)際應用中,研究者一般使用多條軌跡的平均[15]或者在離散狀態(tài)點(diǎn)間插值[16]的方法來(lái)得到一條連續平滑軌跡。

      為了直接對連續軌跡進(jìn)行學(xué)習,研究者提出了不同方法。在早期的研究成果[17、18]中,神經(jīng)網(wǎng)絡(luò )是最常見(jiàn)的一類(lèi)方法。Liu等人[17]使用多層神經(jīng)網(wǎng)絡(luò )對打磨動(dòng)作進(jìn)行建模,并且使用另一個(gè)神經(jīng)網(wǎng)絡(luò )對動(dòng)作和執行效果之間的關(guān)系進(jìn)行建模。Kaiser等人[18]使用隱含層帶延時(shí)的徑向基函數神經(jīng)網(wǎng)絡(luò )對示教動(dòng)作進(jìn)行建模,并在Puma260機械臂上實(shí)現了插孔操作和開(kāi)門(mén)操作。

      隨著(zhù)移動(dòng)機器人和仿人機器人相關(guān)領(lǐng)域的發(fā)展,研究者更多關(guān)注生物的神經(jīng)結構和運動(dòng)機理,并從中得到啟發(fā)提出了一套基于動(dòng)態(tài)系統的方法,稱(chēng)為動(dòng)態(tài)運動(dòng)單元(Dynamic movementprimitives)。動(dòng)態(tài)運動(dòng)單元方法由Ijspeert等人[19、20]較早提出,其基本思想是將入軌跡用一個(gè)受到外部擾動(dòng)的非線(xiàn)性動(dòng)態(tài)系統進(jìn)行描述。外部擾動(dòng)項是多個(gè)高斯核函數的加權疊加的參數模型,其權重參數是可以根據示教軌跡采用監督學(xué)習算法訓練得到,如圖3所示。根據非線(xiàn)性系統的不同性質(zhì)和擾動(dòng)項的不同參數,該方法可以生成具有任意形狀復雜度,并且帶有點(diǎn)收斂或極限環(huán)性質(zhì)的軌跡。這兩種性質(zhì)的軌跡分別可以用于描述非周期性運動(dòng)(如抓?。┖椭芷谛赃\動(dòng)(如行走)。動(dòng)態(tài)運動(dòng)單元具有很多優(yōu)點(diǎn):可以簡(jiǎn)單快速完成系統模型的訓練以及新軌跡的生成,并可方便地融入其他的方法。Hoffmann等人[21]在動(dòng)態(tài)運動(dòng)單元中加入障礙物的排斥力場(chǎng)實(shí)現了避障的效果。Mülling等人[22]通過(guò)綜合多次學(xué)習得到的動(dòng)態(tài)運動(dòng)單元模型實(shí)現機器人乒乓球作業(yè)任務(wù)。動(dòng)態(tài)運動(dòng)單元的缺點(diǎn)是模型是確定性的,而人對于某一任務(wù)的示教結果不可能是完全相同的,動(dòng)態(tài)運動(dòng)單元很難對多次示教結果的不確定性進(jìn)行建模。此外模型中包含很多需要預先定義的超參數,超參數選擇不當容易造成系統整體的擬合效果欠佳。

      58.jpg

      圖3 加權和形式的外部擾動(dòng)示意圖

      為了對示教結果的不確定性加以考慮,研究者提出了一系列基于高斯混合模型(Gaussian mixture model)的示教學(xué)習方法?;舅枷胧鞘褂枚鄠€(gè)高斯分布來(lái)對軌跡的不同階段進(jìn)行建模,并且使用高斯分布的協(xié)方差來(lái)描述不同階段示教軌跡的不確定性,如圖4所示。Calinon等人[23]最早在仿人機器人上采用高斯混合模型實(shí)現了對基本的抓取動(dòng)作的學(xué)習。在后續工作中[26]中,Calinon等人使用高斯混合模型的協(xié)方差對運動(dòng)過(guò)程中不同階段任務(wù)空間和關(guān)節空間軌跡跟蹤精度進(jìn)行建模,并應用到不同連桿長(cháng)度的多個(gè)兩自由度機械臂模型中。Osa等人[27]使用高斯混合模型對機械臂末端軌跡進(jìn)行建模,并使用學(xué)習到的協(xié)方差構建存在障礙物的環(huán)境中符合不同跟蹤精度要求的目標函數。

      59.jpg

      圖4 二維示教軌跡使用高斯混合模型建模

      (2)動(dòng)作回報學(xué)習

      回報學(xué)習(Reward learning),也稱(chēng)為逆強化學(xué)習(Inverse reinforcement learning)或者逆最優(yōu)控制(Inverse optimal control)。與策略學(xué)習不同,回報學(xué)習不是學(xué)習示教數據的映射策略,而是研究示教者完成示教動(dòng)作時(shí)用于評價(jià)動(dòng)作好壞的性能指標,即其算法輸出是示教數據所優(yōu)化的隱式回報函數。與策略學(xué)習方法相比,回報學(xué)習方法應對不同環(huán)境的適應能力更強。當執行環(huán)境或機器人本體模型發(fā)生較大改變時(shí),策略學(xué)習方法得到的映射函數將很難適用,需要重新示教。而回報學(xué)習方法得到的回報函數與任務(wù)更加相關(guān)。在接收新的環(huán)境和模型信息后,用戶(hù)能夠復用之前得到的回報函數來(lái)求解合適的動(dòng)作策略。

      Ng等人[28]最早在強化學(xué)習框架中指出以下局限:回報函數并不總是己知,而是需要被學(xué)習的?;谶@一思考他們提出并使用逆強化學(xué)習這一術(shù)語(yǔ)來(lái)命名該問(wèn)題。Ng等人將回報函數視作對一項任務(wù)的最簡(jiǎn)潔、魯棒以及可移植的描述方式?;貓髮W(xué)習問(wèn)題存在如下挑戰:第一個(gè)挑戰是該問(wèn)題本身是一個(gè)不適定(ill posed)問(wèn)題,即存在多種可能的回報函數都能夠描述同一組示教數據;第二個(gè)挑戰是示教數據中可能包含了多個(gè)人的示教結果或者不同任務(wù)的示教結果,即示教數據的局部最優(yōu)性問(wèn)題。

      為了解決第一個(gè)挑戰,研究者提出了多種方法,其基本思想是最小化當前最優(yōu)運動(dòng)策略與示教運動(dòng)策略之間的差異。當前最優(yōu)運動(dòng)策略可以基于當前估計的回報函數和環(huán)境信息,使用強化學(xué)習方法或者最優(yōu)控制方法計算得到。不同的方法在策略差異的描述、優(yōu)化方法等方面各有不同。Ng等人[29]對回報函數的形式做出了限制,將其定義為多個(gè)特征函數的加權組合,而權重是待學(xué)習參數。隨后作者將最小化當前最優(yōu)運動(dòng)策略與示教運動(dòng)策略的累積折扣回報期望的歐氏距離作為目標,并使用二次規劃方法求解回報函數中的未知參數。Syed等人[30]定義當前最優(yōu)運動(dòng)策略與示教運動(dòng)策略的累積折扣回報期望的差值為目標函數,采用博弈論中的最大最小算法搜索未知參數值。后續工作中[31],作者使用了線(xiàn)性規劃方法來(lái)加快未知參數的求解速度。Ratlff等人[32]提出了基于結構化最大間隔框架的目標函數,并使用凸優(yōu)化方法進(jìn)行求解。Ramachandran等人[33]提出了基于貝葉斯估計框架的學(xué)習方法,并通過(guò)最大化后驗概率來(lái)估計回報函數。為了能夠考慮回報函數的所有可能性,Ziebart等人[34]提出了基于最大熵框架的學(xué)習方法,使用與回報值正相關(guān)的指數函數表示示教數據出現的概率,并通過(guò)最大化示教數據的似然概率來(lái)估計回報函數。最大熵逆強化學(xué)習方法的一個(gè)優(yōu)點(diǎn)是不需要計算當前最優(yōu)運動(dòng)策略,而是通過(guò)在狀態(tài)空間中均勻采樣的方式來(lái)估計示教數據的似然概率。研究者對基于采樣的逆強化學(xué)習方法做了進(jìn)一步發(fā)展,區別是采樣方式的不同。Boulariasd等人[35]提出了相對熵逆強化學(xué)習方法,使用了重要性采樣方法在狀態(tài)空間中任意分布進(jìn)行采樣。Kalakrishnan等人[36]提出了路徑積分逆強化學(xué)習方法,其在示教軌跡的鄰域進(jìn)行采樣。此外,部分文章沒(méi)有使用傳統的特征函數的加權組合形式的回報函數。Levine等人[37]使用高斯過(guò)程形式的回報函數,而Wulfmeier等人[38]使用神經(jīng)網(wǎng)絡(luò )形式的回報函數。上述方法中模型參數也是通過(guò)最大化示教數據的似然概率進(jìn)行估計。

      針對第二個(gè)挑戰,研究者提出了相應方法來(lái)學(xué)習示教數據中的不同種類(lèi)的回報函數。Babes等人[39]提出基于期望最大化算法的學(xué)習算法,能夠對輸入數據進(jìn)行聚類(lèi),并且計算每一類(lèi)數據對應的回報函數。Choi等人[40]在貝葉斯估計框架的逆強化學(xué)習方法中引入狄利克雷過(guò)程混合模型作為先驗,能夠自動(dòng)選擇最適合輸入數據的回報函數類(lèi)別數目。

      上面介紹的方法[39、40]可以部分解決示教數據的局部最優(yōu)性帶來(lái)的問(wèn)題。但這些方法依然假設了每一條示教軌跡可以使用一種回報函數進(jìn)行評價(jià)。而在實(shí)際情況中,一條示教軌跡的不同階段可能完成了不同任務(wù),這就意味著(zhù)即使一條示教軌跡也無(wú)法使用單一的回報函數進(jìn)行描述。針對這一問(wèn)題,研究者提出了幾種方法。Nguyen等人[41]提出了基于期望最大化算法的回報學(xué)習方法,能夠學(xué)習軌跡中不同子階段的切換狀態(tài)和各階段回報函數。但是該方法需要用戶(hù)提前定義回報函數的個(gè)數以及每個(gè)回報函數中的參數。Michini等人[42]提出了一種非參數貝葉斯框架的學(xué)習算法,能夠自動(dòng)對輸入數據進(jìn)行分割。但是該方法得到的回報函數屬于子目標點(diǎn)回報函數。該函數在機器人處于子目標點(diǎn)時(shí)輸出回報值為正數,而在其他狀態(tài)時(shí)輸出回報值均為零。這種回報函數的使用局限性較大,無(wú)法用于評價(jià)運動(dòng)執行過(guò)程中動(dòng)作的好壞。Ranchod等人[43]提出了基于貝塔過(guò)程隱馬爾科夫模型的學(xué)習方法,也屬于非參數貝葉斯框架的方法,能夠自動(dòng)確定最優(yōu)的回報函數個(gè)數和切換狀態(tài)。但該方法得到的回報函數屬于表格型回報函數,無(wú)法應用在狀態(tài)空間連續高維的場(chǎng)景中,如機械臂的運動(dòng)規劃??偨Y一下,對于一條示教軌跡不同階段的回報函數學(xué)習問(wèn)題,現有方法均存在一定缺陷,如需要提前指定回報函數個(gè)數和類(lèi)型,且得到的回報函數形式比較簡(jiǎn)單,不適用于機械臂運動(dòng)規劃這一類(lèi)具有高維連續狀態(tài)空間的任務(wù)。

      2.1.2 作業(yè)力控制的示教學(xué)習

      隨著(zhù)運動(dòng)軌跡演示學(xué)習的逐步完善,近年來(lái)研究人員開(kāi)始對機器人作業(yè)力控制的示教學(xué)習進(jìn)行研究,以提高機器人與環(huán)境的交互能力。如圖5所示,現有力控制的示教學(xué)習主要采用非映射方式。L.Rozo等[44]采用觸覺(jué)設備來(lái)記錄機器人運動(dòng)過(guò)程中的受力反饋,并通過(guò)遙控機器人對運動(dòng)軌跡和力進(jìn)行示教,使用隱馬爾科夫模型(HMM)和高斯混合模型(GMM)對運動(dòng)軌跡和力進(jìn)行建模,最終使用高斯混合回歸(GMR)生成機器人的動(dòng)作。A.Montebelli等[45]以動(dòng)覺(jué)示教方式對機器人的運動(dòng)進(jìn)行示教,通過(guò)在機械臂末端加裝力傳感器來(lái)記錄示教動(dòng)作對應的力信息,采用動(dòng)態(tài)系統方法對軌跡和力進(jìn)行建模,使機器人完成木板拋光的操作。上述方法的輸出通常為位置和力的軌跡,在另一類(lèi)方法中,學(xué)習的目標不是位置和力的軌跡,而是生成阻抗參數可變的柔順控制器。P.Kormushev等[46]采用牽引和遙控的方式,利用多次示教軌跡的方差來(lái)估計運動(dòng)過(guò)程各個(gè)階段的阻抗參數,使機器人學(xué)會(huì )開(kāi)門(mén)、拿熨斗等動(dòng)作。K.Kronander等[47]通過(guò)搖晃和握緊機械臂的方式在牽引機械臂的同時(shí)直接調整軌跡對應部分的阻抗參數,使機器人實(shí)現柔順倒水這一操作。

      60.jpg

      (a)動(dòng)覺(jué)示教方式(b)遙控示教方式

      圖5 力控制的示教學(xué)習中的示教方式

      2.2 面向高層任務(wù)的演示編程研究

      面向高層任務(wù)的演示編程研究開(kāi)始于2000年左右,近年來(lái)逐漸成為機器人和人工智能領(lǐng)域的研究熱點(diǎn)。與面向底層運動(dòng)的演示編程相比,面向高層任務(wù)的演示編程涉及多個(gè)物體和多種操作,對信息的提取理解和轉化應用提出了更高的要求。

      與面向底層運動(dòng)的演示編程類(lèi)似,面向高層任務(wù)的演示編程的數據采集方式也有非映射和映射兩種方式。非映射方式主要是結合動(dòng)覺(jué)示教和語(yǔ)音來(lái)定義操作序列,例如華盛頓大學(xué)的Y.Artzi等[48]和M.Cakmak等[49]通過(guò)語(yǔ)音向機器人傳遞操作開(kāi)始、結束與位姿保存的指令,結合語(yǔ)音牽引機械臂進(jìn)行操作中關(guān)鍵位姿的定義,從而讓PR2機器人依次完成取、放、遞、疊毛巾四種動(dòng)作。這類(lèi)方式適合于簡(jiǎn)單任務(wù)指令的演示編程,但示教者難以操作機器人完成復雜的動(dòng)作。因此,大多數研究采用對于示教者而言更為方便和自然的映射方式,即由人進(jìn)行任務(wù)演示,由演示編程系統通過(guò)傳感器獲得的信息進(jìn)行操作語(yǔ)義理解,并根據人的操作與機器人操作之間的映射,生成機器人的執行程序。該方式應用方便,但研發(fā)難度大,目前的研究熱點(diǎn)集中在操作語(yǔ)義理解這一問(wèn)題上,分為基于位置變化的操作語(yǔ)義理解、基于動(dòng)作/手勢識別的操作語(yǔ)義理解以及基于規則/約束的操作語(yǔ)義理解。

      2.2.1 基于位置變化的操作語(yǔ)義理解

      基于位置變化的操作語(yǔ)義理解的基本思想是操作會(huì )改變物體的位置,因此可以通過(guò)操作前后物體的位置信息進(jìn)行操作語(yǔ)義推理。德國哥廷根大學(xué)E.E.Aksoy等[50、51]通過(guò)基于能量的聚類(lèi)方法對圖像中的物體進(jìn)行分割,判斷物體之間是否接觸和覆蓋,構建出各物體的關(guān)系圖,利用時(shí)間軸上圖模型的變化推理得到人的操作意圖。美國馬里蘭大學(xué)K.Zampogiannis等[52]根據物體的3D點(diǎn)云信息分割物體,使用物體間的前后、左右和上下等位置關(guān)系形成“謂詞向量序列(Predicate Vector Sequence,PVS)”的任務(wù)描述子,從而讓機器人學(xué)習完成做沙拉一類(lèi)的簡(jiǎn)單家務(wù)。為了獲取更準確的位置關(guān)系,德國R.Cubek等[53]通過(guò)檢測場(chǎng)景中的增強現實(shí)標簽以獲取物體的位置信息,讓機器人實(shí)現將積木放入指定位置的任務(wù)。但該方法只能獲取物體準確的平面位置,并不能得到物體精確的三維位姿。

      可以看到,該類(lèi)方法主要是根據操作對場(chǎng)景物體的影響來(lái)實(shí)現對操作動(dòng)作的推理,難以適用于操作前后物體的位置只有細微變化甚至不變的作業(yè)。

      2.2.2 基于動(dòng)作/手勢識別的操作語(yǔ)義理解

      基于動(dòng)作/手勢識別的操作語(yǔ)義理解的基本思想是操作的語(yǔ)義往往與操作動(dòng)作直接對應,借助動(dòng)作識別在人機交互領(lǐng)域的豐碩成果,可以將操作語(yǔ)義理解轉化為操作動(dòng)作/手勢的識別。手勢識別方面的成果有基于單張圖像學(xué)習手勢外觀(guān)特征的靜態(tài)手勢識別[54、55]、基于多張運動(dòng)歷史圖像描述人類(lèi)手勢變化過(guò)程的手勢識別[56]等。研究人員也運用機器視覺(jué)方法進(jìn)行操作動(dòng)作識別,如美國馬里蘭大學(xué)Y.Yang[57]等通過(guò)訓練卷積神經(jīng)網(wǎng)絡(luò )對6種不同的抓取手勢進(jìn)行識別,但是該方法需要大量的手勢操作樣本圖片才能獲得較好的手勢特征描述;中國科學(xué)技術(shù)大學(xué)的楊劍宇[58]等通過(guò)視覺(jué)獲得手的運動(dòng)軌跡,根據三維軌跡的曲率和繞率等參數獲取軌跡的索引,從而根據索引與動(dòng)作庫中具有相似索引的動(dòng)作軌跡進(jìn)行匹配,區分不同的動(dòng)作。近年來(lái),隨著(zhù)其他傳感器種類(lèi)的豐富,也出現了采用深度傳感器的手勢識別[59],但是現有方法主要面向簡(jiǎn)單無(wú)物體操作的手勢。人機交互領(lǐng)域的動(dòng)作識別,對被操作物體的關(guān)注較少,但實(shí)際上被操作物體包含了重要的操作信息,并且不同的操作可以具有相同的手勢,與操作語(yǔ)義并非一一對應?;谶@個(gè)思想,瑞典KTH的H.Kjellstr.m等[60、61]在視覺(jué)識別手勢的基礎上,結合被操作物體的功能屬性,來(lái)提高動(dòng)作語(yǔ)義識別的準確率,實(shí)現了對翻書(shū)和倒茶等操作動(dòng)作的識別。

      2.2.3 基于規則/約束的操作語(yǔ)義理解

      基于規則/約束的操作語(yǔ)義理解的基本思想是從多次的演示中提取求解問(wèn)題的規則或約束,并將提取到的規則或約束應用于求解同類(lèi)的問(wèn)題。澳大利亞國立大學(xué)的J.R.Chen[62]面向主軸裝配任務(wù),提出使用圖模型表示人在同一主軸裝配任務(wù)中的多種裝配方式,圖中的節點(diǎn)表示裝配過(guò)程中的某一狀態(tài),進(jìn)而基于時(shí)間和能量等準則從圖模型中選擇最優(yōu)的裝配方式,即狀態(tài)轉移路徑。德國Karlsruhe大學(xué)的M.Pardowitz[63]和瑞典KTH的S.Ekvall[64]使用最長(cháng)公共子序列的方法從多次餐具放置任務(wù)演示中提取各種餐具放置任務(wù)的順序約束,當需要擺放新的餐具組合時(shí),機器人自動(dòng)搜索滿(mǎn)足約束條件的餐具放置順序,然后執行。英國帝國理工大學(xué)的K.Lee等[65]利用上下文無(wú)關(guān)語(yǔ)法對多次漢諾塔問(wèn)題求解的演示過(guò)程進(jìn)行學(xué)習,從而獲得求解該問(wèn)題的基本約束和子結構,使得機器人能夠解決不同盤(pán)子數目的漢諾塔問(wèn)題。

      2.2.4 機器人演示編程研究現狀總結

      綜上所述,面向底層運動(dòng)的機器人演示編程學(xué)習的是單一操作的軌跡或力的控制規律,其中軌跡的演示學(xué)習已經(jīng)形成了一定的具有較好通用性的理論和方法,并被推廣應用到實(shí)際的機器人系統中,力控制和高層任務(wù)的演示學(xué)習取得了一定的進(jìn)展,但總體還處于探索研究階段。

      運動(dòng)軌跡層面的演示編程取得較好研究進(jìn)展的原因在于需要提取的信息(軌跡)內容單一,且表示形式簡(jiǎn)單,可以使用統一嚴格的數學(xué)模型進(jìn)行表達,與具體任務(wù)以及數據采集方式?jīng)]有關(guān)系。而力控制示教學(xué)習的難點(diǎn)是現有的非映射方式難以進(jìn)行精密力示教,并且難以直接獲取人操作物體時(shí)的力信息,從而導致無(wú)法學(xué)習力控制的變化規律。對于面向高層任務(wù)的演示編程,映射是一種直觀(guān)自然且更具通用性的方式?,F有的研究聚焦于操作語(yǔ)義理解問(wèn)題上,且往往使用比較單一的信息,能夠實(shí)現對一些簡(jiǎn)單任務(wù)的學(xué)習。由于工業(yè)裝配作業(yè)不僅操作語(yǔ)義難以理解,而且需要裝配工件的精確位姿信息和裝配力信息,目前的方法還難以支持工業(yè)機器人實(shí)現裝配等復雜作業(yè)的演示編程。

      3 研究團隊在機器人演示編程方面的工作

      面向制造業(yè)轉型升級中企業(yè)的發(fā)展需要,針對當前的機器人演示編程技術(shù)應用于工業(yè)裝配任務(wù)中存在操作語(yǔ)義理解、連續操作識別與分割、高精度工件位姿估計等問(wèn)題,本課題組研發(fā)了面向裝配作業(yè)的工業(yè)機器人演示編程系統,如圖6所示。面向裝配作業(yè)的機器人演示編程系統由兩個(gè)單元組成,分別是信息感知與推理單元和機器人執行單元,其中信息感知與推理單元也包括了兩部分,即人類(lèi)演示視頻中的信息感知模塊與物體之間的裝配關(guān)系推理模塊,機器人執行單元包括機器人執行程序生成模塊以及機器人抓取規劃模塊。

      61.jpg

      圖6 面向裝配作業(yè)的工業(yè)機器人演示編程系統

      3.1 演示視頻中的信息感知及推理

      面向裝配作業(yè)的機器人演示編程系統首先需要解析人類(lèi)的演示視頻,關(guān)鍵問(wèn)題是解析演示視頻中包含的語(yǔ)義信息,即:操作的物體、操作完成后物體的位姿、以及使用的操作技能。針對以上三個(gè)問(wèn)題,本課題組在人類(lèi)演示視頻中的信息感知單元設計了三個(gè)子模塊,分別是物體識別、物體位姿估計、裝配技能估計。

      3.1.1 物體識別

      機器人演示編程系統需要從人類(lèi)的演示視頻中解析得到演示者操作了什么物體,但是工業(yè)裝配涉及的物體復雜多樣,基于人工特征的方法難以有效實(shí)現物體檢測,得益于深度學(xué)習在計算機視覺(jué)領(lǐng)域的顯著(zhù)成果,本課題組采用了基于深度學(xué)習的物體識別方法[66]。

      3.1.2 物體位姿估計

      機器人演示編程系統需要從人類(lèi)的演示視頻中解析得到演示者操作完成后物體的空間姿態(tài),使機器人能夠確定物體裝配的目標狀態(tài)。由于工業(yè)裝配任務(wù)中對工件位姿的定位精度有極高的要求,并且工件CAD模型是易獲取的,本課題組采用了基于點(diǎn)對特征的物體6自由度空間位姿估計方法[67]。

      3.1.3 裝配技能估計

      機器人演示編程系統需要從人類(lèi)的演示視頻中解析得到演示者使用了什么樣的裝配技能,例如放置、按壓、擰等,這涉及到單個(gè)裝配技能的識別以及多個(gè)連續裝配技能的分割問(wèn)題。由于單一模態(tài)具有的歧義性以及需要同時(shí)對裝配技能序列進(jìn)行分割和識別,本課題組提出了融合圖像彩色信息、深度信息的多模態(tài)裝配技能識別算法,并結合滑動(dòng)窗口的分割點(diǎn)檢測和基于迭代動(dòng)態(tài)規劃的優(yōu)化方法實(shí)現連續裝配技能分割[68]。

      3.1.4 裝配關(guān)系推理

      由于基于視覺(jué)的物體位姿估計結果不可避免的存在誤差,讓機器人直接執行此結果不僅無(wú)法滿(mǎn)足裝配精度的要求,甚至可能導致安全問(wèn)題,因此本課題組設計了物體之間的裝配關(guān)系推理模塊[69],用于解決不確定觀(guān)測下的裝配關(guān)系和裝配位姿同時(shí)推理與估計的問(wèn)題。我們提出了使用概率圖模型表示空間知識,概率圖中的節點(diǎn)表示工件的位姿、工件之間的裝配關(guān)系,以及工件觀(guān)測信息三種信息,概率圖中的邊表示相連的兩個(gè)節點(diǎn)之間的信息約束,這些信息均采用概率分布進(jìn)行建模。借助圖模型對觀(guān)測量和估計量進(jìn)行建模,變量推理就等價(jià)于求解最大似然參數估計問(wèn)題。通過(guò)同時(shí)推理物體之間的裝配關(guān)系以及計算物體的空間位姿,使得物體的位姿結果能夠滿(mǎn)足裝配任務(wù)中高精度的要求。

      人類(lèi)的演示視頻經(jīng)過(guò)信息感知與推理單元的解析與推理之后,機器人演示編程系統可以得到人類(lèi)操作中操作物體與操作技能的語(yǔ)義信息以及精確的物體位姿。

      3.2 機器人執行程序生成與抓取規劃

      機器人執行程序生成模塊可根據操作者的演示信息,生成完整的機器人運動(dòng)程序。機器人抓取規劃模塊用于規劃物體的穩定抓取配置,從而使機器人從物料區穩定地抓取待操作的物體。

      3.2.1 基于動(dòng)作策略學(xué)習的機器人程序生成

      由于人體手臂與機械臂在尺寸、運動(dòng)能力等方面的差異,若直接將采集得到的示教者的運動(dòng)軌跡數據應用到機器人上,可能會(huì )超出機器人的運動(dòng)限制從而導致機器人損壞。為了解決示教者與機械臂的動(dòng)作對應問(wèn)題,本課題組提出了改進(jìn)的仿射變換方法,能夠保證末端和肘部的跟蹤精度并且保持人體動(dòng)作數據的仿射不變性。為了不破壞機器人動(dòng)作的仿人性,在動(dòng)作學(xué)習的建模階段,提出同時(shí)學(xué)習末端和肘部運動(dòng)數據的概率建模方法。在動(dòng)作生成階段,提出結合動(dòng)態(tài)運動(dòng)單元和學(xué)習得到的概率模型的方法分別生成末端和肘部軌跡。最后為了解決笛卡爾空間軌跡到關(guān)節空間軌跡的轉換問(wèn)題,提出了基于序列二次規劃的關(guān)節運動(dòng)軌跡生成方法,并提出了基于弗雷歇距離的關(guān)節角選擇算法來(lái)初始化關(guān)節軌跡。圖7給出了打乒乓球過(guò)程中揮拍動(dòng)作的人機對應結果。

      62.jpg

      圖7 揮拍動(dòng)作的人機對應結果

      3.2.2 基于動(dòng)作回報學(xué)習的機器人程序生成

      針對示教數據的分階段局部最優(yōu)特性,即示教軌跡不同階段對應不同回報函數,提出同步軌跡分段與回報學(xué)習方法。該方法使用基于采樣的逆強化學(xué)習方法提取加窗軌跡段特征,通過(guò)比較相鄰窗口軌跡特征得到初始分段點(diǎn),然后基于動(dòng)態(tài)規劃方法在初始分段點(diǎn)鄰域搜索最優(yōu)分段點(diǎn),最后使用基于采樣的逆強化學(xué)習方法學(xué)習得到各子分段的回報函數。所學(xué)習到的回報函數個(gè)數和類(lèi)型不存在限制,且適用于機械臂動(dòng)作規劃這一具有高維連續狀態(tài)空間的任務(wù)。為生成適應新環(huán)境的運動(dòng)軌跡,提出基于泛函優(yōu)化的動(dòng)作生成方法。該方法結合學(xué)習到的子階段回報函數及其他約束項如避障、到點(diǎn)約束來(lái)生成總的軌跡回報泛函,并使用泛函梯度方法生成新軌跡。圖8給出了在水杯搬運任務(wù)中,當環(huán)境發(fā)生變化時(shí),機器人動(dòng)作的生成結果。

      63.jpg

      圖8 水杯搬運任務(wù)中的動(dòng)作生成結果

      3.2.3 機器人抓取規劃

      由于工業(yè)裝配場(chǎng)景中工件復雜多樣,人工設計工件的抓取方式是一項具有挑戰性的任務(wù)。為了解決機器人抓取規劃的魯棒性和實(shí)時(shí)性,本課題組提出了一種基于深度圖像的機器人抓取規劃算法。該算法由兩個(gè)級聯(lián)的卷積網(wǎng)絡(luò )構成,第一個(gè)卷積網(wǎng)絡(luò )回歸最優(yōu)抓取區域,第二個(gè)卷積網(wǎng)絡(luò )對在最優(yōu)區域中采樣的抓取候選進(jìn)行評估和排序,最后輸出一系列高質(zhì)量的抓取配置。使機器人能夠根據當前的觀(guān)測自動(dòng)規劃穩定的抓取方式,為完成指定的物體操作任務(wù)創(chuàng )造條件。

      3.3 系統驗證

      基于上述研究成果,本課題組通過(guò)邀請不同的演示人演示積木組裝、手電筒組裝、開(kāi)關(guān)盒組裝、椅子組裝等不同的裝配任務(wù),驗證了面向裝配作業(yè)的機器人演示編程系統與所提方法的合理性。圖9為不同的演示裝配場(chǎng)景,積木組裝和手電筒組裝為人演示,仿真機器人執行,其他為實(shí)物機器人執行。

      64.jpg

      圖9 機器人演示編程系統完成不同的演示裝配任務(wù)

      4 機器人演示編程技術(shù)未來(lái)研究方向

      結合制造業(yè)轉型升級過(guò)程中對機器人技術(shù)的需要,以及機器人演示編程技術(shù)目前存在的問(wèn)題,本文認為機器人演示編程技術(shù)未來(lái)的研究方向主要有:

      (1)工件位姿的精確定位。工業(yè)裝配場(chǎng)景中對裝配的精度有極高的要求,目前的工件位姿估計方法均難以實(shí)現對物體高精度的空間定位。進(jìn)一步提高工件位姿的定位精度,對在制造業(yè)中推廣機器人的應用具有重要意義。

      (2)柔性物體的操作任務(wù)。目前機器人應用場(chǎng)景中的操作對象主要是剛性物體,但是制造業(yè)中存在大量柔性物體的操作任務(wù),比如對線(xiàn)纜的安裝任務(wù),機器人操作柔性物體中的建模、控制等問(wèn)題還有待進(jìn)一步研究。

      (3)多信息融合的機器人反饋控制。感知反饋是機器人對物體進(jìn)行實(shí)時(shí)準確操作的基礎。機器人裝配作業(yè)中單純依靠視覺(jué)信息的反饋難以應對環(huán)境變化帶來(lái)的不確定性,因此目前的工業(yè)機器人工作環(huán)境都是高度訂制化的。進(jìn)一步研究融合力覺(jué)、觸覺(jué)、視覺(jué)信息的多模態(tài)控制方法能夠有效提高工業(yè)機器人操作系統的抗擾動(dòng)能力。

      (4)人類(lèi)演示知識遷移。工業(yè)裝配任務(wù)中存在大量相似裝配體和相似裝配操作,若將人類(lèi)的演示過(guò)程中使用的裝配知識進(jìn)行提取并應用于相似的裝配任務(wù)中,可以進(jìn)一步提高機器人裝配作業(yè)的效率。

      5 總結

      機器人演示編程技術(shù)能夠在機器人使用和編程方面大大降低對操作者的專(zhuān)業(yè)性知識要求,提高機器人部署效率,對于推廣機器人應用于中小型制造企業(yè)具有重要意義。本文總結了機器人演示編程技術(shù)的研究現狀,并介紹了本課題組在機器人演示編程技術(shù)方面的研究工作,最后總結了機器人演示編程技術(shù)的未來(lái)研究方向,希望進(jìn)一步推動(dòng)機器人演示編程技術(shù)在工業(yè)制造領(lǐng)域的應用。

      參考文獻:

      [1]A.Billard,S.Calinon,R.Dillmann,and S,Schaal.Survey:Robot programming by demonstration[Z].Handbook of robotics,2008.

      [2]T.Kuniyoshi,M.Inaba,and H.Inoue.Teaching by showing:Generating robot programs by visual observation of human performance[Z].1989.

      [3]Y.Kuniyoshi,M.Inaba,and H.Inoue.Learning by watching: Extracting reusable task knowledge from visual observation of human performance[J].IEEE transactions on robotics and automation,1994,10(6):799–822.

      [4]S.B.Kang and K.Ikeuchi.A robot system that observes and replicates grasping tasks[J].Proceedings of IEEE International Conference on Computer Vision,1995:1093–1099.

      [5]M.Ito,K.Noda,Y.Hoshino,and J.Tani.Dynamic and interactive generation of object handling behaviors by a small humanoid robot using a dynamic neural network model[J].Neural Networks, 2006,19(3):323–337.

      [6]T.Inamura,N.Kojo,and M.Inaba.Situation recognition and behavior induction basedon geometric symbol representationof multimodal sensorimotor patterns[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2006:5147–5152.

      [7]R.A.Peters,C.L.Campbell,W.J.Bluethmann,and E.Huber.Robonaut task learning through teleoperation[J].IEEE International Conference on Robotics and Automation,2003,2:2806–2811.

      [8]T.Lozano-Perez.Robot programming[J].Proceedings of the IEEE,1983,71(7):821–841.

      [9]A.Levas and M.Selfridge.Auser-friendlyhigh-level robot teaching system[J].IEEE International Conference on Robotics and Automation,1984,1:413–416.

      [10]A.Segre and G.DeJong.Explanation-based manipulator learning:Acquisition of planning ability through observation[J].IEEE International Conference on Robotics and Automation,1985,2:555–560.

      [11]A.M.Segr.Machine learning of robot assembly plans[Z].Springer Science&Business Media,2012.

      [12]S.Tso and K.Liu.Hidden markov model for intelligent extraction of robot trajectory command from demonstrated trajectories[J].Proceedings of the IEEE International Conference on Industrial Technology (ICIT'96),1996:294–298.

      [13]B.Akgun,M.Cakmak,K.Jiang,and A.L.Thomaz.Keyframe-based learning from demonstration[J].International Journal of Social Robotics,2012,4(4):343–355.

      [14]S.Calinon,A.Pistillo,and D.G.Caldwell.Encoding the time and space constraints of a task in explicit-duration hidden markov model[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2011:3413–3418.

      [15]D.Lee and Y.Nakamura.Stochastic model of imitating a new observed motion based on the acquired motion primitives[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2006:4994–5000.

      [16]S.Calinon and A.Billard.Learning of gestures by imitation in a humanoid robot[M].tech.rep.,Cambridge University Press,2007.

      [17]S.LiuandH.Asada.Teaching and learning of deburring robots using neural networks[J].Proceedings IEEE International Conference on Robotics and Automation,1993:339–345.

      [18]M.Kaiser and R.Dillmann.Building elementary robot skills from human demonstration[J].Proceedings of IEEE International Conference on Robotics and Automation,1996,3:2700–2705.

      [19]A.J.Ijspeert,J.Nakanishi,and S.Schaal.Movement imitation with nonlinear dynamical systems in humanoid robots.Proceedings 2002 IEEE International Conference on Robotics and Automation(Cat.No.02CH37292),2002,2:1398–1403.

      [20]A.J.Ijspeert,J.Nakanishi,and S.Schaal.Learning control policies for movement imitation and movement recognition[J].NIPS,2001.

      [21]H.Hoffmann,P.Pastor,D.-H.Park,and S.Schaal.Biologically-inspired dynamical systems for movement generation:automatic real-time goal adaptation and obstacle avoidance[J].IEEE International Conference on Robotics and Automation,2009:2587–2592.

      [22]K.Mülling,J.Kober,O.Kroemer,and J.Peters.Learning to select and generalize striking movements in robot table tennis[J].The International Journal of Robotics Research,2013,32(3):263–279.

      [23]S.Calinon,F.Guenter,and A.Billard.On learning,representing,and generalizing a task in a humanoid robot[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),2007,37(2):286–298.

      [24]S.Calinon and A.Billard.Incremental learning of gestures by imitation in a humanoid robot[J].Proceedings of the ACM/IEEE international conference on Human-robot interaction,2007:255–262.

      [25]S.Calinon,F.D'halluin,E.L.Sauser,D.G.Caldwell,and A.G.Billard[J].Learning and reproduction of gestures by imitation.IEEE Robotics&Automation Magazine,2010,17(2):44–54.

      [26]S.Calinon and A.Billard.A probabilistic programming by demonstration framework handling constraints in joint space and task space. IEEE/RSJ International Conference on Intelligent Robots and Systems,2008:367–372.

      [27]T.Osa,A.M.G.Esfahani,R.Stolkin,R.Lioutikov,J.Peters,and G.Neumann.Guiding trajectory optimization by demonstrated distributions[J].IEEE Robotics and Automation Letters,2017,2(2):819–826.

      [28]A.Y.Ng,S.J.Russell,et al.Algorithms for inverse reinforcement learning[J].Icml,2000,1(2).

      [29]P.Abbeel and A.Y.Ng.Apprenticeship learning via inverse reinforcement learning[J].Proceedings of the twenty-first international conference on Machine learning,2004,1.

      [30]U.Syed and R.E.Schapire.Agame-the oretic approach to apprenticeship learning[J].Advances in neural information processing systems,2008:1449–1456.

      [31]U.Syed,M.Bowling,and R.E.Schapire.Apprenticeship learning using linear programming[J].Proceedings of the 25th international conference on Machine learning,2008:1032–1039.

      [32]N.D.Ratliff,J.A.Bagnell,and M.A.Zinkevich.Maximum margin planning.Proceedings of the 23rd international conference on Machine learning,2006:729–736.

      [33]D.Ramachandran and E.Amir.Bayesian inverse reinforcement learning[J].IJCAI,2007,7:2586–2591.

      [34]B.D.Ziebart,A.L.Maas,J.A.Bagnell,and A.K.Dey.Maximum entropy inverse reinforcement learning[J].Aaai,2008,8:1433–1438.

      [35]A.Boularias,J.Kober,and J.Peters.Relative entropy inversere inforcement learning[J].Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics,2011:182–189.

      [36]M.Kalakrishnan,P.Pastor,L.Righetti,and S.Schaal.Learning objective functions for manipulation[J].IEEE International Conference on Robotics and Automation,2013:1331–1336.

      [37]S.Levine,Z.Popovic,and V.Koltun.Nonlinear inverse reinforcement learning with gaussian processes[J].Advances in Neural Information Processing Systems,2011:19–27.

      [38]M.Wulfmeier,P.Ondruska,and I.Posner.Deep inverse reinforcement learning[Z].CoRR,abs/1507.04888,2015.

      [39]M.Babes,V.Marivate,K.Subramanian,and M.L.Littman.Apprenticeship learning about multiple intentions[J].Proceedings of the 28th International Conference on Machine Learning(ICML-11),2011:897–904.

      [40]J.ChoiandK.-E.Kim.Nonparametric bayesian inverse reinforcement learning for multiple reward functions[J].Advancesin Neural Information Processing Systems,2012:305–313.

      [41]Q.P.Nguyen,B.K.H.Low,and P.Jaillet.Inverse reinforcement learning with locally consistent reward functions[J].Advances in neural information processing systems,2015:1747–1755.

      [42]B.Michini,T.J.Walsh,A.-A.Agha-Mohammadi,and J.P.How.Bayesian nonparametric reward learning from demonstration[J].IEEE Transactions on Robotics,2015,31(2):369–386.

      [43]P.Ranchod,B.Rosman,and G. Konidaris. Nonparametric bayesian reward segmentation for skill discovery using inverse reinforcement learning[J].IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),2015:471–477.

      [44]L.Rozo,P.Jiménez,andC.Torras.A robot learning from demonstration framework to perform force-based manipulation tasks[J].Intelligent service robotics,2013,6(1):33–51.

      [45]A.Montebelli,F.Steinmetz,and V.Kyrki.On handing down our tools to robots:Single-phase kinesthetic teaching for dynamic in-contact tasks[J].IEEE International Conference on Robotics and Automation(ICRA),2015:5628–5634.

      [46]P.Kormushev,S. Calinon,and D.G.Caldwell.Imitation learning of positional and force skills demonstrated via kinesthetic teaching and haptic input[J].Advanced Robotics,2011,25(5):581–603.

      [47]K.Kronander and A.Billard.Learning compliant manipulation through kinesthetic and tactile human-robot interaction[J].IEEE transactions on haptics,2013,7(3):367–380.

      [48]Y.Artzi,M.Forbes,K.Lee,and M.Cakmak.Programming by demonstration with situated semantic parsing[J].AAAIFall Symposium Series,2014.

      [49]M.Cakmak and L.Takayama.Teaching people how to teach robots:The effect of instructional materialsand dialog design[J].Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction,2014:431–438.

      [50]E.E.Aksoy,A.Abramov,F.W.rgotter,and B.Dellen.Categorizing object-action relation sfrom semantic scene graphs[J].IEEE International Conference on Robotics and Automation,2010:398–405.

      [51]E.E.Aksoy,A.Abramov,J.Dorr,K.Ning,B.Dellen,and F.Worgotter.Learning the semantics of object–action relations by observation[J].The International Journal of Robotics Research,2011,30(10):1229–1249.

      [52]K.Zampogiannis,Y.Yang,C.Fermüller,and Y.Aloimonos.Learning the spatial semantics of manipulation actions through preposition grounding[J].IEEE International Conference on Robotics and Automation(ICRA),2015:1389–1396.

      [53]R.Cubek,W.Ertel,andG.Palm.High-level learning from demonstration with conceptual spaces and subspace clustering[J].IEEE International Conference on Robotics and Automation(ICRA),2015:2592–2597.

      [54]S.Mitra and T.Acharya.Gesture recognition:Asurvey[J].IEEE Transactions on Systems Man and Cybernetics,2007,37(3):311–324.

      [55]A.Chalechale,F.Safaei,G.Naghdy,and P.Premaratne.Hand gesture selection and recognition for visual-based human-machine interface[J].IEEE International Conference on Electro Information Technology,2005,6.

      [56]K.Alahari and C.Jawahar.Discriminative actions for recognising events[J].Computer Vision,Graphics and Image Processing,2006:552–563.

      [57]Y.Yang,C.Fermuller,Y.Li,and Y.Aloimonos.Grasp type revisited:A modern perspective on a classical feature for vision[J].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:400–408.

      [58]J.Yang,Y.Li,andK.Wang.Invariant trajectory indexing for real time 3d motion recognition[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2011:3440–3445.

      [59]Z.Ren,J.Meng,J.Yuan,and Z.Zhang.Robust hand gesture recognition with kinect sensor[J].Proceedings of the19th ACM International Conference on Multimedia,2011:759–760.

      [60]H.Kjellstr.m,J.Romero,and D.Kragi.Visual object-action recognition:Inferring object affordances from human demonstration[J].Computer Vision and Image Understanding,2011,115(1):81–90.

      [61]A.Pieropan,C.H.Ek,and H.Kjellstr.m.Functional object descriptors for human activity modeling[J].IEEE International Conference on Robotics and Automation,2013:1282–1289.

      [62]J.R.Chen.Constructing task-level assembly strategies in robot programming by demonstration[J].The International Journal of Robotics Research,2005,24(12):1073–1085.

      [63]M.Pardowitz,S.Knoop,R.Dillmann,and R.D.Zollner.Incremental learning of tasks from user demonstrations,past experiences,and vocal comments[J].IEEE Transactions on Systems,Man,and Cybernetics,2007,37(2):322–332.

      [64]S.Ekvall and D.Kragic.Robot learning from demonstration:a task-level planning approach[J].International Journal of Advanced Robotic Systems,2008,5(3):33.

      [65]K.Lee,Y.Su,T.-K.Kim,and Y.Demiris.A syntactic approach to robot imitation learning using probabilistic activity grammars[J].Robotics and Autonomous Systems,2013,61(12):1323–1334.

      [66]W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.-Y.Fu,and A.C.Berg.Ssd:Single shot multibox detector[J].European Conference on Computer Vision,2016:21–37.

      [67]B.Drost,M.Ulrich,N.Navab,and S.Ilic.Modelglobally,match locally:Efficient and robust 3d object recognition[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:998–1005.

      [68]Y.Wang,Y.Jiao,R.Xiong,H.Yu,J.Zhang,and Y.Liu.Masd:A multimodal assembly skill decoding system for robot programming by demonstration[J].IEEE Transactions on Automation Science and Engineering,2018,15(4):1722–1734.

      [69]Y.Wang,J.Cai,Y.Wang,Y.Hu,R.Xiong,Y.Liu,J.Zhang,and L.Qi.Probabilistic graph based spatial assembly relation inference for programming of assembly task by demonstration[J].IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),2015:4402–4407.

      作者簡(jiǎn)介:

      周忠祥(1995-),男,山東菏澤人,現就讀于浙江大學(xué)控制理論與控制工程專(zhuān)業(yè),研究方向為機器人演示編程以及裝配序列生成。

      胡晉(1995-,)男,江西南昌人,博士,現就讀于浙江大學(xué),研究方向為機器人運動(dòng)規劃以及機器人學(xué)習系統。

      王越(1988-),男,浙江寧波人,副教授,碩士生導師,博士,現就職于浙江大學(xué)控制科學(xué)與工程學(xué)院,研究方向為長(cháng)期自動(dòng)化機器人系統、機器人感知。

      熊蓉(1972-),女,江蘇太倉人,教授,博士生導師,博士,現就職于浙江大學(xué)控制科學(xué)與工程學(xué)院,研究方向為機器人智能感知與控制。

      摘自《自動(dòng)化博覽》2020年6月刊


      熱點(diǎn)新聞

      推薦產(chǎn)品

      x
      • 在線(xiàn)反饋
      1.我有以下需求:



      2.詳細的需求:
      姓名:
      單位:
      電話(huà):
      郵件:
      欧美精品欧美人与动人物牲交_日韩乱码人妻无码中文_国产私拍大尺度在线视频_亚洲男人综合久久综合天

    2. <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

      <table id="fficu"></table>

      <sup id="fficu"></sup>
      <output id="fficu"></output>