機(jī)器狗能當(dāng)羽毛球搭子了強(qiáng)化學(xué)習(xí)助力精準(zhǔn)擊球

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-05-30 23:19:53 量子位

來和機(jī)器狗一起運(yùn)動(dòng)吧，你的羽毛球搭子來了,。通過強(qiáng)化學(xué)習(xí),，機(jī)器狗學(xué)會(huì)了獨(dú)立打羽毛球，無論是在室外還是室內(nèi)都能應(yīng)對(duì)自如,。

研究人員開發(fā)了全身視覺運(yùn)動(dòng)控制策略,，同步控制機(jī)器狗的腿部移動(dòng)和手臂揮拍動(dòng)作。最終,，機(jī)器狗的最高揮拍速度達(dá)到了12米/秒,。在與人類選手的比賽中，某一回合連續(xù)擊球10次,，甚至出現(xiàn)了擊球后回位中心的類人行為,。該研究在各種環(huán)境中進(jìn)行了大量實(shí)驗(yàn)，驗(yàn)證了四足機(jī)器人預(yù)測(cè)羽毛球軌跡,、有效導(dǎo)航服務(wù)區(qū)域以及對(duì)人類球員進(jìn)行精準(zhǔn)打擊的能力,，證明了足式移動(dòng)機(jī)器人在復(fù)雜和動(dòng)態(tài)體育場(chǎng)景中的應(yīng)用可行性,。研究團(tuán)隊(duì)來自蘇黎世聯(lián)邦理工學(xué)院，相關(guān)論文發(fā)表在《科學(xué)·機(jī)器人》雜志上,。

學(xué)會(huì)打羽毛球的機(jī)器狗配置如下：主體由一個(gè)四足ANYmal-D底座和一個(gè)動(dòng)態(tài)手臂DynaArm組成,。它配備了一個(gè)帶有全局快門的ZED X立體相機(jī)用于羽毛球感知。相機(jī)計(jì)算出的羽毛球位置和機(jī)器人本體感知觀測(cè)值一起被輸入到強(qiáng)化學(xué)習(xí)策略中,。然后生成關(guān)鍵指令來控制四足底座,。羽毛球拍相對(duì)于腕關(guān)節(jié)呈45°角定向，這是根據(jù)早期仿真測(cè)試得出的最佳配置,。在部署過程中,，機(jī)器狗以400 Hz的頻率運(yùn)行，同時(shí)機(jī)器人控制策略以100 Hz的速率更新觀測(cè)值并發(fā)送關(guān)節(jié)位置指令,。系統(tǒng)的感知模塊包括羽毛球位置測(cè)量,、狀態(tài)估計(jì)和軌跡預(yù)測(cè)，以60 Hz的頻率異步運(yùn)行,。

基于這個(gè)配置,，機(jī)器狗和人類業(yè)余羽毛球選手進(jìn)行了比賽。盡管存在一些失誤,，但機(jī)器狗能夠根據(jù)不同速度和落點(diǎn)的來球做出適當(dāng)反應(yīng),。平均來說，感知模塊在對(duì)手機(jī)球后需要花費(fèi)0.357秒來判斷攔截軌跡,。通常,，羽毛球會(huì)在0.654秒后達(dá)到四足底座上方1.25米然后被攔截。記錄中,，機(jī)器狗從預(yù)測(cè)到擊球最快耗時(shí)0.367秒,。在官方放出的視頻中，有一次對(duì)打進(jìn)行了10次連續(xù)擊球,。每次擊球后,，機(jī)器狗會(huì)自動(dòng)向球場(chǎng)中心移步，類似于人類玩家調(diào)整站位和站姿為下一次擊球做準(zhǔn)備,。

在給定真實(shí)感知的情況下,，研究人員評(píng)估了在指令揮拍時(shí)間到達(dá)攔截位置0.1米范圍內(nèi)的擊球百分比。仿真結(jié)果表明,，在發(fā)球區(qū),，機(jī)器狗攔截來球幾乎一攔一個(gè)準(zhǔn)，失敗率可忽略不計(jì),。但在發(fā)球區(qū)邊界或羽毛球直接落在機(jī)器狗身后時(shí),，預(yù)測(cè)羽毛球軌跡并成功攔截就變得非常困難。當(dāng)羽毛球從正上方或正后方接近機(jī)器狗時(shí),，它必須直接向上俯仰,，這對(duì)機(jī)器狗來說很有難度,。執(zhí)行10m/s的揮拍速度時(shí),，機(jī)器狗基本都能跟蹤指令速度,；速度超過10m/s時(shí)，精度就會(huì)下降,。當(dāng)命令其以19m/s揮拍時(shí),，機(jī)器狗出現(xiàn)了最高執(zhí)行速度，即12.06m/s,。相比之下,，業(yè)余羽毛球運(yùn)動(dòng)員可以達(dá)到20m/s至30m/s的揮拍速度。系統(tǒng)在接近其電流和關(guān)節(jié)速度極限的情況下運(yùn)行以實(shí)現(xiàn)這些指令,。更高的指令速度導(dǎo)致基座角速度增加,，表明基座姿態(tài)控制與操作器揮動(dòng)之間存在耦合。球拍在指令的擊球時(shí)刻精確到達(dá)其最近點(diǎn),。在指令12m/s揮拍時(shí),，機(jī)器狗執(zhí)行的平均揮拍速度為10.8m/s，平均位置誤差為0.117米,。換句話說,，當(dāng)球拍以目標(biāo)速度移動(dòng)時(shí)，僅有0.0108秒的偏移,。

在整個(gè)羽毛球大戰(zhàn)中,，機(jī)器狗會(huì)自主學(xué)習(xí)動(dòng)態(tài)調(diào)整相機(jī)姿態(tài)，根據(jù)任務(wù)緊迫性動(dòng)態(tài)調(diào)整步態(tài),，包括短距離微調(diào)姿態(tài),、中距離不規(guī)則步態(tài)、長距離類疾馳步態(tài)等,。例如,，它以快跑進(jìn)行遠(yuǎn)距離快速攔截，并在近距離回?fù)魰r(shí)穩(wěn)定,，動(dòng)態(tài)協(xié)調(diào)手臂和腿部,。

打羽毛球的難點(diǎn)在于需要復(fù)雜的步法和上肢運(yùn)動(dòng)之間的相互協(xié)調(diào)。對(duì)機(jī)器狗來說,，這也是一項(xiàng)需要精確協(xié)調(diào)感知,、移動(dòng)和手臂揮動(dòng)的任務(wù)。更進(jìn)一步來說,，需要在動(dòng)態(tài)環(huán)境中協(xié)調(diào)下肢與上肢之間的運(yùn)動(dòng),，并使肢體控制與感知對(duì)齊。這不僅依賴于硬件,，還取決于控制算法,。當(dāng)前控制器和硬件存在不足,，而羽毛球?qū)Ω兄⒁苿?dòng)和操作之間復(fù)雜的相互作用提出了極高的要求,，需要平衡“快速響應(yīng)的移動(dòng)”與“精確的手臂運(yùn)動(dòng)”,。

研究團(tuán)隊(duì)提出了一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一控制策略，用于涉及所有自由度的全身視覺運(yùn)動(dòng)技能,，以實(shí)現(xiàn)有效的羽毛球跟蹤和擊打,。該策略利用真實(shí)世界相機(jī)數(shù)據(jù)的感知噪聲模型提供信息，確保仿真與部署之間感知誤差水平的一致性,，并促進(jìn)學(xué)習(xí)主動(dòng)感知行為,。此外，該方法還包括一個(gè)羽毛球預(yù)測(cè)模型和用于魯棒運(yùn)動(dòng)控制的約束強(qiáng)化學(xué)習(xí),，以增強(qiáng)部署準(zhǔn)備度,。與基準(zhǔn)相比，在沒有明確的視野范圍獎(jiǎng)勵(lì)的情況下,，機(jī)器狗即可實(shí)現(xiàn)更低的感知誤差和更高效的機(jī)械功率使用,。當(dāng)前系統(tǒng)主要依賴一個(gè)商用立體相機(jī)上的擴(kuò)展卡爾曼濾波器（EKF）進(jìn)行羽毛球狀態(tài)估計(jì)。未來可以通過整合額外的傳感模態(tài)來改進(jìn),，例如通過扭矩和聲音進(jìn)行沖擊檢測(cè),，或加入額外的RGB、深度或事件相機(jī),，以增強(qiáng)機(jī)器人在更激烈的游戲場(chǎng)景中的物理交互響應(yīng),。鑒于人類球員通常通過觀察對(duì)手動(dòng)作來預(yù)測(cè)羽毛球軌跡，人體姿態(tài)估計(jì)也可能是一種提高策略性能的有價(jià)值模態(tài),。

(責(zé)任編輯：0882)

關(guān)閉

機(jī)器狗能當(dāng)羽毛球搭子了 強(qiáng)化學(xué)習(xí)助力精準(zhǔn)擊球

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

機(jī)器狗能當(dāng)羽毛球搭子了強(qiáng)化學(xué)習(xí)助力精準(zhǔn)擊球