Problem

傳統 3D 人體姿態估計方法多聚焦於相對於根關節的全身重建品質。然而,在實際的人機互動(HRI)場景中,機器人更需要精準掌握在自我中心相機座標系下,與特定任務相關部位的絕對空間尺度定位,而非僅是相對的全身形狀。

Method

提出首款專為近距離 HRI 認知設計的視覺語言模型(VLM)——TAIHRI。該模型能理解使用者的運動指令,並將機器人的注意力導向最相關的關鍵點。透過將 3D 關鍵點量化至有限的互動空間,利用「下一個標記預測」進行 2D 關鍵點推理,從而精準計算空間座標,並能適配自然語言控制與全域人體網格恢復等下游任務。

Results

在自我中心互動基準測試的實驗結果顯示,TAIHRI 在任務關鍵部位的估計準確度顯著優於現有方法。此模型能無縫銜接多元的互動指令,證明其在處理複雜近距離物理互動時具備極高的實用性與精確度。

Significance

本研究為具身智慧(Embodied AI)與人機協作開闢了新的研究路徑。藉由將語義理解與精確的空間定位結合,TAIHRI 提升了機器人在物理環境中與人類進行自然、安全互動的能力,對於未來開發協作型機器人具有重要參考價值。