TAIHRI：具備任務感知能力的 3D 人體關鍵點定位技術，實現更精準的近距離人機互動

TAIHRI 是首款專為近距離人機互動設計的視覺語言模型，能理解指令並精準定位任務相關的 3D 身體關鍵點，在自我中心視角下展現卓越的空間感知與應用潛力。

Problem

傳統 3D 人體姿態估計方法多聚焦於相對於根關節的全身重建品質。然而，在實際的人機互動（HRI）場景中，機器人更需要精準掌握在自我中心相機座標系下，與特定任務相關部位的絕對空間尺度定位，而非僅是相對的全身形狀。

Method

提出首款專為近距離 HRI 認知設計的視覺語言模型（VLM）——TAIHRI。該模型能理解使用者的運動指令，並將機器人的注意力導向最相關的關鍵點。透過將 3D 關鍵點量化至有限的互動空間，利用「下一個標記預測」進行 2D 關鍵點推理，從而精準計算空間座標，並能適配自然語言控制與全域人體網格恢復等下游任務。

Results

在自我中心互動基準測試的實驗結果顯示，TAIHRI 在任務關鍵部位的估計準確度顯著優於現有方法。此模型能無縫銜接多元的互動指令，證明其在處理複雜近距離物理互動時具備極高的實用性與精確度。

Significance

本研究為具身智慧（Embodied AI）與人機協作開闢了新的研究路徑。藉由將語義理解與精確的空間定位結合，TAIHRI 提升了機器人在物理環境中與人類進行自然、安全互動的能力，對於未來開發協作型機器人具有重要參考價值。