MedSkillAudit：專為醫療研究 AI 代理技能設計的審計框架，強化科學誠信與佈署安全

本研究開發 MedSkillAudit 框架，專門審核醫療研究 AI 代理技能的科學誠信與安全性。實驗證明其評估一致性超越人類專家，能有效篩選高風險技能，為 AI 醫療治理奠定實務基礎。

Problem

目前的 AI 代理技能在醫療研究領域缺乏專門的審核機制。通用型評估模型難以涵蓋科學誠信、方法論效度、可重複性及邊界安全性等嚴苛要求，導致在佈署這些專業技能時，難以確保其符合醫療研究的高度嚴謹性與安全性標準。

Method

研究團隊開發了 MedSkillAudit (v1.0) 分層審計框架，用於在佈署前評估技能的就緒程度。測試涵蓋五大醫療研究類別共 75 項技能，由兩名專家獨立進行品質評分與發佈建議（如正式生產、限量發佈、僅限 Beta 或拒絕），並透過 ICC(2,1) 與加權 Cohen’s kappa 統計量來衡量系統與專家間的一致性。

Results

實驗結果顯示，MedSkillAudit 的評估一致性 (ICC=0.449) 顯著優於人類專家之間的一致性 (ICC=0.300)，且系統評分偏離度小於專家間的歧見。高達 57.3% 的技能因未達標準被歸類為非生產就緒；其中「研究計畫設計」的一致性最高，而「學術寫作」則因審核準則與專家主觀判斷存在落差而呈現負相關。

Significance

這項研究證明了針對特定領域進行佈署前審計的必要性，為醫療研究 AI 代理的治理提供了實務基礎。MedSkillAudit 彌補了通用型品質檢測的不足，能透過結構化的審計流程，確保科學用途的 AI 工具在實際應用中具備更高的可靠性與安全性。