Problem
現有的 AI 程式助理評測多依賴靜態基準測試,缺乏開發者在現實環境中如何實際使用這些工具、以及 AI 產出內容在實作中是否真正有效的經驗證據。
Method
研究團隊開發了 SWE-chat 資料集,這是首個從開源社群自動且持續收集的真實程式助理互動紀錄。該資料集目前包含 6,000 個對話階段、超過 6.3 萬條使用者提示及 35.5 萬次工具調用,並能精確追蹤程式碼是由人類還是 AI 撰寫的歸屬關係。
Results
開發模式呈現明顯的雙峰分佈:41% 的階段由 AI 撰寫幾乎所有代碼(氛圍開發,Vibe Coding),而 23% 仍由人類親自撰寫。關鍵發現指出,AI 產出的代碼僅 44% 最終被採納,且比人類撰寫的代碼更容易引入安全漏洞;此外,高達 44% 的互動中存在使用者對 AI 輸出的糾正、回報失敗或中斷作業。
Significance
此研究為 AI 代理在軟體工程中的應用提供了從基準測試轉向實證分析的基礎。透過真實工作流的完整數據,研究者能更精準地識別 AI 的失敗模式,進而開發出真正能提升開發效率並兼顧安全性的協作工具。