揭開 AI 程式助理的實戰面紗：SWE-chat 資料集揭示現實開發中的人機互動與安全性挑戰

本研究推出首個大規模真實開發資料集 SWE-chat，分析 6,000 場開發對話，揭露 AI 產出程式碼的留存率、安全性漏洞，以及與人類開發者協作的真實瓶頸。

Problem

現有的 AI 程式助理評測多依賴靜態基準測試，缺乏開發者在現實環境中如何實際使用這些工具、以及 AI 產出內容在實作中是否真正有效的經驗證據。

Method

研究團隊開發了 SWE-chat 資料集，這是首個從開源社群自動且持續收集的真實程式助理互動紀錄。該資料集目前包含 6,000 個對話階段、超過 6.3 萬條使用者提示及 35.5 萬次工具調用，並能精確追蹤程式碼是由人類還是 AI 撰寫的歸屬關係。

Results

開發模式呈現明顯的雙峰分佈：41% 的階段由 AI 撰寫幾乎所有代碼（氛圍開發，Vibe Coding），而 23% 仍由人類親自撰寫。關鍵發現指出，AI 產出的代碼僅 44% 最終被採納，且比人類撰寫的代碼更容易引入安全漏洞；此外，高達 44% 的互動中存在使用者對 AI 輸出的糾正、回報失敗或中斷作業。

Significance

此研究為 AI 代理在軟體工程中的應用提供了從基準測試轉向實證分析的基礎。透過真實工作流的完整數據，研究者能更精準地識別 AI 的失敗模式，進而開發出真正能提升開發效率並兼顧安全性的協作工具。