AI 代理(AI Agents)正在改變軟體開發的遊戲規則。現在的 AI 工具不再只是單純的程式碼補完引擎,而是能理解專案脈絡、自動修正錯誤甚至協助部署的「數位同僚」。然而,這種權力伴隨著新型態的資安風險。NVIDIA 近期關注的 AGENTS.md 間接注入攻擊,正是這種威脅的縮影。開發者習慣在專案中放置特定的說明文件,如 AGENTS.md,用來定義 AI 代理的角色、職責與行為規範。如果駭客在這些看似平常的自然語言文件中,混入惡意的指令文字,就可能引發嚴重的後果。
這類攻擊被稱為「間接注入」,其核心在於 AI 代理會高度信任專案內的文本資訊。舉例來說,一個惡意攻擊者可以在開源專案的文件中藏入一段指示,要求 AI 代理在處理資料時,順便將環境變數或 API 金鑰傳送到外部伺服器。當不知情的開發者使用 AI 工具開啟這個專案時,AI 就會將這些惡意文字視為合法的運作指令。對產業而言,這打破了傳統資安防護的認知。過去我們擔心的是惡意程式碼,現在連「英文說明」都可能成為攻擊媒介,這將導致軟體供應鏈的防禦難度大幅提升。
值得關注的是,這類攻擊之所以難以偵測,是因為它規避了傳統的靜態代碼掃描(SAST)工具。傳統工具尋找的是已知的惡意模式或邏輯漏洞,但 AI 注入攻擊使用的是自然語言,對掃描器而言就像是一般的註解。這意味著企業在導入 AI 代理流程時,必須重新思考「信任邊界」的定義。開發環境不再是絕對安全的孤島,AI 工具的權限管理與輸入驗證必須比以往更加嚴格。
對於正積極轉向 AI 驅動開發(AI-Driven Development)的台灣企業與開發者來說,這是一個重要的警訊。在追求開發效率最大化的同時,如何建立一套能驗證 AI 指令來源、限制 AI 行為權限的治理架構,將成為接下來軟體工程領域的關鍵課題。我們不僅要學會如何與 AI 協作,更要學會如何在不透明的語言模型黑盒中,確保開發流程的純粹與安全。