在當前的 AI 技術發展中,自動化代理人(AI Agents)正逐漸成為企業優化流程的核心。然而,過去這類代理人在操作網頁流程時,往往會面臨一道「隱形的牆」。大多數的網頁自動化工具是基於 Playwright 或 Chrome DevTools Protocol (CDP) 運作,這些工具的權限僅限於網頁內部的 DOM 結構。一旦任務涉及作業系統層級的互動,例如按下「列印」後彈出的系統視窗、macOS 的隱私權限請求,或是 Windows 的安全憑證選擇器,AI 代理人就會陷入「看得到卻點不到」的窘境。

這個問題對於具備視覺能力的 AI 代理人來說尤為顯著。傳統的運作模式是讓 AI 截取畫面、交由大型語言模型分析、計算座標後執行操作。在截圖中,模型可以清楚地辨識出系統對話框或右鍵選單的位置,但由於這些元素屬於作業系統渲染的 UI,不屬於網頁 DOM 範疇,開發者過去完全無法透過瀏覽器 API 驅動代理人去點擊這些位置。這種技術斷點導致許多複雜的自動化流程在進入生產環境後,常因為偶發的系統提示而中斷,難以達到真正的端到端(End-to-End)無人化運作。

為了解決這個痛點,AWS 近期在 Amazon Bedrock AgentCore Browser 中推出了「OS Level Actions」功能。這項更新透過全新的 InvokeBrowser API,讓 AI 代理人不再受限於網頁框架,而是能直接對螢幕上可見的所有內容進行操作。無論是需要透過快捷鍵觸發功能,還是處理那些跳脫出瀏覽器邊界的系統原生對話框,AI 代理人現在都具備了相應的控制權。這項改變看似細微,實則填補了自動化技術中最脆弱的一環。

從產業影響的角度來看,這項發展大幅提升了自動化流程的穩定性與適用廣度。在金融、法律或醫療等高度重視資訊安全的領域,系統層級的確認視窗是常見的安全機制。過去為了繞過這些限制,工程師往往需要撰寫極其複雜且脆弱的腳本,或者乾脆放棄自動化。現在,藉由 OS 層級的操作能力,企業可以更放心地將高價值且高複雜度的任務交給 AI 處理,從而降低人力介入的需求,減少人為操作可能的疏漏。

這項技術的重要性在於,它象徵著 AI 代理人正從「網頁操作員」轉化為「虛擬員工」。真正的數位轉型不應只是讓 AI 讀取網頁資料,而是要讓它能像人類一樣,流暢地切換於應用程式、網頁與系統設定之間。Amazon Bedrock 的這項更新,正是在為這種全方位的自動化鋪路。對於台灣眾多正尋求透過 AI 提升競爭力的企業而言,這種能跨越技術鴻溝、整合舊有系統與現代 Web 介面的能力,將會是建構穩定 AI 工作流的關鍵拼圖,讓 AI 代理人能真正深入到日常營運的核心流程中。