打通網頁與系統的隔閡：Amazon Bedrock 賦予 AI 代理人跨越瀏覽器的操作能力

Amazon Bedrock 推出 OS Level Actions 功能，解決了過往 AI 代理人僅能操作網頁 DOM 的侷限。新技術讓 AI 能處理列印視窗、系統安全提示與右鍵選單，大幅提升自動化流程的完整性，是實現全自動虛擬員工的關鍵進步。

在當前的 AI 技術發展中，自動化代理人（AI Agents）正逐漸成為企業優化流程的核心。然而，過去這類代理人在操作網頁流程時，往往會面臨一道「隱形的牆」。大多數的網頁自動化工具是基於 Playwright 或 Chrome DevTools Protocol (CDP) 運作，這些工具的權限僅限於網頁內部的 DOM 結構。一旦任務涉及作業系統層級的互動，例如按下「列印」後彈出的系統視窗、macOS 的隱私權限請求，或是 Windows 的安全憑證選擇器，AI 代理人就會陷入「看得到卻點不到」的窘境。

這個問題對於具備視覺能力的 AI 代理人來說尤為顯著。傳統的運作模式是讓 AI 截取畫面、交由大型語言模型分析、計算座標後執行操作。在截圖中，模型可以清楚地辨識出系統對話框或右鍵選單的位置，但由於這些元素屬於作業系統渲染的 UI，不屬於網頁 DOM 範疇，開發者過去完全無法透過瀏覽器 API 驅動代理人去點擊這些位置。這種技術斷點導致許多複雜的自動化流程在進入生產環境後，常因為偶發的系統提示而中斷，難以達到真正的端到端（End-to-End）無人化運作。

為了解決這個痛點，AWS 近期在 Amazon Bedrock AgentCore Browser 中推出了「OS Level Actions」功能。這項更新透過全新的 InvokeBrowser API，讓 AI 代理人不再受限於網頁框架，而是能直接對螢幕上可見的所有內容進行操作。無論是需要透過快捷鍵觸發功能，還是處理那些跳脫出瀏覽器邊界的系統原生對話框，AI 代理人現在都具備了相應的控制權。這項改變看似細微，實則填補了自動化技術中最脆弱的一環。

從產業影響的角度來看，這項發展大幅提升了自動化流程的穩定性與適用廣度。在金融、法律或醫療等高度重視資訊安全的領域，系統層級的確認視窗是常見的安全機制。過去為了繞過這些限制，工程師往往需要撰寫極其複雜且脆弱的腳本，或者乾脆放棄自動化。現在，藉由 OS 層級的操作能力，企業可以更放心地將高價值且高複雜度的任務交給 AI 處理，從而降低人力介入的需求，減少人為操作可能的疏漏。

這項技術的重要性在於，它象徵著 AI 代理人正從「網頁操作員」轉化為「虛擬員工」。真正的數位轉型不應只是讓 AI 讀取網頁資料，而是要讓它能像人類一樣，流暢地切換於應用程式、網頁與系統設定之間。Amazon Bedrock 的這項更新，正是在為這種全方位的自動化鋪路。對於台灣眾多正尋求透過 AI 提升競爭力的企業而言，這種能跨越技術鴻溝、整合舊有系統與現代 Web 介面的能力，將會是建構穩定 AI 工作流的關鍵拼圖，讓 AI 代理人能真正深入到日常營運的核心流程中。