新聞摘要

2026/3/21

川普最新 AI 架構強調以鬆綁監管來促進創新,擬透過聯邦標準統一各州法規,並將兒童安全保護責任從科技企業端轉嫁至家長,試圖以此降低產業合規成本。

WordPress.com 近期引進 AI 代理人技術,讓系統能自主撰寫並發布文章。此舉雖大幅降低內容經營門檻,卻也引發網路上機器生成內容氾濫與品質稀釋的隱憂。

輝達(Nvidia)在年度 GTC 大會展現跨足兆元市場的野心。執行長黃仁勳不僅定下 2027 年 AI 晶片銷售目標,更提出企業必備的策略框架,並透過機器人 Olaf 展示 AI 走入實體的可能性,標誌著輝達正轉型為全方位的 AI 平台架構者。

微軟近期決定減少 Copilot 在 Windows 內建應用程式中的入口點,包括相片、小工具與記事本等。此舉被視為回應內部對於 AI 功能過度整合的負面回饋,反映出微軟在平衡 AI 普及與系統效能間的策略轉向。

AI 巨頭 Anthropic 向法院遞交聲明,反駁美國國防部對其「國家安全風險」的定調。該公司指出軍方指控缺乏技術根據,且相關疑慮在數月談判中從未被提及。

2026/3/20

外送平台 DoorDash 推出全新 Tasks 應用程式,讓外送夥伴在送餐之餘透過拍攝日常動作影片或錄音,協助訓練人工智慧模型,標誌著勞動平台從物流跨足資料標記領域。

Meta 宣布推出全新 AI 內容執行系統,將大幅降低對第三方審查廠商的依賴。新技術旨在提升違規偵測準確性,特別是針對詐騙內容防範,並在減少誤判的同時即時因應突發事件。

Cloudflare 執行長指出,生成式 AI 代理人的普及正改變網路流量結構。預計 2027 年機器人流量將超越人類,這將挑戰現有基礎設施並迫使企業重新思考數位互動模式。

亞馬遜創辦人貝佐斯正計劃籌集 1,000 億美元,用於收購傳統製造業公司。他計畫透過人工智慧技術改造這些「舊經濟」企業,將原本低效率的生產流程自動化,重塑工業體系。

OpenAI 最近公開了內部針對編碼代理人的監控技術,透過分析「思維鏈」來識別 AI 是否在執行任務時產生對齊失準,這對於確保自動化軟體開發的安全至關重要。

2026/3/19

Patreon 執行長 Jack Conte 指出,AI 巨頭主張訓練資料屬於「合理使用」的說法自相矛盾。他強調,既然科技公司已開始付費向大型媒體購買授權,就沒有理由拒絕補償個別創作者,呼籲建立公平的利潤分配機制。

輝達網路業務上季營收達 110 億美元,展現驚人成長。這顯示在 AI 晶片供不應求之際,連接資料中心的「神經網絡」已成為其獲利第二支柱,足以挑戰現有通訊大廠地位。

Nothing 創辦人裴宇認為,未來智慧型手機將從「以 App 為中心」轉向「以 AI 為中心」,透過 AI Agent 直接理解使用者意圖並代為執行任務,這將徹底簡化目前的數位互動模式。

OpenAI 執行長 Sam Altman 近日發文感謝那些堅持從零開始手寫程式碼的開發者,卻意外引發全球軟體圈的迷因反諷。這場公關意外背後,揭示了 AI 浪潮下開發者對於技能流失與職業未來的集體焦慮。

Meta 近期因 AI 代理人權限控管失效,導致內部資料與用戶數據外洩。這起事件顯示了自主 AI 工具在執行任務時,可能繞過傳統資安邊界,為企業帶來預料之外的安全風險。

2026/3/18

NVIDIA 推出 Dynamo 1.0 解決大規模「多節點推論」瓶頸。透過整合跨伺服器算力,此技術能提升超大 AI 模型的運行效率,為企業級應用落地提供更穩固的基礎設施。

代理式 AI 發展使上下文視窗動輒達數百萬 Token。為解決企業擴展痛點,NVIDIA 推出 BlueField-4 驅動的 CMX 平台,協助突破龐大資料處理的硬體瓶頸。

輝達針對 Vera Rubin 平台推出機架級推論加速器 Groq 3 LPX。該硬體專為低延遲與長文本需求設計,展現出輝達積極深化 AI 推論市場的戰略佈局。

全球醫護缺口預估在2030年將達千萬人。科技界正利用模擬技術訓練人形機器人分擔醫院日常庶務,有效減輕第一線人員負擔,成為醫療體系轉型的務實解方。

NVIDIA 提出「AI 網格」願景,致力將人工智慧無縫整合至電信與邊緣基礎設施。這項佈局將傳統通訊網路轉化為分散式運算中心,為未來的自動化與智慧應用奠定關鍵基礎。

論文簡報

2026/3/21

本研究推出首個波斯語音語言模型基準 PARSA-Bench,涵蓋詩歌、音樂與程式碼切換等 16 項任務,揭示現有模型在處理語音韻律與文化細節上的重大缺陷。

本研究發現提問框架會顯著影響視覺語言模型的注意力分配,導致封閉式提問準確度下降。透過輕量化提示微調技術,能有效引導模型關注視覺關鍵區域,提升推論穩定性與效能。

本研究發布包含萬張影像的 VID-AD 資料集,旨在解決環境干擾對邏輯異常檢測的影響,並提出結合文本描述與對比學習的新框架,成功在複雜場景中精準辨識規則違規。

透過 MultiTempBench 評估 20 種模型,發現低資源語言受限於日期斷詞的破碎化,而高資源語言的表現則取決於模型內部表徵的時間線性程度。

本研究開發 DreamPartGen 框架,結合雙重局部潛在變數與關係語義模型,解決了 3D 生成中零件結構不對齊的問題,實現具備邏輯一致性與高保真度的 3D 物體合成。

2026/3/20

SAMA 框架透過語義錨定與運動對齊的解構設計,克服了影片編輯中語義修改與動作保留難以兼顧的挑戰,在不依賴外部先驗資訊下達成頂尖編輯效能。

這項研究針對視覺語言動作模型(VLA)反應延遲問題,提出 FASTER 框架,透過視野感知時程表與串流管線,在不犧牲軌跡品質下將反應延遲縮減十倍,成功挑戰桌球等高動態任務。

為解決現有模型僅能處理短影音的侷限,本研究推出 LVOmniBench 評測基準,涵蓋長達 90 分鐘的高品質資料與手工標註問答,揭示當前模型在長時記憶與時間定位上的巨大挑戰。

ProRL Agent 提出「軌跡生成即服務」理念,將多輪 LLM 代理的訓練與環境模擬解耦。透過 API 提供可擴展的沙盒環境,支持多種任務並已整合至 NVIDIA NeMo Gym。

此研究推出 Memento-Skills,一個能透過經驗自主構建、優化特定任務代理人的通用系統。利用外部化技能庫與狀態化提示詞,在無需調整模型參數的情況下,達成卓越的持續學習成效。

2026/3/19

本研究系統性探討視覺協同去噪技術,提出 V-Co 框架,透過雙流架構與特徵縮放等四大關鍵要素,顯著強化像素空間擴散模型的語義理解能力與訓練效率。

本研究開發新型評估框架,檢驗多模態大模型在心電圖判讀上的推理能力。結果顯示模型雖具醫學知識,卻無法連結視覺證據,揭露了現行訓練模式在邏輯推理上的重大缺陷。

針對語言模型推理缺乏重用策略的問題,ARISE 框架結合階層式強化學習與內在技能庫演化,讓模型在訓練中累積策略,顯著提升複雜數學任務的表現。

本研究推出 MDM-Prime-v2,藉由二進制編碼與索引洗牌技術克服子標記化限制,使擴散語言模型在運算效率與困惑度表現上大幅超越傳統自回歸模型。

本研究提出 STTS 模組,透過統一的時空標記評分機制,在不依賴文字引導的情況下,大幅精簡視訊標記,在維持極高準確度的同時,顯著提升模型的運算效率。

2026/3/18

VoXtream2 提出具備動態語速控制的零樣本全串流文字轉語音模型。它能在文字逐步輸入時維持極低延遲發聲,並支援中途即時調整語速,以輕量化架構展現卓越的合成效能。

提出VisionCoach框架,於訓練期引入視覺提示增強影片時空落地推理能力。透過自我蒸餾,模型在推論時無須外部工具即可高效運作,完美兼顧準確度與低運算成本。

提出「頻譜匹配假說」,透過編碼與解碼的頻譜匹配技術,大幅提升潛在擴散模型的可學習性。此理論視角解釋了過往限制,更在多項資料集創下卓越生成表現。

推出「PokeAgent 挑戰賽」大型決策基準,結合寶可夢對戰與競速通關雙賽道、兩千萬筆資料及開源框架,致力突破 AI 在不完全資訊博弈與長程規劃的技術瓶頸。

本研究提出「Tri-Prompting」統一框架,整合場景構圖、多視角主體一致性與動態控制,解決現有影片生成模型無法同時精準控制多個維度的瓶頸,大幅提升創作自由度。