身為全球寵物攝影機市場的領導者,總部位於台灣的 Tomofun 近年來透過 AI 科技持續推陳出新。旗下知名品牌 Furbo 不僅是一台監視器,更是一位全天候的「寵物褓姆」。為了實現精準的行為辨識,如吠叫、奔跑或異常活動,Tomofun 採用了先進的影像語言模型(Vision-Language Models, VLM),其中 BLIP(Bootstrapping Language-image Pre-Training)模型是其核心技術之一,負責從影像流中解讀寵物的各種行為。

然而,隨著使用者規模持續成長,Tomofun 面臨了嚴峻的雲端成本挑戰。過去,Furbo 的 AI 推論工作負載主要運行在以 GPU 為基礎的 Amazon EC2 實例上。雖然 GPU 提供了強大的運算能力,但對於需要 24 小時全天候運行的「寵物行為即時偵測」服務來說,昂貴的 GPU 運算資源讓營運成本節節攀升。如何在不犧牲模型準確度與即時性的前提下,降低數十萬台設備產生的運算支出,成為工程團隊的首要任務。

為了解決這個問題,Tomofun 選擇將 AI 模型遷移至由 AWS 自研晶片驅動的 EC2 Inf2 實例。這款針對人工智慧推論(Inference)量身打造的晶片,專為處理 BLIP 這類複雜的大型模型而設計。遷移的關鍵優勢在於,Inf2 提供了極高的效能成本比,且支援現有的 PyTorch 開發框架。這意味著 Tomofun 的工程師不需要為了適應新硬體而大幅重寫原本已經過優化且複雜的程式碼,便能順利完成系統轉換。

從產業影響力來看,這項轉變顯示了 AI 應用從「追求模型規模」進入到「追求落地效率」的新階段。對於智慧家居與物聯網(IoT)產業而言,AI 的邊緣或雲端推論成本往往是決定產品能否商業化的關鍵。Tomofun 的案例證明,透過選擇專用的加速晶片(如 Inferentia2)而非昂貴的通用型 GPU,企業可以在維持高精度影像分析的同時,釋放更多資源用於新功能的開發,而非僅是支付基礎建設的費用。

這項發展值得關注的原因有二:首先,它展示了台灣科技新創在國際舞台上的工程實力,能夠靈活運用雲端最先進的硬體技術來優化服務品質;其次,隨著影像語言模型(VLM)逐漸普及,如何將這些耗能巨大的模型轉化為經濟可行的商業服務,Tomofun 提供了一個標準的實踐範本。這不僅提升了產品競爭力,也為全球物聯網與 AI 結合的應用場景開拓了更永續的經營模式。隨著 AI 晶片技術持續進化,我們預期未來將有更多像 Furbo 這樣的智慧產品,能以更平易近人的服務門檻,走入更多養寵家庭的日常生活中。