Problem
在基於預訓練模型的類別增量學習(CIL)中,如何於超長任務序列中維持模型的穩定性與塑性,同時學習具備判別力且全面的特徵表示,一直是尚未解決的難題。現有方法在面對超過百個任務的極端情況時,往往難以兼顧效能與擴展性。
Method
提出名為 CaRE 的持續學習框架,核心採用雙層路由混合專家機制(BR-MoE)。該機制分為兩個階段:首先是路由器選擇階段,動態啟動與任務相關的特定路由器;其次是專家路由階段,負責啟動並聚合專家模型,將關鍵特徵表示注入每一層中間網路。此外,研究也同步推出了包含千類標籤的大型測試集 OmniBenchmark-1K。
Results
實驗證明 CaRE 在傳統的 5 至 20 個任務設定中表現優異,更是首個成功擴展至 100 到 300 個以上非重疊任務的持續學習模型。在超長序列的測試中,CaRE 的效能大幅領先所有基準模型,展現了極強的穩定性與擴展能力。
Significance
這項研究將持續學習的應用範疇從少數任務推向數百個任務的極長序列,解決了大規模增量學習中的效能瓶頸。透過開源的程式碼與新數據集,為未來開發更具規模化、能適應真實世界複雜場景的通用人工智慧系統提供了重要的參考架構。