藉由一維語義標記器實現端到端自回歸影像生成：打破兩階段框架的創新突破

本研究提出端到端訓練管線，將影像重建與生成共同優化，並結合視覺基礎模型強化一維標記器，在 ImageNet 測試中取得 FID 1.48 的領先成績。

Problem

傳統自回歸影像生成模型通常採用兩階段訓練流程，即先獨立訓練標記器（Tokenizer）再訓練生成模型。這種做法導致兩者無法協同優化，生成結果的品質無法直接回饋給標記器，限制了整體模型的學習效率與表徵精度。

開發出一套端到端訓練管線，同步優化重建與生成任務，實現生成結果對標記器的直接監督。研究團隊並進一步探索如何利用視覺基礎模型來改進用於自回歸建模的一維語義標記器，提升其捕捉關鍵視覺資訊的能力。

該模型在 ImageNet 256x256 生成測試中展現了卓越的效能，在無引導（without guidance）的情況下，成功達到 1.48 的 FID 分數，刷新了目前的技術標準（State-of-the-art）。

此研究證明了端到端優化標記器與生成模型的優越性，打破了過往兩階段架構的瓶頸，並為未來開發更高效能、具備語義理解能力的視覺生成模型提供了全新的研究典範。