讓圖像成為語彙：INSET 模型透過交織指令實現精準的多圖生成與創意編輯

本研究提出 INSET 模型，將圖像視為原生語彙嵌入文字指令中，並透過自動化數據引擎生成的千萬級樣本，顯著提升了複雜情境下多圖生成的一致性與文字對齊表現。

Problem

現有的多模態模型在處理複雜的文字與圖片交織指令時，往往因為圖像與文字在結構上的分離，導致模型難以跨越長距離依賴來準確匹配描述與視覺目標，限制了生成內容的連貫性。

提出「Images iN SEnTences」（INSET）框架，將圖像特徵直接嵌入對應的語義插槽中，視為稠密且具表現力的語言標記（Tokens）。此外，開發了一套可擴展的數據引擎，利用 VLM 與 LLM 從現有影像資料中合成 1,500 萬筆高品質交織樣本。

在 InterleaveBench 評測中，INSET 在多圖一致性與文字對齊上均超越現有最佳模型。實驗顯示輸入指令越複雜，INSET 的領先優勢越明顯，且該方法能自然延伸至高表現力的多模態圖像編輯任務，實現靈活的創意操作。

此研究打破了圖文處理的結構藩籬，為統一視覺生成提供了更符合直覺的架構。透過將圖像「標記化」並整合進 Transformer 的上下文局部性中，不僅提升了生成品質，也為複雜、長程的視覺創意協作任務奠定了基礎。