Problem

現有的多模態模型在處理複雜的文字與圖片交織指令時,往往因為圖像與文字在結構上的分離,導致模型難以跨越長距離依賴來準確匹配描述與視覺目標,限制了生成內容的連貫性。

Method

提出「Images iN SEnTences」(INSET)框架,將圖像特徵直接嵌入對應的語義插槽中,視為稠密且具表現力的語言標記(Tokens)。此外,開發了一套可擴展的數據引擎,利用 VLM 與 LLM 從現有影像資料中合成 1,500 萬筆高品質交織樣本。

Results

在 InterleaveBench 評測中,INSET 在多圖一致性與文字對齊上均超越現有最佳模型。實驗顯示輸入指令越複雜,INSET 的領先優勢越明顯,且該方法能自然延伸至高表現力的多模態圖像編輯任務,實現靈活的創意操作。

Significance

此研究打破了圖文處理的結構藩籬,為統一視覺生成提供了更符合直覺的架構。透過將圖像「標記化」並整合進 Transformer 的上下文局部性中,不僅提升了生成品質,也為複雜、長程的視覺創意協作任務奠定了基礎。