Learn2Fold：結合世界模型與神經符號推理，實現從文字自動生成物理可行的複雜摺紙序列

本研究開發 Learn2Fold 框架，結合大語言模型與圖形結構世界模型，將摺紙視為程式誘導過程，成功解決從抽象文字生成具備物理一致性且長程連貫之複雜摺紙序列的挑戰。

Problem

傳統摺紙生成面臨核心兩難：優化算法雖能確保物理嚴謹性，但需極為精密的輸入，無法處理模糊的文字描述；而現有的生成式模型雖具備語意理解力，卻難以遵守嚴格的幾何公理與運動學約束，導致產出的摺疊序列常因摺痕錯誤或物理衝突而失效。

研究團隊提出 Learn2Fold 神經符號框架，將摺紙建模為摺痕圖上的條件程式誘導。該系統將語意提案與物理驗證解耦：首先由大型語言模型根據文字生成候選摺紙程式，再透過一個可微分的圖結構世界模型扮演虛擬模擬器，在執行前預測物理可行性。最後，透過前瞻規劃循環，確保生成序列的穩健性。

實驗結果顯示，Learn2Fold 能夠針對複雜且超出訓練分布（Out-of-Distribution）的圖樣，生成符合物理規律且具備高度語意一致性的摺紙序列。相較於傳統方法，該模型展現了從稀疏自然語言指令轉化為精確物理動作序列的卓越能力。

此研究證明了空間智慧源於符號推理與落地物理模擬的協同作用。這不僅突破了結構化摺紙任務的技術瓶頸，更為未來結合高階語言意圖與嚴格物理約束的長程機器人操控任務，提供了一套具備通用潛力的全新範式。