Problem

現有推理大型語言模型多採「預先思考」模式,即在給出最終答案前完成所有推理。然而程式碼開發的複雜度往往在實作過程中才逐漸顯現,預先思考難以預見所有細節,且無法根據程式片段的不同難度,彈性地分配推理資源。

Method

提出的 Think-Anywhere 機制讓模型能在生成程式碼的任何標記位置,按需觸發思考程序。開發團隊先透過冷啟動訓練引導模型模仿推理模式,隨後利用結果導向的強化學習(RL)獎勵,驅動模型自主探索並決定何時、何處最需要啟動推理以解決當前難題。

Results

在 LeetCode、LiveCodeBench 等四大主流指標測評中,Think-Anywhere 的表現超越了現有的推理方法與後訓練技術。分析進一步揭示,模型能精準地在熵值較高的關鍵位置啟動推理,這不僅提升了準確率,更增強了模型生成過程的可解釋性。

Significance

此研究打破了傳統思維鏈的線性限制,為自動化程式生成提供了更靈活動態的推理架構。它讓大型語言模型的思考邏輯更貼近人類開發者「邊撰寫邊思考」的實務流程,對於提升複雜軟體開發的自動化品質具有重要價值。