程式碼生成新突破：Think-Anywhere 讓大型語言模型在實作中隨時隨地深度思考

本研究提出 Think-Anywhere 機制，使模型能在程式生成過程中的任何位置隨需啟動思考，透過冷啟動訓練與強化學習，顯著提升複雜問題的實作效率與模型可解釋性。

Problem

現有推理大型語言模型多採「預先思考」模式，即在給出最終答案前完成所有推理。然而程式碼開發的複雜度往往在實作過程中才逐漸顯現，預先思考難以預見所有細節，且無法根據程式片段的不同難度，彈性地分配推理資源。

提出的 Think-Anywhere 機制讓模型能在生成程式碼的任何標記位置，按需觸發思考程序。開發團隊先透過冷啟動訓練引導模型模仿推理模式，隨後利用結果導向的強化學習（RL）獎勵，驅動模型自主探索並決定何時、何處最需要啟動推理以解決當前難題。

在 LeetCode、LiveCodeBench 等四大主流指標測評中，Think-Anywhere 的表現超越了現有的推理方法與後訓練技術。分析進一步揭示，模型能精準地在熵值較高的關鍵位置啟動推理，這不僅提升了準確率，更增強了模型生成過程的可解釋性。

此研究打破了傳統思維鏈的線性限制，為自動化程式生成提供了更靈活動態的推理架構。它讓大型語言模型的思考邏輯更貼近人類開發者「邊撰寫邊思考」的實務流程，對於提升複雜軟體開發的自動化品質具有重要價值。