語言模型需要睡覺嗎？離線循環增強線上推理

arXiv: 2605.26099 · 2026-05-25 · CMU / University of Maryland
Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

「記憶不是問題，算力才是。讓模型在清空 KV cache 前多跑幾圈，把上下文真正『消化』成有用的內部表徵。」

📊 關鍵數據

實驗	架構	N=1 (無睡眠)	N=4~8 (有睡眠)	改善
Cellular Automaton (t=32)	4L GDN-Attention hybrid	接近隨機	顯著提升	N 越大越好
Depo 多跳圖檢索	4L GDN-Attention hybrid	基準線	加速收斂	更難查詢改善更大
GSM-Infinite 數學推理	Jet-Nemotron 2B / Ouro 1.4B	基準線	高難度題目顯著提升	算術步驟越多，N 效益越大

N = 睡眠期間的離線循環次數。所有比較在相同 token 預算下進行。

SSM-Attention 混合模型（如 MambaFormer、Jet）的瓶頸不是記憶容量，而是壓縮上下文時的算力不足。當 KV cache 被清空後，模型無法對已移出注意力視窗的內容進行深度推理。

在上下文視窗滿時，模型進入「睡眠」：

① 對累積的上下文執行 N 次離線循環前向傳播
② 每次循環透過學習到的局部規則更新 SSM 區塊中的 fast weights
③ 睡眠結束後清空 KV cache，用更新後的 fast weights 繼續單次推理
④ 訓練時端到端反向傳播，梯度穿過整個睡眠過程

動物睡眠期間，海馬迴短期記憶被重新激活並鞏固至皮層突觸權重。同樣地，模型的「睡眠」將注意力緩存中的短期上下文轉化為持久的 fast weights。

傳統循環模型（如 Universal Transformer）在預測時循環。本方法將循環移到記憶鞏固階段，預測時仍是單次前向傳播——不增加推論延遲。

跨上下文視窗的循環幾乎不增加訓練開銷；循環深度 N 與成本呈線性關係。在 1×H200 GPU 上，N=8 的吞吐量僅比 N=1 低約 30%。

Hermes Agent 睡眠固化：現有的每週自我優化（hermes-self-improvement skill）可借鑑此機制——將多輪對話的上下文「壓縮」進結構化記憶，而非僅做表面摘要。關鍵差異：Hermes 目前是事後摘要，論文建議的是訓練階段的循環鞏固。

長上下文 Agent 設計：對於需要長時間運行的自主 agent，可在 context 滿時觸發「微型睡眠」——用多輪反思循環將關鍵資訊壓縮進持久記憶，清空工作記憶後繼續執行。這比簡單的滑動視窗或摘要更有效。

RAG 系統改進：傳統 RAG 只做一次 embedding 就丟棄原文。若在索引階段加入多次循環處理（類似睡眠），可產出更高品質的壓縮表徵，提升後續檢索精度。

微調策略參考：論文使用 Jet-Nemotron 2B 和 Ouro 1.4B 進行微調實驗，證明睡眠機制可應用於預訓練模型的後訓練階段。對於需要部署小型模型但要求長上下文推理的場景（如邊緣裝置），這是可行的增強路徑。

LLM 記憶 SSM-Attention Hybrid 睡眠固化 Fast Weights 離線循環長上下文推理 CMU