🏠 首頁 報告 論文 架構

語言模型需要睡覺嗎?離線循環增強線上推理

arXiv: 2605.26099 · 2026-05-25 · CMU / University of Maryland
Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
「記憶不是問題,算力才是。讓模型在清空 KV cache 前多跑幾圈,把上下文真正『消化』成有用的內部表徵。」

📊 關鍵數據

實驗架構N=1 (無睡眠)N=4~8 (有睡眠)改善
Cellular Automaton (t=32)4L GDN-Attention hybrid接近隨機顯著提升N 越大越好
Depo 多跳圖檢索4L GDN-Attention hybrid基準線加速收斂更難查詢改善更大
GSM-Infinite 數學推理Jet-Nemotron 2B / Ouro 1.4B基準線高難度題目顯著提升算術步驟越多,N 效益越大

N = 睡眠期間的離線循環次數。所有比較在相同 token 預算下進行。

🔧 機制拆解

1. 問題本質

SSM-Attention 混合模型(如 MambaFormer、Jet)的瓶頸不是記憶容量,而是壓縮上下文時的算力不足。當 KV cache 被清空後,模型無法對已移出注意力視窗的內容進行深度推理。

2. 睡眠機制(核心創新)

在上下文視窗滿時,模型進入「睡眠」:

① 對累積的上下文執行 N 次離線循環前向傳播
② 每次循環透過學習到的局部規則更新 SSM 區塊中的 fast weights
③ 睡眠結束後清空 KV cache,用更新後的 fast weights 繼續單次推理
④ 訓練時端到端反向傳播,梯度穿過整個睡眠過程

3. 與生物睡眠的類比

動物睡眠期間,海馬迴短期記憶被重新激活並鞏固至皮層突觸權重。同樣地,模型的「睡眠」將注意力緩存中的短期上下文轉化為持久的 fast weights。

4. 與循環網路的差異

傳統循環模型(如 Universal Transformer)在預測時循環。本方法將循環移到記憶鞏固階段,預測時仍是單次前向傳播——不增加推論延遲。

5. 訓練成本

跨上下文視窗的循環幾乎不增加訓練開銷;循環深度 N 與成本呈線性關係。在 1×H200 GPU 上,N=8 的吞吐量僅比 N=1 低約 30%。

💡 落地應用建議

Hermes Agent 睡眠固化:現有的每週自我優化(hermes-self-improvement skill)可借鑑此機制——將多輪對話的上下文「壓縮」進結構化記憶,而非僅做表面摘要。關鍵差異:Hermes 目前是事後摘要,論文建議的是訓練階段的循環鞏固
長上下文 Agent 設計:對於需要長時間運行的自主 agent,可在 context 滿時觸發「微型睡眠」——用多輪反思循環將關鍵資訊壓縮進持久記憶,清空工作記憶後繼續執行。這比簡單的滑動視窗或摘要更有效。
RAG 系統改進:傳統 RAG 只做一次 embedding 就丟棄原文。若在索引階段加入多次循環處理(類似睡眠),可產出更高品質的壓縮表徵,提升後續檢索精度。
微調策略參考:論文使用 Jet-Nemotron 2B 和 Ouro 1.4B 進行微調實驗,證明睡眠機制可應用於預訓練模型的後訓練階段。對於需要部署小型模型但要求長上下文推理的場景(如邊緣裝置),這是可行的增強路徑。

🏷️ 標籤

LLM 記憶 SSM-Attention Hybrid 睡眠固化 Fast Weights 離線循環 長上下文推理 CMU