Adora's Blog

閱讀筆記 — Google TurboQuant：讓 LLM 記憶體用量砍到 1/6 的壓縮黑科技

你有沒有遇過這個情況：跑一個還算普通的 LLM，GPU 記憶體就已經快爆表，根本沒辦法跑長一點的對話，更別說同時跑多個 session？這不是你的機器太爛，而是 LLM 架構本身的痛點——key-value cache 太吃記憶體了。

# 閱讀筆記
# AI
# LLM
# Google
# 模型壓縮

Google Research 最近發表了一篇 pre-print，提出的壓縮演算法叫 TurboQuant，測試結果是記憶體用量減 6 倍、注意力計算速度快 8 倍，而且幾乎不犧牲輸出品質。這種「又快又省又不爛」的組合在 ML 優化裡並不常見，值得好好拆解一下。

Google TurboQuant 壓縮技術

2026-03-27