Hi, I’m Adora, nice to meet you!

閱讀筆記 — Google TurboQuant:讓 LLM 記憶體用量砍到 1/6 的壓縮黑科技

你有沒有遇過這個情況:跑一個還算普通的 LLM,GPU 記憶體就已經快爆表,根本沒辦法跑長一點的對話,更別說同時跑多個 session?這不是你的機器太爛,而是 LLM 架構本身的痛點——key-value cache 太吃記憶體了

Google Research 最近發表了一篇 pre-print,提出的壓縮演算法叫 TurboQuant,測試結果是記憶體用量減 6 倍、注意力計算速度快 8 倍,而且幾乎不犧牲輸出品質。這種「又快又省又不爛」的組合在 ML 優化裡並不常見,值得好好拆解一下。

原文:Google’s TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x(Ars Technica,作者 Ryan Whitwam,2026-03-26)

Google TurboQuant 壓縮技術

閱讀筆記 — Google TurboQuant:讓 LLM 記憶體用量砍到 1/6 的壓縮黑科技

閱讀筆記 — 為什麼你的 RAG 需要一個會反省的大腦:Agentic RAG 完整解析

原文:How Agentic RAG Works(ByteByteGo)

你有沒有遇過這種情況:RAG 系統看起來運作正常,向量搜尋在搜、LLM 在回答——但給出的答案就是不對,或是答非所問?這篇文章正是在拆解這個問題的根源,以及為什麼在查詢和回答之間加一層「會思考、評估、重試的代理人」,可以從根本解決這件事。

Agentic RAG Reading Note Cover

閱讀筆記 — 為什麼你的 RAG 需要一個會反省的大腦:Agentic RAG 完整解析

閱讀筆記 — 軟體公司只剩兩條路:Grow 10 or Earn 40

原文:There Are Only Two Paths Left for Software by David George(a16z)

最近讀到一篇讓我覺得「說得很直白但偏偏很難反駁」的文章。核心論點是:軟體公司的中間帶已死——要嘛用 AI 把成長率再拉高 10 個百分點,要嘛重構成超高獲利機器。夾在中間的公司,會被市場慢慢施壓到消失。

Reading note cover

閱讀筆記 — 軟體公司只剩兩條路:Grow 10 or Earn 40

用手機遙控電腦開發?我用 Claude Dispatch 試了一把 🚀

今天使用 Claude Dispatch 用手機遙控電腦跑整個開發流程٩(●ᴗ●)۶

Dispatch 手機操作截圖

用手機遙控電腦開發?我用 Claude Dispatch 試了一把 🚀

閱讀筆記:How to Do AI-Assisted Engineering

閱讀筆記:How to Do AI-Assisted Engineering

AWS SAA 學習筆記:IAM

AWS SAA 學習筆記:IAM

Django: ListView & paginator

Django: ListView & paginator

Django: FBV & CBV — DetailView

Django: FBV & CBV — DetailView

使用 Django REST Framework 和 React 建置開發環境

使用 Django REST Framework 和 React 建置開發環境

Ruby on Rails: 什麼是Abstraction layer

介紹 Ruby on Rails 中 Abstraction Layer(抽象層)的概念與分層設計原則,說明如何透過職責分離提升程式碼可維護性與可測試性。

Ruby on Rails: 什麼是Abstraction layer