Chuyển tới nội dung chính

2 bài viết được gắn thẻ "Optimization"

Kỹ thuật tối ưu hóa performance, cost, và resource usage trong hệ thống AI.

Xem tất cả thẻ

Headroom, RTK, Caveman: Các Công Cụ Tiết Kiệm Token Cho Coding Agent

· 18 phút để đọc
ManhPT
Just another developer!

Coding agent đang bước vào giai đoạn mà chi phí không chỉ nằm ở model nào rẻ hơn, mà ở việc agent nhìn thấy bao nhiêu thứ không cần thiết. Một lần pytest dài, một git diff quá rộng, một log Kubernetes ồn ào, một file CLAUDE.md phình dần qua nhiều tháng — tất cả đều biến thành input tokens, rồi tiếp tục bị kéo theo ở các vòng sau.

Vì vậy, vài tháng gần đây xuất hiện một lớp công cụ mới: không thay model, không thay IDE, mà đứng giữa agent và context để cắt bớt token. Bài này tập trung vào đúng nhóm đó: Headroom, RTK, LeanCTX và Caveman.

Tóm tắt giải pháp: nếu agent tốn token vì test/log/git output, bắt đầu với RTK. Nếu agent đọc file quá rộng trong repo lớn, thử LeanCTX hoặc jCodeMunch. Nếu workflow có nhiều RAG/API/log/multi-agent context, nghiên cứu Headroom. Nếu agent dài dòng, dùng Caveman. Và luôn nhớ: với security audit, repo không tin cậy, hoặc lỗi khó debug, hãy quay về raw output.

Context Cache trong LLM: Prefix Cache vs KV Cache, Implicit vs Explicit - Phân Tích Claude, Gemini, GPT, Qwen3.5

· 9 phút để đọc
ManhPT
Just another developer!

Context cache (còn gọi là prefix cache hoặc KV cache) là kỹ thuật tối ưu quan trọng trong các LLM API hiện đại, giúp giảm latency và cost khi xử lý các request có phần context lặp lại. Bài viết này phân tích sâu kiến trúc cache của 4 model LLM hàng đầu (Claude, Gemini, GPT, Qwen3.5), so sánh implicit vs explicit cache, và đặc biệt tập trung vào trade-off giữa TTFT (Time-To-First-Token)TTLT (Time-To-Last-Token) - vấn đề then chốt trong optimization thực tế.