Chuyển tới nội dung chính

1 bài viết được gắn thẻ "Technical"

Bài viết kỹ thuật sâu về architecture, implementation, và best practices.

Xem tất cả thẻ

Context Cache trong LLM: Prefix Cache vs KV Cache, Implicit vs Explicit - Phân Tích Claude, Gemini, GPT, Qwen3.5

· 9 phút để đọc
ManhPT
Just another developer!

Context cache (còn gọi là prefix cache hoặc KV cache) là kỹ thuật tối ưu quan trọng trong các LLM API hiện đại, giúp giảm latency và cost khi xử lý các request có phần context lặp lại. Bài viết này phân tích sâu kiến trúc cache của 4 model LLM hàng đầu (Claude, Gemini, GPT, Qwen3.5), so sánh implicit vs explicit cache, và đặc biệt tập trung vào trade-off giữa TTFT (Time-To-First-Token)TTLT (Time-To-Last-Token) - vấn đề then chốt trong optimization thực tế.