Chuyển tới nội dung chính

1 bài viết được gắn thẻ "Benchmark"

Benchmark là quá trình đo lường và so sánh hiệu suất của các hệ thống hoặc mô hình AI để đánh giá tốc độ, chi phí và chất lượng.

Xem tất cả thẻ

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

· 12 phút để đọc
ManhPT
Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT/TTFT cho Qwen3.5-FlashGemini-3.1-Flash-Lite-Preview với 4 kịch bản (baseline, implicit cache, explicit cache, no thinking + no streaming).