Chuyển tới nội dung chính

1 bài viết được gắn thẻ "Tiếng Việt"

Nội dung và benchmark liên quan đến xử lý ngôn ngữ tiếng Việt với các mô hình AI.

Xem tất cả thẻ

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

· 12 phút để đọc
ManhPT
Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-FlashGemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.