Chuyển tới nội dung chính

3 bài viết được gắn thẻ "Benchmark"

Benchmark là quá trình đo lường và so sánh hiệu suất của các hệ thống hoặc mô hình AI để đánh giá tốc độ, chi phí và chất lượng.

Xem tất cả thẻ

Domain-Aware RAG: Khi Retrieval-Augmented Generation Rời Phòng Lab Bước Vào Thực Tiễn

· 18 phút để đọc
ManhPT
Just another developer!

RAG (Retrieval-Augmented Generation) đã đi được một chặng đường dài từ những ngày đầu "nhét context vào prompt". Năm 2025-2026 chứng kiến sự bùng nổ của các hệ thống RAG chuyên biệt hóa theo từng domain — nơi retrieval không còn là bài toán "tìm document giống nhất", mà là bài toán "tìm thông tin hữu ích nhất cho một ngữ cảnh chuyên môn cụ thể".

Bài viết này khảo sát 22 paper mới nhất về domain-aware RAG trên 8 lĩnh vực, rút ra những insight chung và bài học thực tiễn cho ai đang xây dựng hệ thống RAG trong doanh nghiệp.

Benchmark No Streaming + No Thinking: JSON vs QP-Lines (Gemini + Qwen)

· 8 phút để đọc
ManhPT
Just another developer!

Bài benchmark trước dùng JSON array cho structured output nhưng chưa đo tác động của format lên TTLT. Bài này tách riêng một điều kiện chuẩn hóa — no streaming + no thinking + explicit cache — rồi so sánh JSON array vs QP-Lines trên cả GeminiQwen để trả lời câu hỏi: format nào nhanh hơn và ổn định hơn cho pipeline query breaking?

Tham chiếu bài trước: Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT.

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

· 12 phút để đọc
ManhPT
Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-FlashGemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.