4 bài viết được gắn thẻ "Benchmark"

Benchmark là quá trình đo lường và so sánh hiệu suất của các hệ thống hoặc mô hình AI để đánh giá tốc độ, chi phí và chất lượng.

Xem tất cả thẻ

Nex-N2-Pro: Model Agentic Mới Với Benchmark Rất Cao

9 tháng 6, 2026 · 5 phút để đọc

ManhPT

Just another developer!

Nex AGI vừa công bố Nex-N2-Pro, một model agentic open-source mới nhắm thẳng vào nhóm use case đang nóng nhất hiện nay: coding agent, tool use, terminal execution và các workflow dài hơi có feedback từ môi trường thật.

Điểm gây chú ý không phải chỉ là "thêm một model LLM mới", mà là bảng benchmark được công bố: Nex-N2-Pro đạt 80.8 trên SWE-Bench Verified, 75.3 trên Terminal-Bench 2.1, 58.8 trên SWE-Bench Pro, 83.7 trên BrowseComp và 90.7 trên GPQA Diamond. Nếu các con số này được kiểm chứng độc lập, đây là một trong những model open-source đáng theo dõi nhất cho agentic coding trong năm nay.

Benchmark overview của Nex-N2-Pro

Domain-Aware RAG: Khi Retrieval-Augmented Generation Rời Phòng Lab Bước Vào Thực Tiễn

30 tháng 5, 2026 · 18 phút để đọc

ManhPT

Just another developer!

RAG (Retrieval-Augmented Generation) đã đi được một chặng đường dài từ những ngày đầu "nhét context vào prompt". Năm 2025-2026 chứng kiến sự bùng nổ của các hệ thống RAG chuyên biệt hóa theo từng domain — nơi retrieval không còn là bài toán "tìm document giống nhất", mà là bài toán "tìm thông tin hữu ích nhất cho một ngữ cảnh chuyên môn cụ thể".

Bài viết này khảo sát 22 paper mới nhất về domain-aware RAG trên 8 lĩnh vực, rút ra những insight chung và bài học thực tiễn cho ai đang xây dựng hệ thống RAG trong doanh nghiệp.

Benchmark No Streaming + No Thinking: JSON vs QP-Lines (Gemini + Qwen)

15 tháng 3, 2026 · 8 phút để đọc

ManhPT

Just another developer!

Bài benchmark trước dùng JSON array cho structured output nhưng chưa đo tác động của format lên TTLT. Bài này tách riêng một điều kiện chuẩn hóa — no streaming + no thinking + explicit cache — rồi so sánh JSON array vs QP-Lines trên cả Gemini và Qwen để trả lời câu hỏi: format nào nhanh hơn và ổn định hơn cho pipeline query breaking?

Tham chiếu bài trước: Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT.

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

13 tháng 3, 2026 · 12 phút để đọc

ManhPT

Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.