12 bài viết được gắn thẻ "Large Language Model (LLM)" | ManhPT's Engineering Blog

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

13 tháng 3, 2026 · 12 phút để đọc

Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.

Model Context Protocol (MCP) là gì?

22 tháng 3, 2025 · 3 phút để đọc

ManhPT

Just another developer!

MCP Architecture

Tóm tắt khái niệm về MCP theo bài viết từ Anthropic

Model Context Protocol (MCP) là một giao thức chuẩn mở được Anthropic giới thiệu vào ngày 26/11/2024, nhằm mục đích kết nối các mô hình ngôn ngữ lớn (LLM) với dữ liệu và công cụ bên ngoài một cách liền mạch. Dưới đây là khái niệm cốt lõi của MCP dựa trên bài viết:

Tóm tắt khái niệm về MCP theo bài viết từ Anthropic​

Tóm tắt khái niệm về MCP theo bài viết từ Anthropic