Chuyển tới nội dung chính

12 bài viết được gắn thẻ "Large Language Model (LLM)"

Large Language Model (LLM) là một mô hình ngôn ngữ lớn được huấn luyện trên một lượng lớn dữ liệu ngôn ngữ tự nhiên.

Xem tất cả thẻ

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

· 12 phút để đọc
ManhPT
Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-FlashGemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.

Model Context Protocol (MCP) là gì?

· 3 phút để đọc
ManhPT
Just another developer!

MCP Architecture

Tóm tắt khái niệm về MCP theo bài viết từ Anthropic

Model Context Protocol (MCP) là một giao thức chuẩn mở được Anthropic giới thiệu vào ngày 26/11/2024, nhằm mục đích kết nối các mô hình ngôn ngữ lớn (LLM) với dữ liệu và công cụ bên ngoài một cách liền mạch. Dưới đây là khái niệm cốt lõi của MCP dựa trên bài viết: