Chuyển tới nội dung chính

10 bài viết được gắn thẻ "Tiếng Việt"

Nội dung và benchmark liên quan đến xử lý ngôn ngữ tiếng Việt với các mô hình AI.

Xem tất cả thẻ

AI Trung Quốc miễn phí 100%: Chiến lược "vũ khí hóa" sự hào phóng?

· 9 phút để đọc
ManhPT
Just another developer!

Khi ChatGPT Plus lên $200/tháng, DeepSeek và Qwen vẫn không có nút trả tiền. Mở kho ứng dụng, bạn thấy ChatGPT với nút Nâng cấp lên Plus ngay màn hình chính. Claude tương tự: $20/tháng cho gói Pro. Google Gemini Advanced: $19.99/tháng.

Còn DeepSeek và Qwen? Không có nút nào hết. Không thuê bao, không tường phí, không gói cao cấp. Mọi tính năng đều miễn phí, kể cả model mới nhất.

Câu hỏi hiển nhiên: tiền đâu mà họ tồn tại? Và quan trọng hơn: đây có phải là một nước cờ địa chính trị được tính toán kỹ lưỡng?

Cảm Giác Dùng DeepSeek V4 Với OpenClaw: Rẻ Đến Mức Thấy… Có Lỗi

· 9 phút để đọc
ManhPT
Just another developer!

Tóm tắt — Tôi đã chuyển OpenClaw sang dùng DeepSeek V4 được vài ngày. Cảm giác đầu tiên: "hình như billing bị lỗi". Kiểm tra kỹ thì hóa ra không — DeepSeek thực sự rẻ đến mức đó. Bài viết này chia sẻ trải nghiệm thực tế, phân tích bảng giá chính thức (cập nhật 29/4/2026), cơ chế disk cache tự động giúp giảm thêm 80-90% chi phí input, và so sánh cụ thể với GPT-5.5 lẫn Claude Opus.

Gemini Hết Thời 'Ngon Bổ Rẻ': Trung Quốc Đang Thắng Cuộc Đua AI Mở Và Cuộc Cạnh Tranh Ngầm Giữa Các Quốc Gia

· 20 phút để đọc
ManhPT
Just another developer!

Tóm tắt — Tháng 4/2026 đánh dấu một bước ngoặt lớn trong làng AI. Google chính thức khai tử gói miễn phí Gemini Pro, siết chặt hạn ngạch Flash, và áp trần chi tiêu bắt buộc — chấm dứt kỷ nguyên "ngon bổ rẻ" từng khiến Gemini trở thành lựa chọn số một cho lập trình viên. Cùng lúc đó, chỉ 23 ngày sau, DeepSeek tung ra V4 với open-weight, giấy phép MIT, benchmark sát Opus 4.7, giá chỉ bằng 1/6. Bài viết này phân tích vì sao đây không chỉ là câu chuyện về giá cả — mà là một cuộc chiến địa chính trị ngầm, nơi mã nguồn mở được dùng như vũ khí chiến lược, và Trung Quốc đang dần chiếm ưu thế.

vLLM vs Hugging Face TEI cho embedding và rerank: nếu chỉ xét performance thì chọn gì?

· 12 phút để đọc
ManhPT
Just another developer!

Nếu đang dựng một stack RAG hoặc semantic search, câu hỏi thực tế không còn là “có chạy được embedding không”, mà là: nếu embedding và rerank là workload chuyên biệt, cái nào cho profile performance hợp lý hơn để đưa vào production. Hai cái tên thường được đưa lên bàn cân là vLLMHugging Face Text Embeddings Inference (TEI).

Điểm quan trọng là cả hai đều đã hỗ trợ embedding và rerank. Nhưng nếu đọc kỹ docs chính thức, có thể thấy chúng không tối ưu cho cùng một mục tiêu. TEI được định vị theo hướng service chuyên cho embedding/rerank, còn vLLM được định vị theo hướng inference runtime hợp nhất. Chính khác biệt đó là thứ đáng dùng để ra quyết định kiến trúc.

OpenClaw tự host gặp cửa sổ rủi ro từ Axios: lúc này cần kiểm tra forensic ngay

· 9 phút để đọc
ManhPT
Just another developer!

Nếu bạn đang chạy OpenClaw theo kiểu tự host và có bật auto-update hoặc một cơ chế cập nhật định kỳ tương tự, bạn nên kiểm tra máy ngay lập tức.

Bài này không khẳng định official openclaw package đã được công khai xác nhận là độc hại. Điểm cần quan tâm là khác: trong cửa sổ sự cố Axios compromise cuối tháng 3/2026, các hệ thống tự động cập nhật dependency có thể đã kéo phải package độc hại trong chuỗi phụ thuộc. Với một agent stack giữ nhiều secret và integration, đó là tình huống cần điều tra theo hướng forensic chứ không nên nhìn current state rồi kết luận vội.

Khi Agent Không Tuân Thủ SOUL.md: Sự Thất Vọng Thực Tế Với OpenClaw

· 10 phút để đọc
ManhPT
Just another developer!

Tôi đã xây dựng SOUL.md — một file định nghĩa "tâm hồn" của AI agent — với hy vọng nó sẽ là bộ quy tắc bất biến. Nhưng thực tế vận hành hệ thống OpenClaw + Claude Code mỗi ngày đã cho thấy một sự thật khác: agents đọc SOUL.md, nhưng không phải lúc nào cũng tuân theo nó.

Bài viết này là ghi chép thực tế — không phải lý thuyết — về những lần tôi thất vọng nhất với hệ thống AI agent cá nhân của mình.

Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

· 5 phút để đọc
ManhPT
Just another developer!

Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG là một paper survey khá đầy đủ cho ai đang chuyển từ RAG tuyến tính sang các hệ RAG có tính tự chủ cao hơn (agentic). Bài này không giới thiệu một mô hình mới, mà hệ thống hóa lại bức tranh tổng quan: kiến trúc, workflow pattern, framework triển khai, benchmark và những thách thức còn mở.

Benchmark No Streaming + No Thinking: JSON vs QP-Lines (Gemini + Qwen)

· 8 phút để đọc
ManhPT
Just another developer!

Bài benchmark trước dùng JSON array cho structured output nhưng chưa đo tác động của format lên TTLT. Bài này tách riêng một điều kiện chuẩn hóa — no streaming + no thinking + explicit cache — rồi so sánh JSON array vs QP-Lines trên cả GeminiQwen để trả lời câu hỏi: format nào nhanh hơn và ổn định hơn cho pipeline query breaking?

Tham chiếu bài trước: Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT.

Context Cache trong LLM: Prefix Cache vs KV Cache, Implicit vs Explicit - Phân Tích Claude, Gemini, GPT, Qwen3.5

· 9 phút để đọc
ManhPT
Just another developer!

Context cache (còn gọi là prefix cache hoặc KV cache) là kỹ thuật tối ưu quan trọng trong các LLM API hiện đại, giúp giảm latency và cost khi xử lý các request có phần context lặp lại. Bài viết này phân tích sâu kiến trúc cache của 4 model LLM hàng đầu (Claude, Gemini, GPT, Qwen3.5), so sánh implicit vs explicit cache, và đặc biệt tập trung vào trade-off giữa TTFT (Time-To-First-Token)TTLT (Time-To-Last-Token) - vấn đề then chốt trong optimization thực tế.

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

· 12 phút để đọc
ManhPT
Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-FlashGemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.