5 bài viết được gắn thẻ "Gemini"

Gemini là dòng mô hình ngôn ngữ lớn của Google DeepMind, bao gồm các biến thể Flash, Pro và Ultra với khả năng đa phương thức.

Xem tất cả thẻ

Google Antigravity 2.0: Từ IDE đơn lẻ thành nền tảng agent-first toàn diện

20 tháng 5, 2026 · 11 phút để đọc

ManhPT

Just another developer!

Google vừa có một cú "lột xác" đáng gờm với Antigravity. Nếu phiên bản 1.0 ra mắt tháng 11/2025 chỉ là một IDE hỗ trợ viết mã bằng AI, thì Antigravity 2.0 là cả một hệ sinh thái phát triển xoay quanh điều phối đa tác nhân (multi-agent orchestration). Đây không còn là một công cụ — mà là một nền tảng.

Điều đáng chú ý: Google đã dùng chính Antigravity để đồng phát triển Gemini 3.5 Flash — mô hình mặc định của nền tảng này. "Ăn cơm nhà nấu" ở cấp độ cao nhất.

Gemini Hết Thời 'Ngon Bổ Rẻ': Trung Quốc Đang Thắng Cuộc Đua AI Mở Và Cuộc Cạnh Tranh Ngầm Giữa Các Quốc Gia

28 tháng 4, 2026 · 20 phút để đọc

ManhPT

Just another developer!

Tóm tắt — Tháng 4/2026 đánh dấu một bước ngoặt lớn trong làng AI. Google chính thức khai tử gói miễn phí Gemini Pro, siết chặt hạn ngạch Flash, và áp trần chi tiêu bắt buộc — chấm dứt kỷ nguyên "ngon bổ rẻ" từng khiến Gemini trở thành lựa chọn số một cho lập trình viên. Cùng lúc đó, chỉ 23 ngày sau, DeepSeek tung ra V4 với open-weight, giấy phép MIT, benchmark sát Opus 4.7, giá chỉ bằng 1/6. Bài viết này phân tích vì sao đây không chỉ là câu chuyện về giá cả — mà là một cuộc chiến địa chính trị ngầm, nơi mã nguồn mở được dùng như vũ khí chiến lược, và Trung Quốc đang dần chiếm ưu thế.

Benchmark No Streaming + No Thinking: JSON vs QP-Lines (Gemini + Qwen)

15 tháng 3, 2026 · 8 phút để đọc

ManhPT

Just another developer!

Bài benchmark trước dùng JSON array cho structured output nhưng chưa đo tác động của format lên TTLT. Bài này tách riêng một điều kiện chuẩn hóa — no streaming + no thinking + explicit cache — rồi so sánh JSON array vs QP-Lines trên cả Gemini và Qwen để trả lời câu hỏi: format nào nhanh hơn và ổn định hơn cho pipeline query breaking?

Tham chiếu bài trước: Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT.

Context Cache trong LLM: Prefix Cache vs KV Cache, Implicit vs Explicit - Phân Tích Claude, Gemini, GPT, Qwen3.5

15 tháng 3, 2026 · 9 phút để đọc

ManhPT

Just another developer!

Context cache (còn gọi là prefix cache hoặc KV cache) là kỹ thuật tối ưu quan trọng trong các LLM API hiện đại, giúp giảm latency và cost khi xử lý các request có phần context lặp lại. Bài viết này phân tích sâu kiến trúc cache của 4 model LLM hàng đầu (Claude, Gemini, GPT, Qwen3.5), so sánh implicit vs explicit cache, và đặc biệt tập trung vào trade-off giữa TTFT (Time-To-First-Token) và TTLT (Time-To-Last-Token) - vấn đề then chốt trong optimization thực tế.

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

13 tháng 3, 2026 · 12 phút để đọc

ManhPT

Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.