Chuyển tới nội dung chính

Cảm Giác Dùng DeepSeek V4 Với OpenClaw: Rẻ Đến Mức Thấy… Có Lỗi

· 9 phút để đọc
ManhPT
Just another developer!

Tóm tắt — Tôi đã chuyển OpenClaw sang dùng DeepSeek V4 được vài ngày. Cảm giác đầu tiên: "hình như billing bị lỗi". Kiểm tra kỹ thì hóa ra không — DeepSeek thực sự rẻ đến mức đó. Bài viết này chia sẻ trải nghiệm thực tế, phân tích bảng giá chính thức (cập nhật 29/4/2026), cơ chế disk cache tự động giúp giảm thêm 80-90% chi phí input, và so sánh cụ thể với GPT-5.5 lẫn Claude Opus.

Từ Gemini Khủng Hoảng Đến DeepSeek Cứu Tinh

Tôi là một người dùng nặng của OpenClaw — AI agent chạy 24/7, xử lý mọi thứ từ code review, viết blog, đến tự động hóa công việc hàng ngày. Mỗi ngày tiêu thụ vài trăm nghìn đến cả triệu token.

Trước đây tôi dùng Gemini làm model chính. Lý do đơn giản: gói miễn phí quá hào phóng. Pro miễn phí, Flash 250 request/ngày, context 1M token. Mọi thứ quá "ngon bổ rẻ".

Rồi tháng 4/2026 đến. Google đóng sập mọi thứ. Pro hết miễn phí. Flash còn 20-50 request/ngày. Trần chi tiêu $250 bắt buộc. Tôi đã viết hẳn một bài phân tích dài về chuyện này.

Đúng lúc đó, 24/4/2026, DeepSeek tung V4. Open-weight. MIT license. 1M context. Benchmark sát Opus 4.7. Và cái giá khiến tôi phải kiểm tra đi kiểm tra lại vì tưởng mình đọc nhầm số 0.

Sau 5 ngày dùng thực tế, đây là những gì tôi thấy.

Bảng Giá Khiến Dân Kỹ Thuật Phải Dừng Lại Xem Lại

Tôi vào thẳng trang pricing chính thức của DeepSeek để kiểm tra. Đây là con số ngày 29/4/2026:

ModelInput (cache miss)Input (cache hit)OutputContext
V4-Flash$0.14 / 1M$0.0028 / 1M$0.28 / 1M1M
V4-Pro$0.435 / 1M$0.003625 / 1M$0.87 / 1M1M

V4-Pro đang có khuyến mại 75%, kéo dài đến 31/5/2026. Sau đó giá về mức: $1.74 / $0.0145 / $3.48 — vẫn rẻ hơn GPT-5.5 từ 3-10 lần.

Điểm đáng chú ý nhất: cache hit đã được giảm xuống còn 1/10 so với giá ra mắt, có hiệu lực từ 26/4/2026. Điều này có nghĩa là:

  • V4-Flash cache hit: từ $0.028 → $0.0028/M (rẻ hơn 90%)
  • V4-Pro cache hit: từ $0.145 → $0.0145/M (sau đó còn $0.003625/M với khuyến mại)

Để dễ hình dung: 1 triệu token input cache-hit trên V4-Flash có giá… $0.0028. Hai tám phần mười nghìn đô-la. Một cuốn tiểu thuyết ~100K token, bạn gửi đi gửi lại 10 lần — tổng chi phí input chưa đến nửa xu.

Context Caching: "Con Bài" Tiết Kiệm Lớn Nhất

DeepSeek dùng disk cache tự động (Context Caching on Disk), không cần code thêm gì. Cơ chế hoạt động:

  1. Mỗi request tạo ra các "cache prefix unit" được lưu xuống ổ cứng
  2. Request sau nếu có prefix trùng khớp hoàn toàn → tính giá cache hit
  3. Prefix phải trùng khớp toàn bộ một cache unit (không phải khớp một phần)

Điều này đặc biệt hiệu quả với AI agent như OpenClaw, nơi system prompt, tool definitions, và context nền gần như không đổi giữa các lượt.

Ví dụ thực tế: Một ngày làm việc với OpenClaw

Giả sử một ngày tôi chat với OpenClaw 50 lượt, mỗi lượt:

  • System prompt + tool schemas: ~10,000 token (không đổi)
  • Context hội thoại: ~10,000 token (thay đổi mỗi lượt)
  • Output trung bình: ~1,000 token

Dùng DeepSeek V4-Pro (giá khuyến mại hiện tại):

Thành phầnCách tínhChi phí
Lượt 1 - input (cache miss toàn bộ)20K × $0.435/M$0.0087
49 lượt sau - cache hit system prompt49 × 10K × $0.003625/M$0.0018
49 lượt sau - cache miss hội thoại49 × 10K × $0.435/M$0.2132
Output 50 lượt50 × 1K × $0.87/M$0.0435
Tổng$0.27

Dùng GPT-5.5 (có cache):

Thành phầnCách tínhChi phí
Input 50 lượt (cache miss toàn bộ)50 × 20K × $5/M$5.00
Output 50 lượt50 × 1K × $30/M$1.50
Tổng$6.50

Một ngày dùng OpenClaw: $0.27 với DeepSeek V4-Pro, $6.50 với GPT-5.5. Chênh lệch 24 lần.

Nếu dùng V4-Flash thay vì V4-Pro? Còn rẻ hơn nữa: khoảng $0.08 cho cả ngày.

So Sánh Với Các Đối Thủ: Cuộc Chiến Không Cân Sức

Đây là bảng so sánh chi tiết (giá $/1M token):

ModelInputInput (cached)OutputSWE-bench
DeepSeek V4-Flash$0.14$0.0028$0.28
DeepSeek V4-Pro$0.435$0.003625$0.8780.6%
DeepSeek V4-Pro (sau KM)$1.74$0.0145$3.4880.6%
GPT-5.5$5.00$1.25$30.0074.2%
Claude Opus 4.6$15.00$1.50$75.00~80%
Gemini 2.5 Pro$1.25$10.00

Vài con số biết nói:

  • V4-Pro output rẻ hơn GPT-5.5: 34 lần ($0.87 vs $30)
  • V4-Pro output rẻ hơn Claude Opus: 86 lần ($0.87 vs $75)
  • V4-Flash cache-hit input rẻ hơn GPT-5.5 cache-hit: 446 lần ($0.0028 vs $1.25)
  • V4-Pro đạt 80.6% SWE-bench, GPT-5.5 đạt 74.2% — rẻ hơn 34 lần nhưng mạnh hơn

Ngay cả khi hết khuyến mại 75%, V4-Pro vẫn rẻ hơn GPT-5.5 gấp 3 lần input và gần 9 lần output.

OpenClaw + DeepSeek V4: Tích Hợp Chuẩn Chỉ Trong 5 Phút

Một trong những lý do tôi chọn DeepSeek là OpenClaw đã có built-in provider cho DeepSeek V4.

Setup chỉ đơn giản là:

# Lấy API key từ https://platform.deepseek.com/api_keys
openclaw onboard --auth-choice deepseek-api-key

OpenClaw tự động set deepseek/deepseek-v4-flash làm model mặc định. Muốn dùng Pro:

{
agents: {
defaults: {
model: { primary: "deepseek/deepseek-v4-pro" }
}
}
}

Mấy điểm tôi đánh giá cao về tích hợp này:

1. Thinking mode hoạt động mượt

DeepSeek V4 hỗ trợ thinking mode (lý luận ẩn). OpenClaw xử lý toàn bộ việc replay reasoning_content giữa các lượt tool call — thứ mà nếu tự implement qua API thô sẽ khá đau đầu. Bạn chỉ cần /think medium là xong.

2. Tool calling chuẩn OpenAI-compatible

Không cần thay đổi gì về code. Tất cả tool call, multi-turn conversation, streaming đều hoạt động như với OpenAI.

3. Context 1M token — tha hồ nhồi

Với 1M token context (cả Flash lẫn Pro), tôi có thể nhồi cả codebase, toàn bộ tài liệu dự án, và lịch sử hội thoại dài vào context mà không lo tràn. So với Claude Opus 200K hay GPT-5.5 256K, đây là lợi thế cực lớn cho agent work.

DeepSeek thậm chí còn công bố "đã tích hợp liền mạch với các AI agent hàng đầu như Claude Code, OpenClaw & OpenCode" và chính họ cũng đang dùng V4 cho agentic coding nội bộ.

Cảm Giác Thực: "Có Nhầm Không Đấy?"

Sau 5 ngày dùng, kiểm tra billing trên DeepSeek Platform:

  • Tổng token đã dùng: ~1.2M input, ~80K output
  • Tổng chi phí: khoảng $0.15
  • Cache hit rate: ~60% (system prompt + tool schemas được cache)

$0.15 cho 5 ngày dùng OpenClaw với model Pro.

Cùng workload đó trên GPT-5.5 sẽ tốn khoảng $8-9. Trên Claude Opus 4.6 sẽ là $20-25.

Cảm giác đầu tiên của tôi thực sự là: "Chắc billing bị lỗi". Tôi phải vào kiểm tra lại trang pricing, đọc kỹ từng footnote, xác nhận với API response (có trường prompt_cache_hit_tokensprompt_cache_miss_tokens trong phần usage) thì mới tin.

Nó rẻ đến mức tôi bắt đầu thấy… có lỗi. Như kiểu đang lấy đồ miễn phí vậy.

Những Điều Cần Lưu Ý (Không Phải Màu Hồng Tất Cả)

Dù rẻ và mạnh, DeepSeek V4 không phải không có điểm yếu:

1. Thinking mode "ngốn" token

Khi bật thinking, model sinh thêm reasoning token — thường gấp 3-10 lần output bình thường. Những token này tính giá output. Với V4-Pro giá $0.87/M thì vẫn ổn, nhưng nếu không để ý, hóa đơn có thể tăng lên đáng kể.

Khuyến nghị: Chỉ bật thinking cho task phức tạp (debug, code review, lập kế hoạch). Tắt cho task đơn giản.

2. Long-context retrieval chưa bằng Claude

Claude Opus vẫn dẫn đầu về needle-in-a-haystack retrieval trong context dài. Nếu workload của bạn phụ thuộc vào việc tìm thông tin chính xác trong 500K+ token, Claude có thể đáng tiền hơn.

3. Cache không phải lúc nào cũng hit

Cache hit yêu cầu prefix trùng khớp hoàn toàn. Nếu bạn thay đổi system prompt, thêm bớt tool, hoặc prefix bị đẩy ra khỏi cache sau vài giờ/ngày không dùng — bạn sẽ phải trả giá cache miss. Cache hoạt động trên cơ chế "best-effort", không đảm bảo 100%.

4. Giá khuyến mại có hạn

75% off cho V4-Pro hết hạn 31/5/2026. Sau đó giá về $1.74/$0.0145/$3.48 — vẫn rẻ hơn đối thủ nhiều lần, nhưng không còn "phi lý" như hiện tại.

Lời Kết: Open-Weight Đang Định Nghĩa Lại Cuộc Chơi

Sử dụng DeepSeek V4 với OpenClaw cho tôi một góc nhìn rất rõ về tương lai của AI xét về mặt chi phí.

Khi một model open-weight với MIT license có benchmark ngang ngửa Opus 4.7 nhưng giá chỉ bằng 1/86 — đó không còn là cạnh tranh về giá nữa. Đó là sự thay đổi mô hình kinh doanh toàn ngành.

OpenAI và Anthropic đang bán "iPhone" — sản phẩm cao cấp, đắt tiền, hệ sinh thái đóng. DeepSeek và Qwen đang bán "Android" — mở, rẻ, để cộng đồng xây dựng phần còn lại.

Với một người dùng agent hàng ngày như tôi, $0.27/ngày cho V4-Pro so với $6.50/ngày cho GPT-5.5 không phải là chuyện "tiết kiệm một chút". Nó là khác biệt giữa "dùng miễn phí""phải cân nhắc mỗi lần gọi".

Nếu bạn đang dùng OpenClaw và chưa thử DeepSeek V4: hãy thử. Chuẩn bị tinh thần kiểm tra lại billing và tự hỏi "liệu có nhầm không" — giống tôi.


Tài liệu tham khảo: