Chuyển tới nội dung chính

3 bài viết được gắn thẻ "Cost Optimization"

Cost Optimization là quá trình tối ưu hóa chi phí trong việc sử dụng các dịch vụ AI và cloud computing để đạt hiệu quả cao nhất với chi phí thấp nhất.

Xem tất cả thẻ

Benchmark No Streaming + No Thinking: JSON vs QP-Lines (Gemini + Qwen)

· 8 phút để đọc
ManhPT
Just another developer!

Bài benchmark trước dùng JSON array cho structured output nhưng chưa đo tác động của format lên TTLT. Bài này tách riêng một điều kiện chuẩn hóa — no streaming + no thinking + explicit cache — rồi so sánh JSON array vs QP-Lines trên cả GeminiQwen để trả lời câu hỏi: format nào nhanh hơn và ổn định hơn cho pipeline query breaking?

Tham chiếu bài trước: Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT.

Implicit Cache vs Explicit Cache: Qwen3.5-Flash và Gemini-3.1-Flash-Lite-Preview — Đo Thực Tế TTLT

· 12 phút để đọc
ManhPT
Just another developer!

Trong pipeline RAG, bước "query breaking" — phân tách câu hỏi phức hợp thành các sub-query độc lập — là bottleneck đầu tiên trước khi có thể fan-out sang vector database. Metric quan trọng nhất không phải TTFT (first token) mà là TTLT (time-to-last-token): pipeline chỉ có thể gọi json.loads() và bắt đầu retrieval khi nhận đủ toàn bộ JSON array. Bài viết này là báo cáo benchmark thực tế, chạy script đo TTLT và TTFT cho Qwen3.5-FlashGemini-3.1-Flash-Lite-Preview với 3 kịch bản caching.

OpenClaw + Claude Code: Kiến Trúc Hybrid AI Cá Nhân Tối Ưu Chi Phí

· 12 phút để đọc
ManhPT
Just another developer!

Bài toán chi phí AI cá nhân: Làm thế nào để có trợ lý AI mạnh mẽ mà không tốn hàng trăm đô mỗi tháng? Giải pháp: Kết hợp OpenClaw (orchestrator chạy DeepSeek giá rẻ) với Claude Code (chuyên gia kỹ thuật flat rate $20/tháng).