💰

So Sánh Chi Phí Model AI

Cơ Bản⏱ 5 phút đọc

⚠️ Giá có thể thay đổi — cập nhật tháng 3/2026. Luôn kiểm tra trang pricing chính thức của từng provider.

📊 Bảng So Sánh Giá Model

Giá tính theo 1 triệu token (≈ 750,000 từ tiếng Anh, ≈ 500,000 từ tiếng Việt).

Model	Input /1M	Output /1M	Tốc độ	Chất lượng	Ghi chú
Claude Sonnet 4	$3	$15	Nhanh	⭐⭐⭐⭐⭐	Khuyên dùng — code tốt nhất
Claude Haiku 4	$0.25	$1.25	Rất nhanh	⭐⭐⭐⭐	Rẻ + nhanh, dùng cho heartbeat
GPT-4o	$2.50	$10	Nhanh	⭐⭐⭐⭐	Đa năng, hỗ trợ ảnh/âm thanh
GPT-4o mini	$0.15	$0.60	Rất nhanh	⭐⭐⭐	Rẻ nhất của OpenAI
Gemini 2.5 Pro	$1.25	$5	Trung bình	⭐⭐⭐⭐	Free tier có — context 1M token
Gemini 2.0 Flash	$0.075	$0.30	Nhanh	⭐⭐⭐⭐	Gần miễn phí — 1500 req/ngày free
DeepSeek V3	$0.27	$1.10	Nhanh	⭐⭐⭐	Rẻ nhất có API — code khá tốt
Ollama (local)	$0	$0	Tùy GPU	⭐⭐⭐	Miễn phí 100% — cần GPU ≥8GB VRAM
Claude Max	$200/tháng	—	Nhanh	⭐⭐⭐⭐⭐	Không giới hạn token
OpenRouter	Tùy model	—	Tùy	Tùy	1 API key = 100+ model

📈 Ước Tính Chi Phí Theo Cách Dùng

Ước tính dựa trên trung bình ~5,000 token/tin nhắn (cả input + output).

Cách dùng	Token/ngày	Claude Sonnet/tháng	DeepSeek/tháng	Gemini Flash/tháng
💬 Chat nhẹ (10 tin/ngày)	~50K	~$2–3	~$0.50	$0 (free tier)
📝 Dùng bình thường (30 tin/ngày)	~200K	~$8–12	~$2	$0 (free tier)
🔥 Dùng nhiều (100+ tin/ngày)	~1M+	~$40+	~$10	~$3–5
💓 Heartbeat mỗi 30 phút	~100K	~$3–5	~$1	$0 (free tier)
🤖 Cron job (5 job/ngày)	~150K	~$5–8	~$1.50	~$0.50

💡 Mẹo Tiết Kiệm — Giảm 80% Chi Phí

🎯 Heartbeat dùng model rẻ: Heartbeat chỉ cần tóm tắt ngắn — dùng Haiku ($0.25/M) hoặc Gemini Flash (free) thay vì Sonnet ($3/M).
🔀 Chia model theo tác vụ: Tác vụ đơn giản (tra cứu, dịch) → DeepSeek/Gemini. Tác vụ phức tạp (code, phân tích) → Claude/GPT.
📦 /compact: Khi context dài, gõ /compact để AI tóm tắt lại — giảm 60-80% token cho tin nhắn tiếp theo.
💾 cacheRetention: Bật prompt caching để tái sử dụng context — tiết kiệm 50% input token cho hội thoại dài.
🆓 Gemini Free Tier: 1,500 request/ngày miễn phí với Gemini 2.0 Flash — đủ cho hầu hết người dùng cá nhân.
🏠 Ollama = $0: Có GPU ≥8GB VRAM? Chạy Llama 3, Mistral, hoặc Qwen local — miễn phí hoàn toàn, dữ liệu không rời máy.
🔑 OpenRouter: 1 API key dùng 100+ model — dễ chuyển đổi giữa model rẻ/đắt tùy nhu cầu.

📋 Config Tiết Kiệm Mẫu

Config này dùng model rẻ cho heartbeat, model tốt cho chat chính — ước tính ~$3-5/tháng.

Config tiết kiệm — JSON5

// ~/.openclaw/openclaw.json
{
  models: {
    primary: {
      provider: "anthropic",
      model: "claude-haiku-4",     // Rẻ + nhanh cho chat thường
      apiKey: "sk-ant-..."
    },
    fallback: {
      provider: "google",
      model: "gemini-2.0-flash",   // Free tier backup
      apiKey: "AIza..."
    }
  },
  heartbeat: {
    model: "gemini-2.0-flash",     // Free tier cho heartbeat
    intervalMinutes: 60,           // 60 phút thay vì 30
    scope: "digest"                // Chỉ tóm tắt, không phân tích sâu
  },
  agent: {
    cacheRetention: true,          // Tái sử dụng prompt cache
    maxContextTokens: 32000        // Giới hạn context để tiết kiệm
  }
}