So Sánh Chi Phí Model AI
⚠️ Giá có thể thay đổi — cập nhật tháng 3/2026. Luôn kiểm tra trang pricing chính thức của từng provider.
📊 Bảng So Sánh Giá Model
Giá tính theo 1 triệu token (≈ 750,000 từ tiếng Anh, ≈ 500,000 từ tiếng Việt).
| Model | Input /1M | Output /1M | Tốc độ | Chất lượng | Ghi chú |
|---|---|---|---|---|---|
| Claude Sonnet 4 | $3 | $15 | Nhanh | ⭐⭐⭐⭐⭐ | Khuyên dùng — code tốt nhất |
| Claude Haiku 4 | $0.25 | $1.25 | Rất nhanh | ⭐⭐⭐⭐ | Rẻ + nhanh, dùng cho heartbeat |
| GPT-4o | $2.50 | $10 | Nhanh | ⭐⭐⭐⭐ | Đa năng, hỗ trợ ảnh/âm thanh |
| GPT-4o mini | $0.15 | $0.60 | Rất nhanh | ⭐⭐⭐ | Rẻ nhất của OpenAI |
| Gemini 2.5 Pro | $1.25 | $5 | Trung bình | ⭐⭐⭐⭐ | Free tier có — context 1M token |
| Gemini 2.0 Flash | $0.075 | $0.30 | Nhanh | ⭐⭐⭐⭐ | Gần miễn phí — 1500 req/ngày free |
| DeepSeek V3 | $0.27 | $1.10 | Nhanh | ⭐⭐⭐ | Rẻ nhất có API — code khá tốt |
| Ollama (local) | $0 | $0 | Tùy GPU | ⭐⭐⭐ | Miễn phí 100% — cần GPU ≥8GB VRAM |
| Claude Max | $200/tháng | — | Nhanh | ⭐⭐⭐⭐⭐ | Không giới hạn token |
| OpenRouter | Tùy model | — | Tùy | Tùy | 1 API key = 100+ model |
📈 Ước Tính Chi Phí Theo Cách Dùng
Ước tính dựa trên trung bình ~5,000 token/tin nhắn (cả input + output).
| Cách dùng | Token/ngày | Claude Sonnet/tháng | DeepSeek/tháng | Gemini Flash/tháng |
|---|---|---|---|---|
| 💬 Chat nhẹ (10 tin/ngày) | ~50K | ~$2–3 | ~$0.50 | $0 (free tier) |
| 📝 Dùng bình thường (30 tin/ngày) | ~200K | ~$8–12 | ~$2 | $0 (free tier) |
| 🔥 Dùng nhiều (100+ tin/ngày) | ~1M+ | ~$40+ | ~$10 | ~$3–5 |
| 💓 Heartbeat mỗi 30 phút | ~100K | ~$3–5 | ~$1 | $0 (free tier) |
| 🤖 Cron job (5 job/ngày) | ~150K | ~$5–8 | ~$1.50 | ~$0.50 |
💡 Mẹo Tiết Kiệm — Giảm 80% Chi Phí
- 🎯 Heartbeat dùng model rẻ: Heartbeat chỉ cần tóm tắt ngắn — dùng Haiku ($0.25/M) hoặc Gemini Flash (free) thay vì Sonnet ($3/M).
- 🔀 Chia model theo tác vụ: Tác vụ đơn giản (tra cứu, dịch) → DeepSeek/Gemini. Tác vụ phức tạp (code, phân tích) → Claude/GPT.
- 📦 /compact: Khi context dài, gõ /compact để AI tóm tắt lại — giảm 60-80% token cho tin nhắn tiếp theo.
- 💾 cacheRetention: Bật prompt caching để tái sử dụng context — tiết kiệm 50% input token cho hội thoại dài.
- 🆓 Gemini Free Tier: 1,500 request/ngày miễn phí với Gemini 2.0 Flash — đủ cho hầu hết người dùng cá nhân.
- 🏠 Ollama = $0: Có GPU ≥8GB VRAM? Chạy Llama 3, Mistral, hoặc Qwen local — miễn phí hoàn toàn, dữ liệu không rời máy.
- 🔑 OpenRouter: 1 API key dùng 100+ model — dễ chuyển đổi giữa model rẻ/đắt tùy nhu cầu.
📋 Config Tiết Kiệm Mẫu
Config này dùng model rẻ cho heartbeat, model tốt cho chat chính — ước tính ~$3-5/tháng.
// ~/.openclaw/openclaw.json
{
models: {
primary: {
provider: "anthropic",
model: "claude-haiku-4", // Rẻ + nhanh cho chat thường
apiKey: "sk-ant-..."
},
fallback: {
provider: "google",
model: "gemini-2.0-flash", // Free tier backup
apiKey: "AIza..."
}
},
heartbeat: {
model: "gemini-2.0-flash", // Free tier cho heartbeat
intervalMinutes: 60, // 60 phút thay vì 30
scope: "digest" // Chỉ tóm tắt, không phân tích sâu
},
agent: {
cacheRetention: true, // Tái sử dụng prompt cache
maxContextTokens: 32000 // Giới hạn context để tiết kiệm
}
}🔑 Lấy API Key Ở Đâu?
Anthropic (Claude)
→ console.anthropic.com → API Keys → Create Key. Tặng $5 cho tài khoản mới.
OpenAI (GPT)
→ platform.openai.com → API Keys → Create new secret key.
Google (Gemini)
→ aistudio.google.com → Get API Key. Free tier cực lớn — 1,500 req/ngày.
OpenRouter (1 key = nhiều model)
→ openrouter.ai → Keys → Create Key. Truy cập 100+ model chỉ với 1 API key.
DeepSeek
→ platform.deepseek.com → API Keys → Create. Tặng 5 triệu token miễn phí.
