9router/gitbook/content/vi/features/smart-routing.md
2026-05-11 11:50:24 +07:00

9.1 KiB

Smart Routing & Auto Fallback

9Router tự động định tuyến request qua provider tốt nhất hiện có bằng hệ thống fallback 3 tầng. Không bao giờ ngừng code vì giới hạn quota hay rate limiting.


Cách hoạt động

9Router dùng định tuyến thông minh để tối đa hóa subscription hiện có, giảm chi phí và đảm bảo khả dụng 24/7:

Request → 9Router → Check Tier 1 (Subscription)
                     ↓ quota exhausted
                     Check Tier 2 (Cheap)
                     ↓ budget limit
                     Check Tier 3 (Free)
                     ↓
                     Response

Hệ thống Fallback 3 tầng

Tier 1: SUBSCRIPTION (Chính)

  • Claude Code (Pro/Max)
  • OpenAI Codex (Plus/Pro)
  • Gemini CLI (MIỄN PHÍ 180K/tháng)
  • GitHub Copilot
  • Antigravity (Google)

Mục tiêu: Tối đa giá trị từ subscription đã trả tiền.

Tier 2: CHEAP (Backup)

  • GLM-4.7 ($0.60/1M input)
  • MiniMax M2.1 ($0.20/1M input)
  • Kimi K2 ($9/tháng cố định)

Mục tiêu: Backup siêu rẻ khi hết quota subscription (~90% rẻ hơn ChatGPT API).

Tier 3: FREE (Khẩn cấp)

  • iFlow (8 models)
  • Qwen (3 models)
  • Kiro (Claude MIỄN PHÍ)

Mục tiêu: Fallback chi phí 0 để code không giới hạn.


Chuyển đổi Tự động

9Router giám sát quota thời gian thực và chuyển provider tự động:

Kịch bản 1: Hết Quota Subscription

User request → cc/claude-opus-4-5
               ↓ quota exhausted (5-hour limit reached)
               Auto switch → glm/glm-4.7
               ↓ daily quota exhausted
               Auto switch → minimax/MiniMax-M2.1
               ↓ 5-hour quota exhausted
               Auto switch → if/kimi-k2-thinking (FREE)
               ↓
               Response delivered ✅

Kết quả: Zero downtime, trải nghiệm liền mạch.

Kịch bản 2: Rate Limiting

User request → cx/gpt-5.2-codex
               ↓ rate limited (too many requests)
               Auto switch → glm/glm-4.7
               ↓
               Response delivered ✅

Kịch bản 3: Provider không khả dụng

User request → cc/claude-opus-4-5
               ↓ provider error (503)
               Auto switch → next available model
               ↓
               Response delivered ✅

Logic chọn Model

9Router chọn model tốt nhất dựa trên:

  1. Khả dụng quota - Kiểm tra provider còn quota không
  2. Tier chi phí - Ưu tiên subscription → cheap → free
  3. Thời gian reset - Cân nhắc khi quota reset
  4. Sức khỏe provider - Bỏ qua provider có lỗi

Ví dụ Thứ tự Ưu tiên

Cho request đến cc/claude-opus-4-5:

1. Check Claude Code quota
   ✅ Available → Use cc/claude-opus-4-5
   ❌ Exhausted → Continue to step 2

2. Check fallback tier (if configured)
   ✅ GLM quota available → Use glm/glm-4.7
   ❌ Exhausted → Continue to step 3

3. Check free tier
   ✅ iFlow available → Use if/kimi-k2-thinking
   ❌ All exhausted → Return quota error

Tùy chọn Cấu hình

Cài đặt Dashboard

1. Bật/Tắt Auto Fallback

Dashboard → Settings → Smart Routing
→ Toggle "Auto Fallback" ON/OFF
  • ON (mặc định): Chuyển tier tự động
  • OFF: Strict mode, trả lỗi nếu model chính không khả dụng

2. Đặt Giới hạn Ngân sách

Dashboard → Settings → Budget Control
→ Daily limit: $5
→ Monthly limit: $50

Khi đạt ngân sách, 9Router tự động chuyển sang free tier.

3. Cấu hình Thứ tự Fallback

Dashboard → Settings → Fallback Priority
→ Drag to reorder providers within each tier

Ví dụ thứ tự tùy chỉnh:

Tier 1: Gemini CLI → Claude Code → Codex
Tier 2: MiniMax → GLM → Kimi
Tier 3: iFlow → Kiro → Qwen

4. Thông báo Reset Quota

Dashboard → Settings → Notifications
→ Email when quota resets
→ Alert when 80% quota used

Ví dụ

Ví dụ 1: Auto Fallback Cơ bản

Setup:

Model: cc/claude-opus-4-5-20251101
Fallback: Auto (default 3-tier)

Hoạt động:

Morning (fresh quota):
  Request → cc/claude-opus-4-5 ✅

Afternoon (quota exhausted):
  Request → glm/glm-4.7 ✅ (auto switched)

Evening (GLM quota out):
  Request → minimax/MiniMax-M2.1 ✅ (auto switched)

Late night (all paid quota out):
  Request → if/kimi-k2-thinking ✅ (free tier)

Chi phí: ~$5-10/tháng extra (chủ yếu được bao bởi subscription).

Ví dụ 2: Định tuyến theo Ngân sách

Setup:

Dashboard → Settings:
  Daily budget: $2
  Monthly budget: $20
  Fallback: Enabled

Hoạt động:

Day 1-15 (within budget):
  Requests → glm/glm-4.7 (cheap tier)
  Cost: $1.50/day

Day 16 (budget reached):
  Requests → if/kimi-k2-thinking (free tier)
  Cost: $0

Next month (budget resets):
  Requests → glm/glm-4.7 again

Kết quả: Không bao giờ vượt $20/tháng, luôn khả dụng.

Ví dụ 3: Chế độ Chỉ Subscription

Setup:

Dashboard → Settings:
  Auto Fallback: OFF
  Strict mode: ON

Hoạt động:

Request → cc/claude-opus-4-5
  ✅ Quota available → Success
  ❌ Quota exhausted → Return error (no fallback)

Use case: Khi chỉ muốn dùng subscription trả phí, không phí thêm.

Ví dụ 4: Chế độ Chỉ Free

Setup:

Model: if/kimi-k2-thinking
Fallback: qw/qwen3-coder-plus → kr/claude-sonnet-4.5

Hoạt động:

All requests → Free tier only
Cost: $0 forever

Use case: Dự án cá nhân, học tập, thử nghiệm.


Best Practices

1. Tối đa Giá trị Subscription

Strategy:
- Set subscription models as Tier 1
- Monitor quota usage in dashboard
- Use cheap tier only when subscription exhausted

Ví dụ combo:

cc/claude-opus-4-5 → glm/glm-4.7 → if/kimi-k2-thinking

2. Tối ưu Chi phí

Strategy:
- Use Gemini CLI free tier first (180K/month)
- Fallback to GLM/MiniMax (ultra-cheap)
- Emergency: iFlow (free)

Ví dụ combo:

gc/gemini-3-flash-preview → glm/glm-4.7 → if/kimi-k2-thinking

3. Tối ưu Chất lượng

Strategy:
- Use best models (Claude Opus, GPT-5.2)
- Fallback to good cheap models (GLM-4.7)
- Last resort: Free tier

Ví dụ combo:

cc/claude-opus-4-5 → cx/gpt-5.2-codex → glm/glm-4.7

4. Khả dụng 24/7

Strategy:
- Always include free tier in fallback
- Monitor quota reset times
- Distribute usage across providers

Ví dụ combo:

cc/claude-opus-4-5 → glm/glm-4.7 → minimax/MiniMax-M2.1 → if/kimi-k2-thinking

Kết quả: Không bao giờ hết quota, code mọi lúc.


Chiến lược Reset Quota

Lên kế hoạch usage quanh thời gian reset quota:

Provider Quota Reset Chiến lược
Claude Code 5 giờ + hàng tuần Dùng buổi sáng, quota mới
Codex 5 giờ + hàng tuần Dùng sau khi hết quota Claude
Gemini CLI Hàng ngày (1K) + Hàng tháng (180K) Dùng cả ngày
GLM-4.7 Hàng ngày 10:00 AM Dùng buổi tối, reset sáng hôm sau
MiniMax M2.1 5 giờ rolling Dùng mọi lúc, theo rolling window
iFlow/Qwen/Kiro Không giới hạn Backup khẩn cấp

Ví dụ lịch hàng ngày:

08:00 - 13:00: Claude Code (fresh 5h quota)
13:00 - 18:00: Gemini CLI (1K/day quota)
18:00 - 22:00: GLM-4.7 (cheap, resets 10AM)
22:00 - 08:00: MiniMax or iFlow (5h rolling or free)

Giám sát & Cảnh báo

Dashboard Quota Tracker

Dashboard → Quota Overview:
  Claude Code: 2.5h / 5h remaining (50%)
  Gemini CLI: 450 / 1000 requests today
  GLM-4.7: 5M / 10M tokens (resets in 8h)
  MiniMax: 3M / 5M tokens (rolling 5h)

Thông báo Thời gian thực

Dashboard → Notifications:
  ⚠️ Claude Code quota 80% used (1h remaining)
  ✅ GLM-4.7 quota reset (10M tokens available)
  💰 Daily budget 50% used ($2.50 / $5)

Usage Analytics

Dashboard → Analytics:
  Today: 50M tokens
    - 30M via Claude Code (subscription)
    - 15M via GLM-4.7 ($9)
    - 5M via iFlow (free)
  
  Cost: $9 (vs $1000 on ChatGPT API)
  Savings: 99%

Troubleshooting

Issue: "All providers quota exhausted"

Giải pháp:

  1. Kiểm tra quota tracker trong dashboard
  2. Đợi quota reset (xem countdown)
  3. Thêm free tier vào fallback chain
  4. Hoặc tăng giới hạn ngân sách

Issue: "Too many fallback switches"

Giải pháp:

  1. Kiểm tra provider chính có down không
  2. Tăng giới hạn quota (upgrade subscription)
  3. Dùng model chính rẻ hơn (GLM thay vì Claude)

Issue: "Unexpected costs"

Giải pháp:

  1. Dashboard → Analytics → Xem usage
  2. Đặt giới hạn ngân sách hàng ngày/tháng
  3. Chuyển sang free tier cho task không quan trọng
  4. Dùng combo với free fallback

Liên quan