marketing-shibata50/9router

Fork 0

decolua fd92af77a0 Feat : Gitbook

2026-05-11 11:50:24 +07:00

8 KiB

Raw Blame History

智能路由 & 自动回退

9Router 通过 3 层回退系统,自动将你的请求路由到最佳可用提供商。绝不再因配额限制或速率限制而中断编码。

工作原理

9Router 使用智能路由,最大化已有订阅价值、最小化成本,并保障 24/7 可用:

请求 → 9Router → 检查第 1 层 (订阅)
                     ↓ 配额耗尽
                     检查第 2 层 (低价)
                     ↓ 预算上限
                     检查第 3 层 (免费)
                     ↓
                     响应

3 层回退系统

第 1 层:订阅(主力)

Claude Code(Pro/Max)
OpenAI Codex(Plus/Pro)
Gemini CLI(每月免费 180K)
GitHub Copilot
Antigravity(Google)

目标:充分挖掘你已付费订阅的价值。

第 2 层:低价(备用)

GLM-4.7(输入每 1M $0.60)
MiniMax M2.1(输入每 1M $0.20)
Kimi K2($9/月固定)

目标:订阅配额用完后的超低价备用(比 ChatGPT API 便宜 ~90%)。

第 3 层:免费(应急)

iFlow(8 个模型)
Qwen(3 个模型)
Kiro(Claude 免费)

目标:零成本回退,实现无限编码。

自动切换

9Router 实时监控配额,自动切换提供商:

场景 1:订阅配额耗尽

用户请求 → cc/claude-opus-4-5
           ↓ 配额耗尽(达到 5 小时限制)
           自动切换 → glm/glm-4.7
           ↓ 每日配额耗尽
           自动切换 → minimax/MiniMax-M2.1
           ↓ 5 小时配额耗尽
           自动切换 → if/kimi-k2-thinking (免费)
           ↓
           响应已送达 ✅

结果:零停机,无缝体验。

场景 2:速率限制

用户请求 → cx/gpt-5.2-codex
           ↓ 速率受限(请求过多)
           自动切换 → glm/glm-4.7
           ↓
           响应已送达 ✅

场景 3:提供商不可用

用户请求 → cc/claude-opus-4-5
           ↓ 提供商错误(503)
           自动切换 → 下一个可用模型
           ↓
           响应已送达 ✅

模型选择逻辑

9Router 基于以下因素选择最佳模型:

配额可用性 - 检查提供商是否仍有剩余配额
成本层级 - 优先订阅 → 低价 → 免费
重置时间 - 考虑配额何时重置
提供商健康度 - 跳过有错误的提供商

优先级示例

对 cc/claude-opus-4-5 的请求:

1. 检查 Claude Code 配额
   ✅ 可用 → 使用 cc/claude-opus-4-5
   ❌ 耗尽 → 继续步骤 2

2. 检查回退层(若已配置)
   ✅ GLM 配额可用 → 使用 glm/glm-4.7
   ❌ 耗尽 → 继续步骤 3

3. 检查免费层
   ✅ iFlow 可用 → 使用 if/kimi-k2-thinking
   ❌ 全部耗尽 → 返回配额错误

配置选项

仪表盘设置

1. 启用/禁用自动回退

仪表盘 → 设置 → 智能路由
→ 切换 "Auto Fallback" ON/OFF

ON(默认):自动层级切换
OFF:严格模式,主模型不可用时返回错误

2. 设置预算上限

仪表盘 → 设置 → 预算控制
→ 每日上限: $5
→ 每月上限: $50

预算耗尽时,9Router 自动切换到免费层。

3. 配置回退顺序

仪表盘 → 设置 → 回退优先级
→ 拖动以重新排序每层内的提供商

自定义顺序示例:

第 1 层: Gemini CLI → Claude Code → Codex
第 2 层: MiniMax → GLM → Kimi
第 3 层: iFlow → Kiro → Qwen

4. 配额重置通知

仪表盘 → 设置 → 通知
→ 配额重置时邮件提醒
→ 配额使用 80% 时告警

示例

示例 1:基础自动回退

设置:

Model: cc/claude-opus-4-5-20251101
Fallback: 自动(默认 3 层)

行为:

早上(全新配额):
  请求 → cc/claude-opus-4-5 ✅

下午(配额耗尽):
  请求 → glm/glm-4.7 ✅ (自动切换)

晚上(GLM 配额用完):
  请求 → minimax/MiniMax-M2.1 ✅ (自动切换)

深夜(付费配额全部耗尽):
  请求 → if/kimi-k2-thinking ✅ (免费层)

成本:额外约 $5-10/月(大部分由订阅覆盖)。

示例 2:预算优先路由

设置:

仪表盘 → 设置:
  每日预算: $2
  每月预算: $20
  Fallback: 启用

行为:

1-15 日(预算内):
  请求 → glm/glm-4.7 (低价层)
  成本: $1.50/天

第 16 日(达到预算):
  请求 → if/kimi-k2-thinking (免费层)
  成本: $0

下月(预算重置):
  请求 → 重新使用 glm/glm-4.7

结果:绝不超过 $20/月,始终可用。

示例 3:仅订阅模式

设置:

仪表盘 → 设置:
  Auto Fallback: OFF
  Strict mode: ON

行为:

请求 → cc/claude-opus-4-5
  ✅ 配额可用 → 成功
  ❌ 配额耗尽 → 返回错误(无回退)

适用场景:只想用付费订阅,绝不产生额外成本。

示例 4:仅免费模式

设置:

Model: if/kimi-k2-thinking
Fallback: qw/qwen3-coder-plus → kr/claude-sonnet-4.5

行为:

所有请求 → 仅免费层
成本: 永远 $0

适用场景:个人项目、学习、试验。

最佳实践

1. 最大化订阅价值

策略:
- 将订阅模型设为第 1 层
- 在仪表盘监控配额使用
- 仅在订阅耗尽时使用低价层

示例组合:

cc/claude-opus-4-5 → glm/glm-4.7 → if/kimi-k2-thinking

2. 成本优化

策略:
- 先用 Gemini CLI 免费层(每月 180K)
- 回退到 GLM/MiniMax(超低价)
- 应急: iFlow(免费)

示例组合:

gc/gemini-3-flash-preview → glm/glm-4.7 → if/kimi-k2-thinking

3. 质量优先

策略:
- 使用最佳模型(Claude Opus、GPT-5.2)
- 回退到优秀的低价模型(GLM-4.7)
- 最后手段: 免费层

示例组合:

cc/claude-opus-4-5 → cx/gpt-5.2-codex → glm/glm-4.7

4. 24/7 可用性

策略:
- 回退链中总是包含免费层
- 监控配额重置时间
- 在多个提供商间分散使用

示例组合:

cc/claude-opus-4-5 → glm/glm-4.7 → minimax/MiniMax-M2.1 → if/kimi-k2-thinking

结果:永不耗尽配额,随时编码。

配额重置策略

围绕配额重置时间规划使用:

提供商	配额重置	策略
Claude Code	5 小时 + 每周	早上使用,配额最新鲜
Codex	5 小时 + 每周	Claude 配额用完后使用
Gemini CLI	每日(1K)+ 每月(180K)	全天均匀使用
GLM-4.7	每日 10:00 AM	晚上使用,次日上午重置
MiniMax M2.1	5 小时滚动	任意时间用,跟踪滚动窗口
iFlow/Qwen/Kiro	无限制	应急备用

日常安排示例:

08:00 - 13:00: Claude Code(全新 5h 配额)
13:00 - 18:00: Gemini CLI(每日 1K 配额)
18:00 - 22:00: GLM-4.7(便宜,10AM 重置)
22:00 - 08:00: MiniMax 或 iFlow(5h 滚动 或 免费)

监控与告警

仪表盘配额跟踪

仪表盘 → 配额概览:
  Claude Code: 剩余 2.5h / 5h (50%)
  Gemini CLI: 今日 450 / 1000 次请求
  GLM-4.7: 5M / 10M tokens (8h 后重置)
  MiniMax: 3M / 5M tokens (5h 滚动)

实时通知

仪表盘 → 通知:
  ⚠️ Claude Code 配额使用 80%(剩 1h)
  ✅ GLM-4.7 配额已重置(10M tokens 可用)
  💰 每日预算使用 50%($2.50 / $5)

使用分析

仪表盘 → 分析:
  今日: 50M tokens
    - 30M 通过 Claude Code(订阅)
    - 15M 通过 GLM-4.7($9)
    - 5M 通过 iFlow(免费)
  
  成本: $9(对比 ChatGPT API $1000)
  节省: 99%

故障排除

问题:"All providers quota exhausted"

方案:

查看仪表盘配额跟踪
等待配额重置(查看倒计时)
在回退链中加入免费层
或提高预算上限

问题:"Too many fallback switches"

方案:

检查主提供商是否宕机
提高配额上限(升级订阅)
使用更便宜的主模型(用 GLM 代替 Claude)

问题:"Unexpected costs"

方案:

仪表盘 → 分析 → 查看使用情况
设置每日/每月预算上限
非关键任务切换到免费层
使用带免费回退的组合

8 KiB Raw Blame History

智能路由 & 自动回退

工作原理

3 层回退系统

自动切换

场景 1:订阅配额耗尽

场景 2:速率限制

场景 3:提供商不可用

模型选择逻辑

优先级示例

配置选项

仪表盘设置

示例

示例 1:基础自动回退

示例 2:预算优先路由

示例 3:仅订阅模式

示例 4:仅免费模式

最佳实践

1. 最大化订阅价值

2. 成本优化

3. 质量优先

4. 24/7 可用性

配额重置策略

监控与告警

仪表盘配额跟踪

实时通知

使用分析

故障排除

相关

8 KiB

Raw Blame History