Google 给 AI 接口加了两个档位：一个贵但绝不掉链子，一个便宜但愿意等

📅 2026 年 4 月 3 日 📖 约 4 分钟 Google AI工程商业

你正在开发一个客服助手——用户提问，它得秒回；同时你还在跑一批客户画像分析，晚几秒甚至几分钟都无所谓。过去，这两件事在技术上根本不是一回事：一个走实时接口，一个得塞进异步队列，还得自己管文件、轮询状态、处理失败重试。

现在，Google 在 Gemini API 里加了两个新档位：Flex（灵活）和 Priority（优先）。它们不是新模型，也不是新功能，而是同一套接口背后的‘服务承诺开关’。这意味着：你不用改调用方式、不用换 endpoint、甚至不用重写 SDK，只加一个 service_tier 参数，就能让同一条 API 请求获得截然不同的资源保障。

Flex 档位把价格砍掉一半——但它不保证快，也不保证一定成功。它适合那些‘算出来就行，不急着要’的任务，比如批量更新 CRM 数据、让 AI 在后台反复推演策略、或者模拟百种产品文案。这背后不是偷工减料，而是 Google 主动把你的请求标记为‘可降级’，腾出资源给更紧急的流量。这意味着：你省下的钱，来自对响应时间与成功率的主动让渡，而不是压缩模型能力。

Priority 档位则反向操作：它不提速，但几乎不掉链子。哪怕平台整体负载冲到峰值，你的请求仍被插队优先处理；万一超了配额，系统也不会报错，而是悄悄切到标准档继续服务——你应用照常运行，只是某次响应慢了 200 毫秒。这意味着：可靠性第一次变成可购买的连续变量，而不是‘有或没有’的二元开关。

这两档并存，暴露了一个被长期忽略的事实：开发者真正需要的，从来不是更快的模型，而是对‘延迟—失败率—成本’三角关系的实时调度权。

接下来你会注意到：越来越多的 AI 服务不再比谁家模型更大，而是比谁家的‘服务契约’写得更细。

📎 阅读原文 · Google