Google 给 AI 接口加了两个档位:一个贵但绝不掉链子,一个便宜但愿意等
你正在开发一个客服助手——用户提问,它得秒回;同时你还在跑一批客户画像分析,晚几秒甚至几分钟都无所谓。过去,这两件事在技术上根本不是一回事:一个走实时接口,一个得塞进异步队列,还得自己管文件、轮询状态、处理失败重试。
现在,Google 在 Gemini API 里加了两个新档位:Flex(灵活)和 Priority(优先)。它们不是新模型,也不是新功能,而是同一套接口背后的‘服务承诺开关’。 这意味着:你不用改调用方式、不用换 endpoint、甚至不用重写 SDK,只加一个 service_tier 参数,就能让同一条 API 请求获得截然不同的资源保障。
Flex 档位把价格砍掉一半——但它不保证快,也不保证一定成功。它适合那些‘算出来就行,不急着要’的任务,比如批量更新 CRM 数据、让 AI 在后台反复推演策略、或者模拟百种产品文案。这背后不是偷工减料,而是 Google 主动把你的请求标记为‘可降级’,腾出资源给更紧急的流量。 这意味着:你省下的钱,来自对响应时间与成功率的主动让渡,而不是压缩模型能力。
Priority 档位则反向操作:它不提速,但几乎不掉链子。哪怕平台整体负载冲到峰值,你的请求仍被插队优先处理;万一超了配额,系统也不会报错,而是悄悄切到标准档继续服务——你应用照常运行,只是某次响应慢了 200 毫秒。 这意味着:可靠性第一次变成可购买的连续变量,而不是‘有或没有’的二元开关。
这两档并存,暴露了一个被长期忽略的事实:开发者真正需要的,从来不是更快的模型,而是对‘延迟—失败率—成本’三角关系的实时调度权。
接下来你会注意到:越来越多的 AI 服务不再比谁家模型更大,而是比谁家的‘服务契约’写得更细。