Google推出Gemini API双新推理层:Flex降本50%,Priority保障关键业务
Google于2026年4月2日宣布为Gemini API引入两个新推理层级:Flex和Priority,旨在通过单一同步接口精细平衡成本、延迟与可靠性。
Flex面向延迟容忍型后台任务,如CRM批量更新、大规模研究模拟或智能体‘思考’流程。相比Standard tier,其价格降低50%,但可靠性略低、响应延迟更高;关键优势在于仍采用同步调用模式——无需管理文件上传、轮询或异步作业,仅需在请求中添加service_tier="FLEX"参数即可启用。该层级支持所有付费项目及GenerateContent与Interactions API。
Priority则专为高保障场景设计,适用于实时客服机器人、直播内容审核等关键路径。它享有最高调度优先级,即使平台负载峰值也不被抢占;若超出配额,溢出请求将自动降级至Standard tier而非失败,并在API响应头中明确标注服务层级,确保可观测性与计费透明。该层级限Tier 2/3付费项目使用。