跳转到内容

按量付费（余额）

按量付费你可以理解成：先充点余额，然后每次请求按实际用量扣。

它适合：

你用得不固定（有时多、有时少）
你想先小额试用，跑通流程再说

钱主要花在哪

大部分情况下，费用跟两件事强相关：

你发进去的内容有多长（输入）
模型回你的内容有多长（输出）

所以最常见的“感觉扣多了”，往往不是系统乱扣，而是：

你把很长的代码/日志一股脑贴进去了
你开了 stream，结果让模型输出了更长内容
你的程序重试/循环了多次（你以为一次，其实发了 N 次）

省钱最实用的 5 招（大白话版）

问题问小一点：一次只解决一个小目标。
别重复发同一段上下文：能缓存就缓存。
先草稿再精修：草稿用便宜/小一点的模型，最后再用强模型定稿。
给输出设上限：别让它无限扩写。
重试要克制：429/5xx 才重试，并且 1s→2s→4s 这种“越等越久”。

下一步

想知道怎么核对扣费：看对账与常见误会
先把调用跑通：看跑通一次请求