按量付费(余额)
按量付费你可以理解成:先充点余额,然后每次请求按实际用量扣。
它适合:
- 你用得不固定(有时多、有时少)
- 你想先小额试用,跑通流程再说
钱主要花在哪
Section titled “钱主要花在哪”大部分情况下,费用跟两件事强相关:
- 你发进去的内容有多长(输入)
- 模型回你的内容有多长(输出)
所以最常见的“感觉扣多了”,往往不是系统乱扣,而是:
- 你把很长的代码/日志一股脑贴进去了
- 你开了
stream,结果让模型输出了更长内容 - 你的程序重试/循环了多次(你以为一次,其实发了 N 次)
省钱最实用的 5 招(大白话版)
Section titled “省钱最实用的 5 招(大白话版)”- 问题问小一点:一次只解决一个小目标。
- 别重复发同一段上下文:能缓存就缓存。
- 先草稿再精修:草稿用便宜/小一点的模型,最后再用强模型定稿。
- 给输出设上限:别让它无限扩写。
- 重试要克制:429/5xx 才重试,并且 1s→2s→4s 这种“越等越久”。