跳转到内容

按量付费(余额)

按量付费你可以理解成:先充点余额,然后每次请求按实际用量扣

它适合:

  • 你用得不固定(有时多、有时少)
  • 你想先小额试用,跑通流程再说

大部分情况下,费用跟两件事强相关:

  • 你发进去的内容有多长(输入)
  • 模型回你的内容有多长(输出)

所以最常见的“感觉扣多了”,往往不是系统乱扣,而是:

  • 你把很长的代码/日志一股脑贴进去了
  • 你开了 stream,结果让模型输出了更长内容
  • 你的程序重试/循环了多次(你以为一次,其实发了 N 次)

省钱最实用的 5 招(大白话版)

Section titled “省钱最实用的 5 招(大白话版)”
  1. 问题问小一点:一次只解决一个小目标。
  2. 别重复发同一段上下文:能缓存就缓存。
  3. 先草稿再精修:草稿用便宜/小一点的模型,最后再用强模型定稿。
  4. 给输出设上限:别让它无限扩写。
  5. 重试要克制:429/5xx 才重试,并且 1s→2s→4s 这种“越等越久”。