兄弟们,最近帮几个团队搞LLM API接入,发现不少新手(甚至老手)都在踩坑。今天就直说几个最要命的点,别让模型成了摆设。
**1. Token计价别按“字”算** 💸
OpenAI、Claude等API按Token收费,中文一个字≈2-3 token,英文1 token≈0.75词。别拿“字数”去估算成本,写个prompt 500字,实际消耗可能1500 token。建议上线前跑个Tokenizer脚本算明细。
**2. 超时重试要带退避** ⏰
API偶尔抽风(503、限流),别搞死循环重试。用指数退避+抖动:失败先等1s,再2s、4s…最多3次,同时随机加0-0.5s抖动,防止同一时间所有请求一起冲。实测成功率能从75%提到98%。
**3. 流式响应小心内存泄漏** 🔥
Server-Sent Events(SSE)处理长文本时,客户端缓存不清理会导致内存暴涨。每收到一个chunk就释放旧buffer,或者设20k字符上限,超了强制flush。别等OOM才反应过来。
最后问个硬核问题:你们在接入LLM API时,哪个环节最让你想砸键盘?是prompt调优、成本控制还是稳定性?评论区见真章。👇 |