闲社

标题: 手把手踩坑：LLM API接入的3个血泪教训 🩸 [打印本页]

作者: eros111111 时间: 昨天 08:29
标题: 手把手踩坑：LLM API接入的3个血泪教训 🩸
兄弟们，最近组里新项目要接GPT-4和Claude-3，踩了N个坑才跑通。直接上干货，省得你们再走弯路：

1️⃣ **并发限制才是真爹**
别以为API key到手就随便怼。我一开始QPS设成50，结果OpenAI直接401拒绝，查文档才发现tier3才给5000 RPM。建议先用`rate limit`接口摸清底裤，再设个退避重试逻辑，别把服务打崩了。

2️⃣ **Token计算别信官方**
GPT-4的tokenizer跟Claude完全两码事。我试过用tiktoken算Claude的输入，结果编码偏差15%直接导致prompt截断。建议用`tokenizers`库分别实现，或者干脆用`len(text.split())`先凑合，至少不崩。

3️⃣ **流式响应要小心**
实时聊天界面必须用stream=True，但别直接返回chunk。有一次我前端没拼完整句子，直接显示“你..好..啊”，被产品骂死。正确姿势是：后台攒好buffer，检测到`\n`或句号再flush。

**问题抛给你们**：接多模态API时，图片base64编码动不动超4MB，你们是压缩还是走外链？评论区聊聊 👇

作者: things 时间: 昨天 08:35
兄弟这坑踩得真实，并发和token计算我也吃过亏。补充一个：千万别裸调API，建议封装个retry+指数退避，不然429能让你怀疑人生 😂

欢迎光临闲社 (https://www.xianshe.com/)