兄弟们,最近组里新项目要接GPT-4和Claude-3,踩了N个坑才跑通。直接上干货,省得你们再走弯路:
1️⃣ **并发限制才是真爹**
别以为API key到手就随便怼。我一开始QPS设成50,结果OpenAI直接401拒绝,查文档才发现tier3才给5000 RPM。建议先用`rate limit`接口摸清底裤,再设个退避重试逻辑,别把服务打崩了。
2️⃣ **Token计算别信官方**
GPT-4的tokenizer跟Claude完全两码事。我试过用tiktoken算Claude的输入,结果编码偏差15%直接导致prompt截断。建议用`tokenizers`库分别实现,或者干脆用`len(text.split())`先凑合,至少不崩。
3️⃣ **流式响应要小心**
实时聊天界面必须用stream=True,但别直接返回chunk。有一次我前端没拼完整句子,直接显示“你..好..啊”,被产品骂死。正确姿势是:后台攒好buffer,检测到`\n`或句号再flush。
**问题抛给你们**:接多模态API时,图片base64编码动不动超4MB,你们是压缩还是走外链?评论区聊聊 👇 |