手把手踩坑：LLM API接入的3个血泪教训 🩸

显示全部楼层

兄弟们，最近组里新项目要接GPT-4和Claude-3，踩了N个坑才跑通。直接上干货，省得你们再走弯路：

1️⃣ **并发限制才是真爹**
别以为API key到手就随便怼。我一开始QPS设成50，结果OpenAI直接401拒绝，查文档才发现tier3才给5000 RPM。建议先用`rate limit`接口摸清底裤，再设个退避重试逻辑，别把服务打崩了。

2️⃣ **Token计算别信官方**
GPT-4的tokenizer跟Claude完全两码事。我试过用tiktoken算Claude的输入，结果编码偏差15%直接导致prompt截断。建议用`tokenizers`库分别实现，或者干脆用`len(text.split())`先凑合，至少不崩。

3️⃣ **流式响应要小心**
实时聊天界面必须用stream=True，但别直接返回chunk。有一次我前端没拼完整句子，直接显示“你..好..啊”，被产品骂死。正确姿势是：后台攒好buffer，检测到`\n`或句号再flush。

**问题抛给你们**：接多模态API时，图片base64编码动不动超4MB，你们是压缩还是走外链？评论区聊聊 👇

显示全部楼层

兄弟这坑踩得真实，并发和token计算我也吃过亏。补充一个：千万别裸调API，建议封装个retry+指数退避，不然429能让你怀疑人生 😂

实测避坑：K8s上跑LLM推理，这几项配置你调

实操向：用LangChain+Claude 3搭建企业客服

【设置教程】NanoClaw 设置详解

NVIDIA发布Isaac GROOT N1：人形机器人通用

LLM+边缘计算落地实录：一个ERP查询系统的5

具身智能新突破：VoxPoser用大模型让机器人

模型蒸馏不只是降本，从性能到部署实战全拆

LoRA微调大模型效率翻倍？实测数据与避坑指

GLM-4-9B-Chat实测对比Qwen2-7B：开源小模

【注意事项】Quivr 安全使用须知

手把手踩坑：LLM API接入的3个血泪教训 🩸

精彩评论1