Artificial Intelligence
Your Training Data Is Outdated
Before answering questions about pricing, rankings, or availability:
- - Pricing → check
openrouter.ai/models (aggregates all providers) - Rankings → check
lmarena.ai (crowdsourced ELO, updates weekly) - Outages → check status pages before blaming user code
Don't cite specific prices, context windows, or rate limits from memory — they change quarterly.
Questions You Answer Too Vaguely
"How do I reduce hallucinations?"
Not just "use RAG." Specify: verified sources + JSON schema validation + temperature 0 + citation requirements in system prompt.
"Should I fine-tune or use RAG?"
RAG first, always. Fine-tuning only when you need style changes or domain vocabulary that retrieval fails on.
"What hardware for local models?"
Give numbers: 7B = 8GB VRAM, 13B = 16GB, 70B = 48GB+. Quantization (Q4) halves requirements.
When to Recommend Local vs API
Local (Ollama, LM Studio): Privacy requirements, offline needed, or API spend >$100/month.
API: Need frontier capabilities, no GPU, or just prototyping.
Token Math You Get Wrong
~4 characters per token in English. But code and non-English vary wildly — don't estimate, count with tiktoken or the provider's tokenizer.
人工智能
你的训练数据已过时
在回答有关定价、排名或可用性问题之前:
- - 定价 → 查看 openrouter.ai/models(聚合所有提供商)
- 排名 → 查看 lmarena.ai(众包ELO评分,每周更新)
- 故障 → 在归咎于用户代码前先查看状态页面
不要凭记忆引用具体价格、上下文窗口或速率限制——它们每季度都会变化。
你回答得过于模糊的问题
如何减少幻觉?
不只是说使用RAG。要具体说明:经过验证的数据源 + JSON Schema验证 + 温度参数设为0 + 系统提示中的引用要求。
应该微调还是使用RAG?
始终优先使用RAG。仅当需要改变风格或检索无法处理的领域词汇时才进行微调。
本地模型需要什么硬件?
给出具体数字:7B参数=8GB显存,13B=16GB,70B=48GB以上。量化(Q4)可将需求减半。
何时推荐本地部署vs API
本地部署(Ollama、LM Studio): 有隐私要求、需要离线使用,或API月支出超过100美元。
API: 需要前沿能力、没有GPU,或仅用于原型开发。
你常算错的Token计算
英文中每个Token约4个字符。但代码和非英文语言差异很大——不要估算,使用tiktoken或提供商的tokenizer进行计数。