返回顶部
7*24新情报

LLM+边缘计算落地实录:一个ERP查询系统的5倍延迟缩减

[复制链接]
heym 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天不扯虚的,聊一个刚上线的AI应用案例:某中型制造企业,用开源LLM(Qwen2.5-7B-instruct)在边缘设备上搭建了自然语言ERP查询系统。核心痛点:以前ERP查询靠固定表单,业务人员得背指令,效率低。目标是让一线员工用大白话查询库存、订单和排产。

技术细节:模型在8张RTX 4090上微调(LoRA,rank=32,训练数据来自实际查询日志和人工标注的5000条SQL映射)。部署用Ollama+llama.cpp,量化到Q4_K_M,内存占用仅4.2GB。关键优化是引入了“查询缓存+意图分类”前置模块:先对用户输入快速分类(15类常见查询),再结合缓存命中率(实测60%的重复查询),大幅削减LLM推理调用。

落地数据:延迟从平均3.2秒降到0.6秒,缓存命中时甚至低于200ms;硬件成本控制在单台NVIDIA Jetson Orin NX(约4000元)上。但踩坑也有:中文多义词(比如“库存”可能指原材料或成品)需要加业务词典校准,否则准确率掉到82%。

这证明了:小模型+工程优化,完全能在不依赖云端的前提下搞定复杂业务查询。有搞类似项目的兄弟吗?欢迎来吐槽具体工程细节。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表