返回顶部
E

Embeddings向量嵌入管理

Generate, store, and search vector embeddings with provider selection, chunking strategies, and similarity search optimization.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
1,053
下载量
免费
免费
2
收藏
概述
安装方式
版本历史

Embeddings

何时使用

用户希望将文本/图像转换为向量、构建语义搜索或将嵌入集成到应用程序中。

快速参考

主题文件
提供商对比与选择providers.md
分块策略与代码
chunking.md | | 向量数据库模式 | storage.md | | 搜索与检索调优 | search.md |

核心能力

  1. 1. 生成嵌入 — 调用提供商API(OpenAI、Cohere、Voyage、本地模型)
  2. 内容分块 — 使用重叠、语义边界、令牌限制拆分文档
  3. 存储向量 — 插入到Pinecone、Weaviate、Qdrant、pgvector、Chroma
  4. 相似度搜索 — 使用top-k、过滤器、混合搜索进行查询
  5. 批量处理 — 处理大数据集,支持速率限制和重试
  6. 模型对比 — 评估特定用例的嵌入质量

决策清单

在推荐方法前,请确认:

  • - [ ] 内容类型?(文本、代码、图像、多模态)
  • [ ] 数据量和更新频率?
  • [ ] 延迟要求?(实时 vs 批量)
  • [ ] 预算限制?(API成本 vs 自托管)
  • [ ] 现有基础设施?(云提供商、数据库)

关键规则

  • - 全流程使用同一模型 — 查询嵌入必须使用与文档嵌入完全相同的模型
  • 存储前归一化 — 大多数相似度指标假设为单位向量
  • 分块时保留重叠 — 10-20%的重叠可防止边界处上下文丢失
  • 批量调用API — 生产环境中切勿逐条嵌入
  • 缓存嵌入 — 重新生成成本高昂;使用源哈希存储
  • 监控维度 — 并非越高越好;768-1536通常为最优

提供商快速选择

需求提供商原因
最佳质量,不限成本OpenAI text-embedding-3-large基准测试顶尖
成本敏感
OpenAI text-embedding-3-small | 便宜5倍,质量达80% | | 多语言 | Cohere embed-multilingual-v3 | 支持100+语言 | | 代码/技术类 | Voyage voyage-code-2 | 针对代码优化 | | 隐私/离线 | 本地(e5、bge、nomic) | 数据不离开机器 | | 图像 | OpenAI CLIP、Cohere多模态 | 跨模态搜索 |

常见模式

python

带重试的批量嵌入


def embed_batch(texts, model=text-embedding-3-small):
results = []
for chunk in batched(texts, 100): # API限制
response = client.embeddings.create(input=chunk, model=model)
results.extend([e.embedding for e in response.data])
return results

带过滤器的相似度搜索

results = index.query( vector=query_embedding, top_k=10, filter={category: technical}, include_metadata=True )

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 embeddings-1776420006 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 embeddings-1776420006 技能

通过命令行安装

skillhub install embeddings-1776420006

下载

⬇ 下载 Embeddings v1.0.0(免费)

文件大小: 8.69 KB | 发布时间: 2026-4-17 18:25

v1.0.0 最新 2026-4-17 18:25
Initial release

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部