返回顶部
a

arxiv-searcharXiv论文搜索

Retrieve paper metadata from arXiv using keyword queries and save results as JSONL (`papers/papers_raw.jsonl`).

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
328
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

arxiv-search

arXiv搜索(元数据优先)

收集具有足够元数据的初始论文集,以支持后续的排序、分类构建和引用生成。

在线时,优先获取丰富的arXiv元数据(类别、arxivid、pdfurl、发布/更新日期等)。离线时,接受导出文件并进行干净转换。

加载顺序

始终读取:

  • - references/domainpackoverview.md — 领域包如何驱动特定主题行为

领域包(按主题匹配加载):

  • - assets/domainpacks/llmagents.json — 固定ID、LLM代理主题的查询重写规则

脚本边界

scripts/run.py 仅用于:

  • - arXiv API检索和XML解析
  • 离线导出转换(CSV/JSON/JSONL规范化)
  • 通过 id_list 回填进行元数据丰富

不要将 run.py 用于:

  • - 硬编码的主题检测或查询重写(使用领域包)
  • 特定领域的固定论文列表(外部化到 assets/domain_packs/)

输入

  • - queries.md(关键词、排除项、时间窗口)

输出

  • - papers/papers_raw.jsonl(JSONL格式;每行一篇论文)
- 每条记录至少包含:title、authors、year、url、abstract - 使用arXiv API在线模式时,记录还包含有用的元数据:arxivid、pdfurl、categories、primarycategory、published、updated、doi、journalref、comment
  • - 便捷索引(可选,由脚本生成):
- papers/papers_raw.csv

决策:在线 vs 离线

  • - 如果有网络访问:运行arXiv API检索。
  • 如果没有:导入用户提供的导出文件(CSV/JSON/JSONL)并规范化字段。
  • 混合模式:如果导入离线数据但后续有网络,可以通过arXiv idlist 使用 --enrich-metadata 或 queries.md 中的 enrichmetadata: true 丰富缺失字段(摘要/作者/类别)。

工作流程(启发式)

  1. 1. 读取 queries.md 并扩展为具体的查询字符串。
  2. 检索结果(在线)或导入导出文件(离线)。
  3. 规范化每条记录,至少包含:
- title、authors(数组)、year、url、abstract
  1. 4. 在此阶段保持集合广泛;去重/排序在下一步进行。
  2. 如果指定了时间窗口和 max_results,则应用。

质量检查清单

  • - [ ] papers/papers_raw.jsonl 存在。
  • [ ] 每行是有效的JSON,包含 title、authors、year、url。

副作用

  • - 允许:创建/覆盖 papers/papers_raw.jsonl;向 STATUS.md 追加注释。
  • 不允许:在写入批准前在 output/ 中写入散文章节。

脚本

快速开始

  • - python scripts/run.py --help
  • 在线:python scripts/run.py --workspace <工作目录> --query <查询> --max-results 200
  • 离线导入:python scripts/run.py --workspace <工作目录> --input

所有选项

  • - --query :可重复;多个查询会合并
  • --exclude :可重复;检索后应用排除项
  • --max-results :限制总检索数量
  • --input :离线模式(CSV/JSON/JSONL)
  • --enrich-metadata:尽力通过arXiv idlist 丰富元数据(需要网络)
  • queries.md 也支持:keywords、exclude、time window、maxresults、enrich_metadata

示例

  • - 在线(多查询 + 排除项):
- python scripts/run.py --workspace --query LLM agent --query tool use --exclude survey --max-results 300
  • - 通过arXiv ID获取单篇论文(直接 id_list 获取):
- python scripts/run.py --workspace --query 2509.02547 --max-results 1
  • - 离线自动检测(无标志):
- 将 papers/import.csv(或 .json/.jsonl)放在工作目录下,然后运行:python scripts/run.py --workspace
  • - 离线导入 + 时间窗口(通过 queries.md):
- 设置 - time window: { from: 2022, to: 2025 } 然后正常运行离线导入

故障排除

常见问题

问题:papers/papers_raw.jsonl 为空

症状

  • - 脚本退出显示未返回结果...或输出文件为空。

原因

  • - 网络被屏蔽(在线模式)。
  • 查询范围太窄或 queries.md 为空。

解决方案

  • - 使用离线导入:将 papers/import.csv|json|jsonl 放在工作目录中或传递 --input。
  • 在 queries.md 中扩大关键词范围并减少排除项。
  • 使用显式的 --query 运行以检查解析器。

问题:离线导入记录缺少字段

症状

  • - 后续步骤失败,因为记录缺少 authors/year/abstract/url。

原因

  • - 导出列与预期字段不匹配;上游导出不完整。

解决方案

  • - 确保导出至少包含 title、authors、year、url、abstract。
  • 如果后续有网络,使用 --enrich-metadata 回填缺失字段(尽力而为)。

恢复检查清单

  • - [ ] 确认 queries.md 有非空的 keywords(或传递 --query)。
  • [ ] 如果离线:确认工作目录有 papers/import.* 并重新运行。
  • [ ] 抽查3-5行JSONL:有效的JSON + 必需字段。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 arxiv-search-1776110523 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 arxiv-search-1776110523 技能

通过命令行安装

skillhub install arxiv-search-1776110523

下载

⬇ 下载 arxiv-search v1.0.0(免费)

文件大小: 124.77 KB | 发布时间: 2026-4-17 14:07

v1.0.0 最新 2026-4-17 14:07
- Initial release of arxiv-search.
- Enables retrieval of arXiv paper metadata using keyword queries.
- Supports both online (arXiv API) and offline (CSV/JSON/JSONL import) workflows.
- Outputs normalized results to `papers/papers_raw.jsonl` with key metadata fields.
- Provides optional field enrichment via arXiv `id_list` if network is available.
- Includes troubleshooting and quality guidance for smooth integration.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部