返回顶部
a

agent-survey-corpus智能体语料库

Download a small corpus of open-access arXiv survey/review PDFs about LLM agents and extract text for style

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
129
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

agent-survey-corpus

智能体综述语料库(arXiv PDF → 文本提取)

目标:创建一个小型本地参考库,以便在优化以下内容时从真实智能体综述中学习

  • - C2 大纲结构(论文式章节划分)
  • C4 表格/主张组织
  • C5 写作风格与密度

这有意作为流程的一部分;它是一个可选的、仓库级别的工具包。

输入

  • - ref/agent-surveys/arxiv_ids.txt

输出

  • - ref/agent-surveys/pdfs/
  • ref/agent-surveys/text/
  • ref/agent-surveys/STYLE_REPORT.md(受追踪;自动生成的摘要)

工作流程

1) 编辑 ref/agent-surveys/arxiv_ids.txt(每行一个 arXiv ID)。
2) 运行下载器获取 PDF 并提取前 N 页为文本。
3) 浏览 ref/agent-surveys/text/ 下的提取文本:
- 查看章节数量(H2)、子章节粒度(H3)以及章节间的过渡方式。
- 识别希望流程编写者模仿的重复修辞模式。

脚本

快速开始

  • - python scripts/run.py --help
  • python scripts/run.py --workspace . --max-pages 20

所有选项

  • - --workspace <目录>(使用 . 写入仓库根目录)
  • --inputs <分号分隔>(默认:ref/agent-surveys/arxiv_ids.txt)
  • --max-pages (默认:20)
  • --sleep <秒数>(默认:1.0)
  • --overwrite(重新下载 + 重新提取)

示例

  • - 下载/提取到仓库根目录 ref/:
- python scripts/run.py --workspace . --max-pages 20
  • - 下载/提取到特定文件夹(视为工作区根目录):
- python scripts/run.py --workspace /tmp/surveys --max-pages 30

故障排除

  • - 下载失败/超时:使用更大的 --sleep 重新运行,或尝试更少的 ID。
  • 文本提取为空:PDF 可能是扫描件;尝试其他综述或增加 --max-pages。
  • 文件出现在 git 状态中:PDF/文本通过 .gitignore 被忽略(ref//pdfs/、ref//text/)。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 agent-survey-corpus-1776113954 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 agent-survey-corpus-1776113954 技能

通过命令行安装

skillhub install agent-survey-corpus-1776113954

下载

⬇ 下载 agent-survey-corpus v1.0.0(免费)

文件大小: 118.92 KB | 发布时间: 2026-4-17 13:57

v1.0.0 最新 2026-4-17 13:57
- Initial release of agent-survey-corpus skill for downloading and extracting text from arXiv survey/review PDFs about LLM agents.
- Provides a toolkit to build a local reference library for analyzing real survey structures and writing styles.
- Supports customizable workspace, page limits, and safe download (arXiv-only) with guardrails to keep large files outside git.
- Includes clear workflow and CLI script for managing PDFs and extracting text for study and style learning.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部