返回顶部
x

x-profile-deep-diveX档案深度分析

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
258
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

x-profile-deep-dive

X Profile Deep Dive

对 X/Twitter 博主进行深度画像分析:数据采集 → LLM 动态分类 → 摘要卡片 + 分类全集输出。

前置条件

  1. 1. tweety-ns 已安装(pip3 install tweety-ns)
  2. Twitter cookies 存在于 /config/twittercookies.json
  3. tweety session 目录 存在于 /config/twsession/

首次运行前检查这三个条件。如果 cookies 缺失,提示用户通过 CDP 从 openclaw browser 提取。

完整流程

Phase 1: 数据采集

运行脚本采集原始数据:

bash
python3 scripts/xprofileanalyzer.py \
--handle {handle} \
--tweet-pages 8 \
--cookies /config/twitter_cookies.json \
--output /tmp/x-profile-raw-{handle}.json

参数说明:

  • - --tweet-pages 8:默认 8 页(约 160 条推文),可根据需要调整
  • --following-pages 1:关注列表采样 70 人(通常够用)
  • --follower-pages 1:粉丝采样 70 人(可能因 elevated auth 失败,非关键)

脚本退出码:1=cookies missing, 2=login failed, 3=user not found

Phase 1.5: Articles 专项采集 + 外链探索

tweety-ns 的 tweet pages 可能采不全 X Articles(长文),且博主可能在外部平台有独占内容。此步骤必须执行。

1.5.1 X Articles 完整采集

用浏览器打开 x.com/{handle}/articles,完整滚动收集所有 Article:

  1. 1. browser navigate → x.com/{handle}/articles
  2. 逐段滚动(每次 scrollBy(0, 1500)),每段做 snapshot 记录当前可见的 article 标题+日期+URL
  3. 累计去重:X 使用虚拟滚动(virtual scrolling),会回收不在视口的 DOM 节点。绝不能用最后一次 snapshot 的 article 数量当总数。必须在脑中/笔记中累计所有已看到的唯一 article
  4. 持续滚动直到不再出现新 article(连续 2 次滚动无新增 = 到底)
  5. 记录总数,与 Phase 1 采到的 Articles 数量对比,补全遗漏

⚠️ 虚拟滚动陷阱(2026-03-16 教训):

  • - X 的 timeline 页面使用虚拟滚动,视口外的 article 元素会被回收
  • document.querySelectorAll(article).length 只返回当前 DOM 中的数量,不是总数
  • 必须逐段滚动 + 手动累计去重,这是唯一可靠的计数方式

1.5.2 外链探索

检查博主 bio 中的外部链接(博客/Substack/Medium/Newsletter/GitHub):

  1. 1. 从 Phase 1 的 profile 数据或 README 中提取 bio 链接
  2. 如果有博客/Newsletter → 用 browser 打开,找到长文列表页
  3. 对比博客长文列表 vs X Articles 列表,识别博客独占内容(博客有但 X 没有的)
  4. 对博客独占文章快速评估:深度原创 or 短新闻/聚合帖?主题相关度?
  5. 在 README.md 中增加「📎 外部平台」章节,记录博客 URL + 独占内容数量 + 推荐收藏清单

Phase 2: 数据分析

读取输出的 JSON,用 Python 提取关键统计信息(参考 data-analysis.md)。

Phase 3: LLM 动态分类

核心步骤——不使用预设分类,而是根据推文内容动态生成分类。

  1. 1. 扫描所有推文全文,识别 3-6 个主题分类
  2. 每个分类需要:名称(中文)、一句话描述、包含哪些推文
  3. 分类原则:
- 按内容主题而非形式分(不要长文/短文这种分法,除非某人确实有独特的长文系列) - X Articles(长文)优先处理:如果博主有 X Articles,先从 Phase 1.5 的完整 Articles 列表中提取,确保每篇 Article 全文都被收录到对应主题分类中。Articles 是博主最有深度的内容,不能遗漏 - 如果某人有明显的长篇深度文章(>2000字),单独分一类「深度长文」 - 每个分类至少 3 条推文,否则合并到相近分类 - 一条推文只归入一个最匹配的分类
  1. 4. 对每条推文的分类排序:按 likes 降序

Phase 4: 生成输出文件

输出结构为一个目录,包含摘要卡片 + 分类全集:

collections/x-profiles/@{handle}/
├── README.md ← 摘要卡片 + 目录导航表
├── {category-1}.md ← 第一个主题分类(推文全文)
├── {category-2}.md ← 第二个主题分类
├── ...
└── network.md ← 社交网络分析

README.md 格式

参考 readme-template.md。包含:

  • - 📂 内容全集导航表(分类名 + 数量 + 一句话说明)
  • 一句话概括
  • 基本信息表
  • 内容风格
  • 高互动推文 Top 10(一行摘要 + 链接)
  • 核心话题 Top 5
  • 互动圈
  • 关注列表分析(兴趣图谱)
  • 与我们的关联度(⭐评分)
  • 趋势判断

分类文件格式

每个分类文件:
markdown

{分类名}

{分类描述}

共 N 条推文



[X,XXX❤️ X,XXX🔁 X,XXX,XXX👁] YYYY-MM-DD

原文链接

{推文全文,原样保留,不做任何压缩或摘要}

附带链接: {如果有}



关键原则:推文全文原样保留,不做压缩。

network.md 格式

参考 network-template.md。包含:

  • - 关注列表分类表格(Handle / 名称 / 粉丝 / 简介)
  • 网络特征分析

Phase 5: 汇报结果

完成后向用户汇报:

  • - 输出目录位置和文件结构
  • 几个关键发现/亮点
  • 数据完整性校验

- X Articles 总数(Phase 1.5 实际计数) vs 分类文件中收录的 Articles 数量 → 必须一致
- 如果有博客等外部平台,报告独占内容数量和推荐收藏清单
- 采样覆盖范围说明(如最近 N 条推文,约 X 天;Articles 全量 M 篇)

注意事项

  • - 调用频率:tweety-ns 保守使用,单次分析 < 5 个 API 调用
  • Cookie 过期:如果登录失败(exit code 2),提示用户刷新 cookies
  • t.co 链接:国内网络无法解析 t.co 短链接,推文全文已在数据中,不需要追踪外链
  • Python 版本:系统 Python 3.14 可能有 SSL 兼容问题,确保 tweety-ns 对应的 httpx 版本兼容
  • followers API:部分用户的 followers 数据会返回 elevated authorization 错误,这是非关键数据,跳过即可

下一步建议(条件触发)

画像完成后,根据结果判断是否推荐下一步。

触发条件推荐
博主有高质量内容值得长期追踪「这个博主值得加入 X 信息源列表。要加到 x-info-sources 吗?」
博主的某些推文/文章值得收藏
「有几条内容值得单独收藏,用 content-collector 存一下?」 |
| 画像发现博主的方法论可用于公众号选题 | 「这个博主的观点可以做一期公众号文章,用 wemp-ops 写?」 |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 x-profile-deep-dive-1776391443 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 x-profile-deep-dive-1776391443 技能

通过命令行安装

skillhub install x-profile-deep-dive-1776391443

下载

⬇ 下载 x-profile-deep-dive v1.0.2(免费)

文件大小: 16.34 KB | 发布时间: 2026-4-17 16:36

v1.0.2 最新 2026-4-17 16:36
Daily sync

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部