返回顶部
P

PandasPandas数据分析

Analyze, transform, and clean DataFrames with efficient patterns for filtering, grouping, merging, and pivoting.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
1,078
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

Pandas

设置

首次使用时,创建 ~/pandas/ 目录并阅读 setup.md 进行初始化。用户偏好设置存储在 ~/pandas/memory.md 中——用户可随时查看或编辑此文件。

使用时机

用户需要使用Python处理表格数据。代理负责处理DataFrame操作、数据清洗、聚合、合并、透视及导出。

架构

记忆文件位于 ~/pandas/ 目录下。结构参考 memory-template.md。

~/pandas/
├── memory.md # 用户偏好设置和常用模式
└── snippets/ # 保存的代码片段(可选)

快速参考

主题文件
设置流程setup.md
记忆模板
memory-template.md |

核心规则

1. 使用向量化操作

  • - 绝对不要用 for 循环遍历DataFrame行
  • 仅在无向量化替代方案时使用 .apply()
  • 优先使用 df[col].str.method() 而非 apply(lambda x: x.method())

2. 链式方法提升可读性

python

推荐:方法链式调用

result = (df .query(age > 30) .groupby(city) .agg({salary: mean}) .reset_index())

不推荐:大量中间变量

filtered = df[df[age] > 30] grouped = filtered.groupby(city) result = grouped.agg({salary: mean}).reset_index()

3. 显式处理缺失数据

  • - 分析前始终检查 df.isna().sum()
  • 选择策略:dropna()、fillna() 或插值法
  • 删除缺失值前需记录其存在原因

4. 对重复字符串使用分类类型

python

对唯一值较少的列节省内存

df[status] = df[status].astype(category) df[country] = df[country].astype(category)

5. 带验证的合并操作

python

始终指定合并方式并验证

result = pd.merge( df1, df2, on=id, how=left, validate=m:1 # 多对一:捕获意外重复 )

6. 复杂筛选优先使用query()

python

可读性强

df.query(age > 30 and city == NYC and salary < 100000)

可读性差

df[(df[age] > 30) & (df[city] == NYC) & (df[salary] < 100000)]

7. 适时设置索引

python

更快的查找,更干净的合并

df = df.setindex(userid) user_data = df.loc[12345] # O(1) 查找

常见陷阱

  • - SettingWithCopyWarning → 使用 .loc[] 进行赋值:df.loc[mask, col] = value
  • 慢速循环 → 用向量化操作或 apply() 替代 iterrows()
  • 内存爆炸 → 在 readcsv() 中使用 dtype:pd.readcsv(f, dtype={id: int32})
  • 静默数据丢失 → 合并前后检查形状:print(f合并前: {len(df1)}, 合并后: {len(result)})
  • 索引混淆 → groupby() 后使用 reset_index() 获取干净的DataFrame
  • 链式索引 → df[a][b] 静默失败;应使用 df.loc[:, [a, b]]

安全与隐私

数据存储:

  • - 用户偏好设置存储在 ~/pandas/memory.md
  • 所有DataFrame操作在本地运行
  • 无数据外传

此技能不会:

  • - 向任何服务上传数据
  • 访问 ~/pandas/ 和工作目录以外的文件
  • 未经明确指令修改源数据文件

用户控制:

  • - 查看存储的偏好设置:cat ~/pandas/memory.md
  • 清除所有数据:rm -rf ~/pandas/

相关技能

用户确认后使用 clawhub install 安装:

  • - data-analysis — 通用数据分析模式
  • csv — CSV文件处理
  • sql — 数据库查询
  • excel-xlsx — Excel文件操作

反馈

  • - 如有帮助:clawhub star pandas
  • 保持更新:clawhub sync

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pandas-1776307170 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pandas-1776307170 技能

通过命令行安装

skillhub install pandas-1776307170

下载

⬇ 下载 Pandas v1.0.1(免费)

文件大小: 3.63 KB | 发布时间: 2026-4-16 18:37

v1.0.1 最新 2026-4-16 18:37
Initial release

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部