返回顶部
B

Bioinformatics生物信息学

Analyze DNA, RNA, and protein sequences with alignment, variant calling, and expression analysis pipelines.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
1,045
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

Bioinformatics

设置

首次使用时,请阅读 setup.md 了解集成指南。在用户同意的情况下,创建 ~/bioinformatics/ 目录,用于存储项目上下文和偏好设置。

使用场景

用户需要分析生物序列、运行基因组分析流程或解读测序数据。本技能可处理序列比对、变异检测、表达分析和格式转换等任务。

架构

数据存储于 ~/bioinformatics/ 目录。具体结构请参考 memory-template.md。

~/bioinformatics/
├── memory.md # 项目、偏好设置、参考基因组
├── pipelines/ # 已保存的分析流程配置
└── results/ # 分析输出和日志

快速参考

主题文件
设置流程setup.md
记忆模板
memory-template.md | | 文件格式 | formats.md | | 工具命令 | tools.md | | RNA-seq 流程 | rnaseq.md | | 变异检测 | variants.md |

核心规则

1. 首先验证输入质量

在任何分析之前,检查输入数据质量:
  • - FASTQ:运行 FastQC,检查每个碱基质量、接头含量
  • BAM:验证是否已排序、建立索引(samtools quickcheck)
  • VCF:验证格式(bcftools view -h)

输入质量差 → 输出结果不可靠。始终先进行质控。

2. 统一使用参考基因组

跟踪每个项目使用的参考基因组:
  • - 人类:GRCh38/hg38(优先)或 GRCh37/hg19
  • 小鼠:GRCm39/mm39 或 GRCm38/mm10
  • 混合使用参考基因组 = 无效结果

将参考基因组信息按项目存储在 ~/bioinformatics/memory.md 中。

3. 保留原始数据

切勿修改原始 FASTQ/BAM 文件:
  • - 在副本上操作
  • 将原始文件设为只读
  • 记录每一步转换操作

4. 资源意识

生物信息学命令可能消耗大量资源:
  • - 操作前检查文件大小
  • 尽可能使用流式处理(samtools view | ...)
  • 估算内存需求(BWA:人类基因组约需 6GB)
  • 操作超过 10 分钟前发出警告

5. 可重复性

每次分析必须可重复:
  • - 记录确切的工具版本(samtools --version)
  • 保存命令参数
  • 对关键分析记录输入文件的校验和

常见陷阱

  • - 错误的染色体命名 — chr1 与 1 会导致静默失败。使用 sed s/^chr// 检查和转换
  • 未排序的 BAM — 大多数工具需要排序后的输入。症状:错误或错误结果且无警告
  • 缺少索引 — BAM 需要 .bai,VCF 需要 .tbi。缺少索引时命令会以难以理解的方式失败
  • 内存耗尽 — 大型 BAM 操作会终止会话。使用流式处理或合理使用 --threads
  • 过期的索引 — 修改 BAM/VCF 后,重新生成索引。旧索引 = 损坏的读取
  • 0 基与 1 基坐标 — BED 是 0 基,VCF/GFF 是 1 基。差一错误很常见

文件格式快速参考

格式用途关键工具
FASTA参考序列samtools faidx
FASTQ
原始读取 + 质量 | seqtk, fastp | | SAM/BAM | 比对后的读取 | samtools | | VCF/BCF | 变异 | bcftools | | BED | 基因组区间 | bedtools | | GFF/GTF | 基因注释 | gffread | | BigWig | 覆盖度轨迹 | deepTools |

基本命令

质量控制

bash

FASTQ 质量报告

fastqc sample.fastq.gz -o qc_reports/

修剪接头 + 低质量碱基

fastp -i R1.fq.gz -I R2.fq.gz -o R1.clean.fq.gz -O R2.clean.fq.gz

BAM 统计信息

samtools flagstat aligned.bam samtools stats aligned.bam > stats.txt

比对

bash

索引参考基因组(仅一次)

bwa index reference.fa

比对双端读取

bwa mem -t 8 reference.fa R1.fq.gz R2.fq.gz | \ samtools sort -o aligned.bam -

索引 BAM

samtools index aligned.bam

变异检测

bash

检测变异

bcftools mpileup -Ou -f reference.fa aligned.bam | \ bcftools call -mv -Oz -o variants.vcf.gz

索引 VCF

bcftools index variants.vcf.gz

过滤变异

bcftools filter -s LowQual -e QUAL<20 variants.vcf.gz

数据处理

bash

提取区域

samtools view -b aligned.bam chr1:1000000-2000000 > region.bam

将 BAM 转换为 FASTQ

samtools fastq -1 R1.fq.gz -2 R2.fq.gz aligned.bam

合并 BAM 文件

samtools merge merged.bam sample1.bam sample2.bam

按区域提取 VCF 子集

bcftools view -r chr1:1000-2000 variants.vcf.gz

安全与隐私

数据访问:

  • - 仅读取用户明确提供的输入文件
  • 将输出写入用户指定的目录
  • 将偏好设置存储在 ~/bioinformatics/(需用户同意)

本地存储的数据:

  • - 所有序列数据在本地处理
  • 分析过程中不调用外部 API
  • 流程配置存储在 ~/bioinformatics/

本技能不会:

  • - 将序列数据上传到任何地方
  • 在无明确用户指令的情况下访问文件
  • 推断或收集超出明确输入范围的数据
  • 在分析过程中发起网络请求

注意: 安装工具(conda、brew)和下载参考基因组需要互联网访问。这些是用户发起的操作。

相关技能

如果用户确认,使用 clawhub install 安装:
  • - data-analysis — 统计解读
  • statistics — 假设检验
  • science — 研究方法论

反馈

  • - 如果觉得有用:clawhub star bioinformatics
  • 保持更新:clawhub sync

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 bioinformatics-1776419957 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 bioinformatics-1776419957 技能

通过命令行安装

skillhub install bioinformatics-1776419957

下载

⬇ 下载 Bioinformatics v1.0.0(免费)

文件大小: 12.52 KB | 发布时间: 2026-4-17 20:08

v1.0.0 最新 2026-4-17 20:08
Initial release

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部