返回数据库导航

Database Tutorial

SRA原始测序数据Database Tutorial

从 SRR 编号下载 FASTQ

复现论文测序数据,或把公开 reads 接入自己的 RNA-seq / WGS 流程。

数据库
SRA
资源类型
原始测序数据
地区
USA
推荐等级
5/5

Quick Steps

教程步骤速览

先快速看完整操作路径,再进入下方详细教程。

  1. STEP 1

    在 SRA 页面检索 BioProject、GSE 或 SRR 编号。

  2. STEP 2

    记录 SRR run accession,并使用 SRA Toolkit 下载。

  3. STEP 3

    用 fasterq-dump 转换 FASTQ,再用 gzip 压缩并进入质控流程。

Example Query

示例查询

复制这个关键词或编号,可以快速进入数据库检索练习。

fasterq-dump SRRxxxxxxx --split-files -e 8

Tutorial

数据库使用教程

按教程完成检索、筛选、下载和结果确认。

从 SRA 的 SRR 编号下载 FASTQ

适用场景

当论文或 GEO 页面只给出 SRR 编号时,可以用 SRA Toolkit 下载原始 reads,再接入 RNA-seq、WGS、BSA 或单细胞流程。

安装工具

mamba create -n sra-tools -c bioconda -c conda-forge sra-tools pigz
conda activate sra-tools
fasterq-dump --version

推荐目录

public_data_project/
├── 00_sra/
├── 01_fastq/
├── 02_logs/
└── metadata/

单个样本下载

mkdir -p 00_sra 01_fastq

prefetch SRRxxxxxxx --output-directory 00_sra
fasterq-dump 00_sra/SRRxxxxxxx/SRRxxxxxxx.sra \
  --split-files \
  -e 8 \
  -O 01_fastq

pigz -p 8 01_fastq/SRRxxxxxxx_*.fastq

批量下载模板

cat metadata/srr_list.txt | while read srr
do
  prefetch "$srr" --output-directory 00_sra
  fasterq-dump "00_sra/$srr/$srr.sra" --split-files -e 8 -O 01_fastq
done

pigz -p 8 01_fastq/*.fastq

结果检查

ls -lh 01_fastq
fastqc 01_fastq/*.fastq.gz -o 02_logs

常见问题

问题原因解决
下载速度慢NCBI 网络距离或限速优先尝试 ENA fastq_ftp
磁盘爆满fasterq-dump 会产生临时文件预留 FASTQ 体积 2-3 倍空间
单端/双端混乱未检查 RunInfo先导出 RunInfo,确认 Layout