返回软件与算法

Software & Algorithm Detail

比对与索引RNA-seq Alignment命令行软件

STAR

高性能 RNA-seq splice-aware 比对器,适合 bulk RNA-seq、融合基因检测和剪接分析。

资源类型
命令行软件
方法分类
比对与索引
原始分类
RNA-seq Alignment
创建时间
2026/6/3

Benchmark

性能基准测试

当前图表用于比较不同数据规模下的时间消耗和内存消耗。

性能基准测试

24 threads / 128GB RAM / GENCODE annotation

Benchmark

Documentation

软件原理、用法与参数

统一使用 Markdown 文档渲染,保留命令行代码块、参数表和示例说明。

STAR RNA-seq 比对器

工具定位

STAR 是 RNA-seq 中最常用的 splice-aware aligner 之一,负责把 reads 精确比对到参考基因组,并识别 exon-exon junction。它常作为 bulk RNA-seq、可变剪接 rMATS、融合基因 STAR-Fusion/Arriba 的上游基础。

适用场景

  • 适合:bulk RNA-seq、poly(A) RNA-seq、ribo-depleted RNA-seq、融合基因检测前处理、剪接分析前处理。
  • 不适合:只想快速得到转录本丰度且不关心 BAM 的项目,此时 Salmon/Kallisto 更轻量。

输入与输出

类型文件说明
输入genome.fa参考基因组
输入genes.gtf基因注释,决定 junction 和 feature 的解释
输入sample_R1.fq.gz, sample_R2.fq.gz双端 RNA-seq FASTQ
输出Aligned.sortedByCoord.out.bam排序后的 BAM
输出SJ.out.tabsplice junction 结果
输出Log.final.out比对率、唯一比对率、多重比对率等 QC

安装方式

mamba create -n rnaseq-star -c bioconda -c conda-forge star samtools fastqc multiqc
conda activate rnaseq-star
STAR --version

推荐项目目录

project_star/
├── 00_rawdata/
├── 01_qc/
├── 02_reference/
│   ├── genome.fa
│   └── genes.gtf
├── 03_star_index/
├── 04_bam/
├── 05_logs/
└── scripts/

最小可运行示例

mkdir -p 03_star_index 04_bam 05_logs

STAR --runThreadN 16 \
  --runMode genomeGenerate \
  --genomeDir 03_star_index \
  --genomeFastaFiles 02_reference/genome.fa \
  --sjdbGTFfile 02_reference/genes.gtf \
  --sjdbOverhang 149

STAR --runThreadN 16 \
  --genomeDir 03_star_index \
  --readFilesIn 00_rawdata/sample_R1.fq.gz 00_rawdata/sample_R2.fq.gz \
  --readFilesCommand zcat \
  --outSAMtype BAM SortedByCoordinate \
  --outFileNamePrefix 04_bam/sample.

samtools index 04_bam/sample.Aligned.sortedByCoord.out.bam

常用参数表

参数含义推荐值注意事项
--runThreadN线程数8-32线程越多越快,但受磁盘 IO 限制
--runMode genomeGenerate构建索引模式构建索引时使用只需对同一参考构建一次
--genomeDirSTAR 索引目录03_star_index比对时必须和建索引目录一致
--sjdbGTFfile注释文件GENCODE/Ensembl GTF强烈建议提供
--sjdbOverhangread length - 1PE150 用 149影响 junction 索引
--readFilesCommand读取压缩文件命令zcat.fq.gz 必填
--outSAMtype输出 BAM/SAM 格式BAM SortedByCoordinate方便直接接 featureCounts
--quantMode同时输出计数GeneCounts 可选简单计数可用,但正式 DEG 更常用 featureCounts

结果解读

  • Uniquely mapped reads %:通常希望 bulk RNA-seq 高于 70%,低于 60% 要检查污染、参考基因组或文库质量。
  • % of reads mapped to multiple loci:重复序列或同源基因多时会升高。
  • SJ.out.tab:可用于剪接事件、novel junction 和 rMATS 上游检查。
  • BAM 可进入 IGV 查看目标基因覆盖度和 junction 支持。

常见错误

问题可能原因解决办法
建索引内存不足基因组过大提高内存或使用 HISAT2
比对率很低物种/参考版本错误检查 FASTQ 物种、接头污染和 genome.fa
junction 异常少GTF 不匹配或未提供统一 genome 与 GTF 来源

关联流程

  • Bulk RNA-seq 标准差异表达分析增强版
  • 可变剪接分析 rMATS/SUPPA2
  • 融合基因检测 STAR-Fusion/Arriba