← 返回软件与算法资源类型 命令行软件 方法分类 比对与索引 原始分类 RNA-seq Alignment 创建时间 2026/6/3
Software & Algorithm Detail
比对与索引RNA-seq Alignment命令行软件
STAR
高性能 RNA-seq splice-aware 比对器,适合 bulk RNA-seq、融合基因检测和剪接分析。
Benchmark
性能基准测试
当前图表用于比较不同数据规模下的时间消耗和内存消耗。
性能基准测试
24 threads / 128GB RAM / GENCODE annotation
Documentation
软件原理、用法与参数
统一使用 Markdown 文档渲染,保留命令行代码块、参数表和示例说明。
STAR RNA-seq 比对器
工具定位
STAR 是 RNA-seq 中最常用的 splice-aware aligner 之一,负责把 reads 精确比对到参考基因组,并识别 exon-exon junction。它常作为 bulk RNA-seq、可变剪接 rMATS、融合基因 STAR-Fusion/Arriba 的上游基础。
适用场景
- 适合:bulk RNA-seq、poly(A) RNA-seq、ribo-depleted RNA-seq、融合基因检测前处理、剪接分析前处理。
- 不适合:只想快速得到转录本丰度且不关心 BAM 的项目,此时 Salmon/Kallisto 更轻量。
输入与输出
| 类型 | 文件 | 说明 |
|---|---|---|
| 输入 | genome.fa | 参考基因组 |
| 输入 | genes.gtf | 基因注释,决定 junction 和 feature 的解释 |
| 输入 | sample_R1.fq.gz, sample_R2.fq.gz | 双端 RNA-seq FASTQ |
| 输出 | Aligned.sortedByCoord.out.bam | 排序后的 BAM |
| 输出 | SJ.out.tab | splice junction 结果 |
| 输出 | Log.final.out | 比对率、唯一比对率、多重比对率等 QC |
安装方式
mamba create -n rnaseq-star -c bioconda -c conda-forge star samtools fastqc multiqc
conda activate rnaseq-star
STAR --version
推荐项目目录
project_star/
├── 00_rawdata/
├── 01_qc/
├── 02_reference/
│ ├── genome.fa
│ └── genes.gtf
├── 03_star_index/
├── 04_bam/
├── 05_logs/
└── scripts/
最小可运行示例
mkdir -p 03_star_index 04_bam 05_logs
STAR --runThreadN 16 \
--runMode genomeGenerate \
--genomeDir 03_star_index \
--genomeFastaFiles 02_reference/genome.fa \
--sjdbGTFfile 02_reference/genes.gtf \
--sjdbOverhang 149
STAR --runThreadN 16 \
--genomeDir 03_star_index \
--readFilesIn 00_rawdata/sample_R1.fq.gz 00_rawdata/sample_R2.fq.gz \
--readFilesCommand zcat \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix 04_bam/sample.
samtools index 04_bam/sample.Aligned.sortedByCoord.out.bam
常用参数表
| 参数 | 含义 | 推荐值 | 注意事项 |
|---|---|---|---|
--runThreadN | 线程数 | 8-32 | 线程越多越快,但受磁盘 IO 限制 |
--runMode genomeGenerate | 构建索引模式 | 构建索引时使用 | 只需对同一参考构建一次 |
--genomeDir | STAR 索引目录 | 03_star_index | 比对时必须和建索引目录一致 |
--sjdbGTFfile | 注释文件 | GENCODE/Ensembl GTF | 强烈建议提供 |
--sjdbOverhang | read length - 1 | PE150 用 149 | 影响 junction 索引 |
--readFilesCommand | 读取压缩文件命令 | zcat | .fq.gz 必填 |
--outSAMtype | 输出 BAM/SAM 格式 | BAM SortedByCoordinate | 方便直接接 featureCounts |
--quantMode | 同时输出计数 | GeneCounts 可选 | 简单计数可用,但正式 DEG 更常用 featureCounts |
结果解读
Uniquely mapped reads %:通常希望 bulk RNA-seq 高于 70%,低于 60% 要检查污染、参考基因组或文库质量。% of reads mapped to multiple loci:重复序列或同源基因多时会升高。SJ.out.tab:可用于剪接事件、novel junction 和 rMATS 上游检查。- BAM 可进入 IGV 查看目标基因覆盖度和 junction 支持。
常见错误
| 问题 | 可能原因 | 解决办法 |
|---|---|---|
| 建索引内存不足 | 基因组过大 | 提高内存或使用 HISAT2 |
| 比对率很低 | 物种/参考版本错误 | 检查 FASTQ 物种、接头污染和 genome.fa |
| junction 异常少 | GTF 不匹配或未提供 | 统一 genome 与 GTF 来源 |
关联流程
- Bulk RNA-seq 标准差异表达分析增强版
- 可变剪接分析 rMATS/SUPPA2
- 融合基因检测 STAR-Fusion/Arriba