返回数据库导航

Database Tutorial

Ensembl基因组与注释Database Tutorial

下载参考基因组与 GTF

构建 STAR/HISAT2 索引或做 featureCounts 计数前,先统一 genome FASTA 与 GTF 注释版本。

数据库
Ensembl
资源类型
基因组与注释
地区
Europe
推荐等级
5/5

Quick Steps

教程步骤速览

先快速看完整操作路径,再进入下方详细教程。

  1. STEP 1

    进入 Ensembl FTP,选择物种目录和 release 版本。

  2. STEP 2

    从 fasta 目录下载 genome FASTA,从 gtf 目录下载对应 GTF。

  3. STEP 3

    记录 release 号,并在流程文档中固定该版本。

Example Query

示例查询

复制这个关键词或编号,可以快速进入数据库检索练习。

Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz + Homo_sapiens.GRCh38.*.gtf.gz

Tutorial

数据库使用教程

按教程完成检索、筛选、下载和结果确认。

下载 Ensembl 参考基因组与 GTF

适用场景

当你要构建 STAR/HISAT2 索引、运行 featureCounts、做基因坐标注释或统一 RNA-seq 项目的参考版本时,需要同时下载同一 release 的 genome FASTA 和 GTF。

准备目录

mkdir -p reference/ensembl_GRCh38
cd reference/ensembl_GRCh38

操作步骤

  1. 进入 Ensembl FTP:https://ftp.ensembl.org/pub/
  2. 选择固定 release,例如 release-112
  3. fasta/homo_sapiens/dna/ 下载 primary assembly FASTA。
  4. gtf/homo_sapiens/ 下载同一 release 的 GTF。
  5. 解压后记录 release、物种、assembly 名称。

示例命令

wget https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
wget https://ftp.ensembl.org/pub/release-112/gtf/homo_sapiens/Homo_sapiens.GRCh38.112.gtf.gz

gunzip *.gz

结果检查

grep -c '^>' Homo_sapiens.GRCh38.dna.primary_assembly.fa
head Homo_sapiens.GRCh38.112.gtf

常见问题

问题原因解决
STAR 建索引后 featureCounts 计数很低FASTA 和 GTF 版本不一致使用同一 Ensembl release
染色体命名不一致1chr1 混用全流程统一 Ensembl 或 UCSC 命名
下载文件太多选错目录FASTA 只选 primary_assembly 或 toplevel 之一