0%

RNA-seq分析(2)之Hisat2+FeatureCounts

本文介绍RNA-seq流程:

  • Hisat2 mapping
  • FeatureCounts 定量

1.Hisat2 mapping

Hisat2 mapping,-x即参考基因组所在的文件夹位置,-1、-2分别为read1和read2的fastq文件,然后将比对产生的sam文件转为bam并进行排序。

1
2
3
4
5
6
7
8
9
10
for i in CS-1 CS-2 PS-1 PS-2
do
hisat2 -x ~/00.reference/index/Dro.mel/genome
\ -1 03.cut/$i.r1.trimmed.fq.gz
\ -2 03.cut/$i.r2.trimmed.fq.gz
\ -p 12 -S 05.mapping/$i.sam
samtools view -S -b 05.mapping/$i.sam -o 05.mapping/$i.bam
samtools sort -l 9 05.mapping/$i.bam -o 05.mapping/$i.sorted.bam
rm 05.mapping/$i.sam 05.mapping/$i.bam
done

2.FeatureCounts定量

-T线程数,-p双端测序,-g根据gene_id进行,设置feature-type,-t指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon”,-g参数需要提供一个id identifier 来将feature水平的统计汇总为meta-feature水平的统计(即对一个基因来说,统计map到这个基因的exon上的reads数,以此来进行定量),默认为gene_id,-a参考基因组gtf文件名。

1
2
3
4
5
for i in CS-1 CS-2 PS-1 PS-2
do
featureCounts -p -T 10 -t exon -g gene_id -a ~/00.reference/01.Dmel/Dmel.gtf
\ -o 06.counts/$i.count.txt 05.mapping/$i.sorted.bam
done