本文介绍RNA-seq上游分析之数据质控:
- fastqc质控
- 去除接头序列
- reads trim
- 去除rRNA序列
- rRNA index
- 反向mapping
1.fastq文件质控
1 | fastq -f fastq -t 10 -o ./ ./myfastq_r1.fq.gz ./myfastq_r2.fq.gz |
之后会产生质控报告和zip文件,查看报告,可以看到base quality、GC content等信息。质控报告每个版块的具体的意义参考(https://zhuanlan.zhihu.com/p/20731723 )。
2.去除接头序列
RNA-seq建库测序时,会在样品末端加上接头序列,在后续的步骤中需要去除。
1 | Usage: |
去除接头序列,这里我用cutadapt,对于双端测序来说,需要去掉read1和read2两个序列,参数-a和-A分别是read1和read2序列的3’端序列。-e即error rate,-n为2即最多每条read最多去掉两个adapter,-m为20去掉adapter之后若reads长度小于20,则去掉这条reads,–pair-filter这个参数对于双端测序而言,read1和read2都有可能检测到接头。如果选择any,则只要两个中其中一个检测到接头,read1和read2均舍弃;如果选择both,则必须两个都检测到接头,read1和read2才舍弃,-j线程数,-q [5’CUTOFF,]3’CUTOFF参数,quality cutoff,去掉5’端、3’端碱基质量低于该值。双端测序需要提供两个值。
1 | cutadapt -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT |
3.去除测序刚开始时不稳定的reads
测序仪进行测序时,刚开始10bp左右的reads测序不稳定,可以进行适当修剪。
1 | cutadapt -u 10 -o trimmed.fastq input_reads.fastq |
4.去除rRNA序列
有时候质控得到的结果中GC含量为双峰,这可能是一些RNA过表达引起的GC偏好,需要去除一些rRNA序列或是其他我们并不关心的序列,但是也并不必过于担忧,RNA-seq中本身就有一些表达量高的序列,所以质控报告中只要一些如碱基质量等的关键因素满足要求,后续只是进行差异表达等的分析,不去除也是可以的。
首先,我们需要在NCBI数据库中下载rRNA序列的fasta文件,然后用Hisat2进行比对,保留没有比对上的序列即可,过程如下:
4.1 构建索引
1 | hisat2-build -p 10 rRNA.fasta ./rRNA/rRNA |
4.2 输出没有比对上的序列
–un-conc-gz参数输出没有比对上的序列。
1 | for i in CS-1 CS-2 PS-1 PS-2 |
这一步进行完之后便会发现fastq文件小了许多,这便是去除成功了。然后便可以继续接下来的分析了。
参考资料:
1.https://zhuanlan.zhihu.com/p/20731723
2.https://mp.weixin.qq.com/s/jVTmp4VJQxB6Lwxh1QmNkA