RiboMiner获取最长转录本信息

本文总结利用RiboMiner包获取最长转录本信息及序列。

1. 得到所有转录本的信息

1	prepare_transcripts -g Homo_sapiens.GRCh38.88.gtf -f Homo_sapiens.GRCh38.dna.primary_assembly.fa -o Ribo_ann

input
- 基因组gtf文件
- 基因组序列
output
- transcripts_cds.txt 所有转录本的cds序列信息
- transcripts_sequence.fa 所有转录本序列

2. 得到最长转录本的信息

1	OutputTranscriptInfo -c transcripts_cds.txt -g Homo_sapiens.GRCh38.88.gtf -f transcripts_sequence.fa -o longest.transcripts.info.txt -O all.transcripts.info.txt

input:
- transcripts_cds.txt 所有转录本的cds序列
- transcripts_sequence.fa 所有转录本序列
- Homo_sapiens.GRCh38.88.gtf 参考基因组gtf文件
output:
- longest.transcripts.info.txt 最长转录本的信息
- all.transcripts.info.txt 所有转录本的信息

3. 得到最长转录本的序列

1
2
3

GetProteinCodingSequence -i transcripts_sequence.fa  -c longest.transcripts.info.txt -o output_prefix --mode whole --table 1 {-l -r -S}

GetProteinCodingSequence -i transcripts_sequence.fa  -c longest.transcripts.info.txt -o longest

input:
- longest.transcripts.info.txt 最长转录本的信息
- transcripts_sequence.fa 所有转录本的序列
output：
- longest_amino_acid_sequences.fa 最长转录本的氨基酸序列
- longest_cds_sequences.fa 最长转录本的cds序列
- longest_transcript_sequences.fa 最长转录本的基因组序列

4. 得到UTR序列

GetUTRSequences -i input_transcript_sequences.fa -o output_prefix -c transcripts_cds.txt

GetUTRSequences -i longest_transcript_sequences.fa -o longest -c Ribo_ann/transcripts_cds.txt

GetUTRSequences -i Ribo_ann/transcripts_sequence.fa -o all -c Ribo_ann/transcripts_cds.txt

input:
- input_transcript_sequences.fa 从transcript_sequence.fa中得到的任何序列
- transcript_cds.txt 转录本的cds起始位置信息
output:
- prefix/longest/all_3UTR.fa 3UTR序列
- prefix/longest/all_5UTR.fa 5UTR序列
- prefix/longest/all_CDS.fa CDS序列
- prefix/longest/all.transcripts.info.txt 转录本信息

参考：
1.https://github.com/xryanglab/RiboMiner