本文总结利用RiboMiner包获取最长转录本信息及序列。
1. 得到所有转录本的信息
1
| prepare_transcripts -g Homo_sapiens.GRCh38.88.gtf -f Homo_sapiens.GRCh38.dna.primary_assembly.fa -o Ribo_ann
|
- input
- output
- transcripts_cds.txt 所有转录本的cds序列信息
- transcripts_sequence.fa 所有转录本序列
2. 得到最长转录本的信息
1
| OutputTranscriptInfo -c transcripts_cds.txt -g Homo_sapiens.GRCh38.88.gtf -f transcripts_sequence.fa -o longest.transcripts.info.txt -O all.transcripts.info.txt
|
- input:
- transcripts_cds.txt 所有转录本的cds序列
- transcripts_sequence.fa 所有转录本序列
- Homo_sapiens.GRCh38.88.gtf 参考基因组gtf文件
- output:
- longest.transcripts.info.txt 最长转录本的信息
- all.transcripts.info.txt 所有转录本的信息
3. 得到最长转录本的序列
1 2 3
| GetProteinCodingSequence -i transcripts_sequence.fa -c longest.transcripts.info.txt -o output_prefix --mode whole --table 1 {-l -r -S}
GetProteinCodingSequence -i transcripts_sequence.fa -c longest.transcripts.info.txt -o longest
|
- input:
- longest.transcripts.info.txt 最长转录本的信息
- transcripts_sequence.fa 所有转录本的序列
- output:
- longest_amino_acid_sequences.fa 最长转录本的氨基酸序列
- longest_cds_sequences.fa 最长转录本的cds序列
- longest_transcript_sequences.fa 最长转录本的基因组序列
4. 得到UTR序列
1 2 3 4 5
| GetUTRSequences -i input_transcript_sequences.fa -o output_prefix -c transcripts_cds.txt
GetUTRSequences -i longest_transcript_sequences.fa -o longest -c Ribo_ann/transcripts_cds.txt
GetUTRSequences -i Ribo_ann/transcripts_sequence.fa -o all -c Ribo_ann/transcripts_cds.txt
|
- input:
- input_transcript_sequences.fa 从transcript_sequence.fa中得到的任何序列
- transcript_cds.txt 转录本的cds起始位置信息
- output:
- prefix/longest/all_3UTR.fa 3UTR序列
- prefix/longest/all_5UTR.fa 5UTR序列
- prefix/longest/all_CDS.fa CDS序列
- prefix/longest/all.transcripts.info.txt 转录本信息
参考:
1.https://github.com/xryanglab/RiboMiner