0%

RiboMiner获取最长转录本信息

本文总结利用RiboMiner包获取最长转录本信息及序列。

1. 得到所有转录本的信息

1
prepare_transcripts -g Homo_sapiens.GRCh38.88.gtf -f Homo_sapiens.GRCh38.dna.primary_assembly.fa -o Ribo_ann
  • input
    • 基因组gtf文件
    • 基因组序列
  • output
    • transcripts_cds.txt 所有转录本的cds序列信息
    • transcripts_sequence.fa 所有转录本序列

2. 得到最长转录本的信息

1
OutputTranscriptInfo -c transcripts_cds.txt -g Homo_sapiens.GRCh38.88.gtf -f transcripts_sequence.fa -o longest.transcripts.info.txt -O all.transcripts.info.txt
  • input:
    • transcripts_cds.txt 所有转录本的cds序列
    • transcripts_sequence.fa 所有转录本序列
    • Homo_sapiens.GRCh38.88.gtf 参考基因组gtf文件
  • output:
    • longest.transcripts.info.txt 最长转录本的信息
    • all.transcripts.info.txt 所有转录本的信息

3. 得到最长转录本的序列

1
2
3
GetProteinCodingSequence -i transcripts_sequence.fa  -c longest.transcripts.info.txt -o output_prefix --mode whole --table 1 {-l -r -S}

GetProteinCodingSequence -i transcripts_sequence.fa -c longest.transcripts.info.txt -o longest
  • input:
    • longest.transcripts.info.txt 最长转录本的信息
    • transcripts_sequence.fa 所有转录本的序列
  • output:
    • longest_amino_acid_sequences.fa 最长转录本的氨基酸序列
    • longest_cds_sequences.fa 最长转录本的cds序列
    • longest_transcript_sequences.fa 最长转录本的基因组序列

4. 得到UTR序列

1
2
3
4
5
GetUTRSequences -i input_transcript_sequences.fa -o output_prefix -c transcripts_cds.txt

GetUTRSequences -i longest_transcript_sequences.fa -o longest -c Ribo_ann/transcripts_cds.txt

GetUTRSequences -i Ribo_ann/transcripts_sequence.fa -o all -c Ribo_ann/transcripts_cds.txt
  • input:
    • input_transcript_sequences.fa 从transcript_sequence.fa中得到的任何序列
    • transcript_cds.txt 转录本的cds起始位置信息
  • output:
    • prefix/longest/all_3UTR.fa 3UTR序列
    • prefix/longest/all_5UTR.fa 5UTR序列
    • prefix/longest/all_CDS.fa CDS序列
    • prefix/longest/all.transcripts.info.txt 转录本信息

参考:
1.https://github.com/xryanglab/RiboMiner