完整的转录本包括了从5’端到3’端polyA尾的序列,长度集中分布在1-6kb。二代测序技术由于读长较短,得到的测序片段需要拼接,得到的转录本可能会产生拼接错误和较多的嵌合体,从而不能得到完整的转录本。第三代测序技术Pacbio利用单分子实时测序技术(SMRT),由于其超长的读长(平均15kb),无需拼接即可直接获取完整的全长转录本,因此可得到更高质量的转录本,有利于mRNA结构的研究,如可变剪切、融合基因、等位基因表达等。因此,全长转录本的研究越来越热门,发表的文章影响因子也比简单用二代测序RNA-seq要高。

 

目前第三代测序仪器最主要是美国太平洋生物技术公司( Pacific Biosciences)的RS II和Sequel。Sequel也是基于单分子实时测序技术的最新测序平台,其数据产出比RS II提高了约7倍,测序成本更低、项目周期更短。

 
利用Pacbio三代测序仪进行全长转录组的测序有以下优势:
1. 超长读长:读长最长可达到约80kb,平均8~15kb,轻松解决二代测序所不能解决的重复序列问题;
2. 通量高:RS II平台一个SMRT cell可产生约0.5~1Gb数据,而Sequel平台一个SMRT cell可产生5~10Gb数据;
3. 无GC偏好性:
4. 直接检测碱基修饰:可直接检测各种类型的DNA甲基化。

 

 


应用领域

1. 获取无参考基因组物种较完整的参考编码序列
2. 不同实验处理后引起的可变剪切事件变化
3. 更准确的定量分析

 

 

 

技术路线

 

 

分析内容

1. 标准信息分析
1.1原始测序数据统计及质控
1.2Reads分类
1.3 Reads聚类和校正
1.4全长isoform数据统计
1.5 基因基本功能注释
     a) Nr注释
     b) GO功能注释
     c) COG/KOG注释
     d) KEGG代谢通路注释
     e) SwissProt蛋白注释
1.6基因高级功能注释
     a) 预测编码蛋白框(CDS)
     b) 转录因子分析
     c) R基因分析(植物)
     d) 蛋白结构域分析(Pfam, SMART)
     e) TMHMM跨膜螺旋结构预测
  
 f) SignalP信号肽结构预测
 g) 蛋白O-GlcNAc糖基化位点预测(哺乳动物)
 h) ProP弗林蛋白酶裂解位点预测(真核生物)
1.7结构分析
     a) 串联重复单元检测(SSR)
     b) lncRNA分析
     c) 可变剪切分析
 
2. 定制化信息分析
a) 二代数据校正三代数据(需有Illumina数据)
b) 基因定量及差异表达分析(需有Illumina数据)
c) 多组学关联分析(如甲基化、蛋白组、miRNA)
 
 
 
 
 
 
 
 
 
 
样本要求
胶图检测:条带清晰,无明显降解,无DNA污染
2100检测:RIN值≥7.5,基线平整,200-1200bp 无峰带;
总量≥10ug(两次建库);浓度≥300ng/ul
OD260/280:1.6~2.2,OD260/230:1.4~2.5

 

项目周期

标准流程的运转周期约为55个工作日。

 
 
参考文献
 
[1] Li J , Haratalee Y , MD Denton, et al. Long read reference genome-free reconstruction of a full-length transcriptome from Astragalus membranaceus reveals transcript variants involved in bioactive compound biosynthesis.[J]. Cell Discovery, 2017, 3:17031.
[2] Mi K , Jae-Sung R , Tae K , et al. Alternative Splicing Profile and Sex-Preferential Gene Expression in the Female and Male Pacific Abalone Haliotis discus hannai[J]. Genes, 2017, 8(3):99-.
[3] Liu X , Mei W , Soltis P S , et al. Detecting alternatively spliced transcript isoforms from single‐molecule long‐read sequences without a reference genome[J]. Molecular Ecology Resources, 2017, 17(6).
 

 

 

 

 

Q1有参三代全长转录组和无参三代全长转录组的分析内容各有哪些?

A:1. 有参三代全长转录组分析内容:可变剪接、可变多聚腺苷酸化、融合基因、LncRNA分析、开放阅读框分析、TF分析、SNP/Indel分析、基因结构优化;

      2. 无参三代全长转录组分析内容:

a) 基本注释:NR、SwissProt、KEGG 和 COG/KOG、GO等数据库的注释

b) 高级注释:CDS预测、Pfam蛋白结构域分析、SMART蛋白结构域分析、TF分析、TMHMM跨膜螺旋结构分析、信号肽预测等

c) 结构分析:串联重复单元分析、可变剪切分析、LncRNA分析

 

 

 

 

拟穴青蟹三代全长转录组测序

 

合作单位:集美大学

发表期刊:Scientific Reports

影响因子IF:4.011

 

 

研究样本

健康性成熟的雄性和雌性拟穴青蟹各4只,采集12种不同组织(鳃、肝胰脏、肌肉、脑神经节、眼肌、胸神经节、肠、心脏、睾丸、卵巢、精巢和血细胞)混合后测序。

 

 

 

研究结果

文章先提取样本中RNA进行建库,对得到的全长序列进行去冗余聚类,并用非全长序列对其进行校正,得到全长转录本,对序列结果进行评价,共获得了79,005个高质量unique转录本。然后用Nr、SwissProt、COG/KOG、GO、KEGG数据库进行蛋白和基因功能注释。之后进行了一系列基因的结构分析,包括对没有注释到的转录本鉴定lncRNA,以及用转录本鉴定SSR。结果发现大多数SSRs为二核苷酸重复序列(58.53%)(图1A)。

在二核苷酸、三核苷酸、四核苷酸重复序列中,AC/GT、AAT/ATT和AAAT/ATT分别是最主要的模式。随后又在可变剪切的分析中发现,转录组存在7种不同的剪切类型,保留内含子(RI)是可变剪切的主要类型,占到了50%以上(图1B)。还对基因的isoform进行了分析,结果表明一些基因的isoform甚至超过10种。

图1 (A) SSR分布图。(B)为拟青蟹转录组中可变剪切的统计。

 

 

参考文献:

Wan, Haifu, et al. "The Single-molecule long-read sequencing of Scylla paramamosain." Scientific reports 9.1 (2019): 1-11.