遗传图谱即遗传连锁图谱,是基因组研究中的一个重要组成部分,是指基因组中基因或 DNA多态性标记之间相对位置的图谱。 遗传图谱构建的基本原理是通过计算标记间的重组率确定标记的相对顺序和距离(又称为图距)。通过简化基因组(RAD 或 GBS等方法)对作图群体进行基因分型,构建遗传图谱。然后基于高质量的遗传图谱,开展后续的基因组 scaffolds 排序以及 QTL 分析等其他分析。
 
 
应用领域
  1. 应用于基因组 scaffolds 的排序,改善基因组拼接质量;
  2. QTL 定位
 

 

技术路线

 
分析内容
 
1.多态SNP标记筛选
1.1亲本间多态标记筛选
1.2子代基因分型和标记过滤
1.3有效遗传标记筛选
2.遗传图谱构建
2.1上图标记完整性分布统计
2.2连锁群构建
2.3连锁图绘制
 
3.图谱质量评估
4.QTL分析
4.1 基于CIM模型的QTL分析
4.2显著位点的筛选
4.3基于QTL分析结果绘图
4.4基于2-LOD置信区间的QTL区间定位
4.5 QTL区间内相关候选基因的功能注释;(必须有参考基因组)
 

 

 

 
样品要求
样品浓度:≥25 ng/μl,总量≥2 μg ;OD260/280 = 1.8~2.0

 

 

项目周期

标准流程完成时间为55个工作日
 
 
 
参考文献
 
[1]Xue H, Wang S, Yao J L, et al. Chromosome level high-density integrated genetic maps improve the Pyrus bretschneideri ‘DangshanSuli’v1. 0 genome[J]. BMC genomics, 2018, 19(1): 833.
[2]Chen L, Gao W, Chen S, et al. High-resolution QTL mapping for grain appearance traits and co-localization of chalkiness-associated differentially expressed candidate genes in rice[J]. Rice, 2016, 9(1): 48.
[3]Liu H, Niu Y, Gonzalez-Portilla P J, et al. An ultra-high-density map as a community resource for discerning the genetic basis of quantitative traits in maize[J]. BMC genomics, 2015, 16(1): 1078

 

 

 

Q1多倍体物种可以进行遗传图谱构建吗?

A:多倍体物种可以构建遗传图谱,例如小麦、棉花、油菜等物种等均有文献发表,这类物种的特点在于参考基因组组装到二倍体水平,故构建图谱时可按照二倍体物种的构建方法进行。

 

Q2群体大小多少才适合构建遗传图谱?

A:没有硬性的子代个体数目要求。条件允许的可以推荐150-200,条件不允许的几十到一百也可以。

 

 

 

 

多遗传图谱整合组装高质量梨树基因组

合作单位:中国农业科学院郑州果树研究所

发表杂志:《BMC genomics》

影响因子:3.594

 

 

研究材料

(1)两个梨树杂交的CP(F1)群体MH(345株个体)和YM(162株个体)进行GBS测序,以便构建遗传图谱;

(2)从网上下载了梨树基因组文章中使用的遗传群体的高密度遗传图谱数据(BD群体)。因为梨树基因组虽然没有染色体级别的参考基因组公布,但基因组文章中使用的群体的遗传图谱和进一步加密标记的高密度遗传图谱均已经公布。

 

研究内容

(1)对两个新遗传图谱进行构建,并对三个图谱进行整合,得到更高质量的整合遗传图谱以及更高质量的染色体级别参考基因组;

(2)对新完成的参考基因组,与最新发表的金冠苹果双单倍体GDDH13基因组进行共线性比较,辅助评价新版本基因组的准确性;

(3)使用新版基因组重新分析之前QTL分析结果

 

各个图谱的概况

在去除冗余标记后,两个图谱的最终上图标记的数量分别为2606和2489个。这里要强调,遗传图谱不一定要追求标记多,更重要是标记的有效性。只有标记近似平均分布,才能达到更好的染色体覆盖度水平。

如下表,网上下载的BD遗传图谱,看似上图标记更多(3143个),但分布的均一性却不如本研究中新加入的MH和YM图谱。在BD图谱中,很多scaffold只有一个标记(212个),比例明显高于MH和YM图谱。一个scaffold只有一个标记的坏处是显而易见的:

(1)容易导致scaffold排序错误(只有1个标记,那么这个标记错了,scaffold的定位也就错了);

(2)凡是只有1个标记的scaffold,在后续组装中是无法确定其在基因组中的方向的(后续会提到)。

从下表中可以看到,如果依靠单个图谱能锚定到染色体的scaffold只能占基因大小的70%左右,所以整合3个图谱是非常有必要的。

备注:梨树基因组文章中有额外使用了大概100多个SSR标记,但由于位置信息缺失,本研究在BD图谱中没有保留这些SSR标记。

 

表1 三个图谱的基本概况

 


图1 MH和YM 群体仅有一个标记的scaffold(蓝色部分)极少

 

 

图谱整合

 将3个图谱进行整合,锚定到染色体的scaffold长度进一步提高到基因组大小的78.8%。且能确定方向的scaffold占到了基因组的74.5%。

表2  整合图谱标记信息统计

图2  一个scaffold有至少两个标记是scaffold确定方向的前提

Scaffold确定方向的前提是scaffold上至少有两个标记,如下图3。当然,即使scaffold上有多于2个标记,但标记的位置相互冲突(例如,锚定到不同的连锁群上),也依然无法确定scaffold的准确方向。

Scaffold方向的确定对遗传育种研究中的图位克隆是非常重要的。因为精细定位是逐步缩小范围的过程,如果scaffold方向排错了,无疑会让育种家有“误入歧途”的风险。

 

基于整合图谱的3个子图谱比较

综合的数据越多,结果越可靠,这是做大部分事情的基本逻辑。类似的,单个遗传图谱构建不可避免存在错误。但如果多个图谱整合,按照少数服从多数的原则(算法上就是引入权重系数),自然会最大限度纠正单一图谱的错误,从而获得更加可靠的整合图谱。

图3 十七条染色体的3个图谱比较

图4 整合图谱1号染色体(上)和7号染色体(下)

在详细比较各个染色体后,可以发现新版的基因组可以有效纠正原参考基因组的多个错误(因为原参考基因组的scaffold排序使用的是单一BD图谱,因此BD图谱的错误应该会导致参考基因组的错误)。

例如,在整合图谱中,发现BD图谱的1号连锁群只有一部分属于1号染色体(图4上),大部分应该归属于7号染色体(图4下)。从整合图谱的7号染色体看(图4下),MH和YM图谱高度一致,而BD图谱除了7号连锁群以外,还有1号和17号连锁群也属于这个染色体。

 

除了纠正染色体级别的错误外,原基因组序列在染色体内也存在排序错误。例如从整合图谱的14号染色体来看,本研究构建的MH和YM群体的图谱是高度一致的(相关系数大于0.96)。

而之前的BD图谱,则潜在存在数量较大的标记排图错误(从图6左侧的共线性图可以看出BD-14的线条存在大量交叉,右侧的散点图也显示标记位置相关性仅0.647)。 这些错误的纠正无疑为后续的基因定位打下很好的基础。

图5 整合图谱14号染色体

 

 

与苹果的共线性比较

 

苹果和梨是蔷薇科的两个近缘种,两者染色体数相同,存在高度同源性。因此,可以用两个物种基因组的比较,来辅助判断新版本梨基因组的准确性。结果如下图,两者的各条同源染色体高度一致(大部分同源染色体,对应同源基因位置的相关性在95%以上),从而也从侧面佐证了新版基因组较好的可靠性。

图6 苹果与梨的基因组共线性比较

图7 与旧版本苹果基因组(左)以及新版本苹果基因组(右)16号染色体的比较

 

 

小结

(1)早期公布的参考基因组,由于技术的限制,不可避免存在较多组装错误,给后续的研究应用带来了诸多不便;

(2)随着三代测序、Hi-C、遗传图谱等技术的发展,低成本组装高质量参考基因组已成为可能。那么,对早期研究公布的基因组进行重新拼接和纠错是十分有必要的。

(3)任何单一技术都有存在错误的可能。例如,Hi-C基于染色体三维结构,在判断局部scaffold精细位置关系的时候就存在错误的风险。同样的,尽管遗传图谱对基因组组装有巨大的价值,但单个遗传图谱的标记排列错误也是难以避免的。在本研究中,基于3个图谱的整合,最终证明可以生成更加可靠的一致图谱。

 

 

参考文献

Xue, Huabai, et al. "Chromosome level high-density integrated genetic maps improve the Pyrus bretschneideri ‘DangshanSuli’v1. 0 genome." BMC genomics 19.1 (2018): 1-13.