2023年11月24日,上海师范大学生命科学学院与深圳华大生命科学研究院合作,在国际知名期刊《Nucleic Acids Research》发表了题为《CropGS-Hub: a comprehensive database of genotype and phenotype resources for genomic prediction in major crops》的文章。研究团队开发了一个名为CropGS-Hub的作物基因组选择平台,收集了7个重要农作物的群体基因型、农艺表型和QTL位点等数据,集成了多种全基因组选择(GS)模型算法,开发了从测序数据输入、GS模型构建到生成表型预测报告的“一站式”分析系统(图1),对基因组选择的方法研究和作物育种实践具有指导意义。
图1|CropGS-Hub的资源和功能模块
全基因组选择(Genomic Selection)是一种广泛应用的育种技术,可利用基因组信息和构建的GS模型来预测并选择具有目标特征的个体,从而加快育种进程,推动育种向精准化和高效化的方向发展。为了充分利用种质资源并推进作物育种工作,整合作物群体的基因组和表型数据资源以及建立开放的育种数据库和功能平台变得尤为重要。目前已经开发了许多整合作物材料遗传变异和GWAS位点等信息的基因组信息平台;然而,集合作物群体基因组信息和GS分析功能的育种平台却较为稀缺。
CropGS-Hub平台可分成育种数据资源和GS功能模块两大部分。在数据资源中,平台整合了包括水稻、玉米、大豆、棉花、谷子、鹰嘴豆、油菜共7种主要农作物在内的14个群体的数据,涵盖了总计30,645份个体的基因型和表型数据。研发团队利用统一标准化的GWAS分析方法和显著性阈值标准获得了每个物种中每个农艺性状的基因组关联变异,并对关联变异进行了变异效应和表型效应的注释。平台支持群体基因型、表型和全部关联变异的查询和下载,同时提供了基因组浏览器工具方便对变异信息和GWAS结果进行可视化。
为了实现GS分析模块的在线应用,研究团队基于7种作物群体的基因型、农艺表型,利用6种算法(GBLUP、rrBLUP、BayesL、BayesR、BayesCpi和LightGBM)构建了GS模型,并评估了每种模型的预测准确性。平台开发了3种GS相关的功能模块,“表型预测(Phenotype Prediction)”、“杂交设计(Crossing Design)”和“用户模型训练(User Model Training)”(图2)。其中, “表型预测”功能模块是基于7种作物的14个群体数据完成开发。在该模块中,用户上传目标材料的基因型文件,即可获得6种GS模型预测的目标表型信息。“杂交设计” 模块是基于水稻或玉米杂交种群体进行建模。用户可以上传自交系亲本基因型,在网站中选择按照“一对多”或者“多对多”的方式进行组配,获得组配的F1子代基因型,并完成表型预测。在“用户模型训练”模块中,CropGS-Hub的功能并不限于7种作物,用户可上传任何物种育种群体的表型、基因型数据。平台可根据用户所选模型完成模型构建和目标样本的表型预测。此外,平台在完成GS分析后,会将结果报告自动通过邮件发送给用户。报告以 HTML形式提供可视化的图表,方便用户进行候选材料的选择。
图2 | CropGS-Hub中主要模块和界面总览
此外,高通量测序数据的在线分析平台往往会面临着一个困难,即如何与在线网站平台兼容处理大规模数据(以Gb为单位)。在本研究中,针对GS在线平台开发,一个主要的瓶颈是如何基于目标材料的原始测序数据,快速获得GS模型对应的几千至几个目标位点的基因型。为解决此问题,研究团队优化了分型流程,开发了一个可在本机环境(Linux或Windows)运行的工具包 “SNPGT”。相对于传统的流程,该工具包在确保分型准确性的基础上,运行效率大幅提升。例如对于一个测序深度10×的水稻株系,在针对6215个目标SNP位点分型时,在相同机器环境下速度提升了18倍(运行时间从115分钟减少到约6分钟)(图3)。因此,用户可以利用“SNPGT” 工具包快速地将原始测序数据(几个Gb)转换成基因型矩阵(几个Mb),进而上传到CropGS-Hub进行后续分析。
图3|CropGS-Hub分型插件SNPGT的分型优化流程及速度和准确性评估
总之,CropGS-Hub率先提供了一个以GS功能为主的综合性作物基因组育种平台,在推动GS育种普遍化和数据合作共享上具有重要意义。
上海师范大学生命科学学院博士研究生陈嘉欣、深圳华大生命科学研究院/武汉华大生命科学研究院谈聪副研究员,上海师范大学硕士研究生朱旻和中国科学院大学博士研究生张辰阳为