知方号

知方号

基因组组装:contig,scaffold ,Chromosome

最近在使用老版本的基因组时,需要从V4转到V3,使用Picard的Liftover函数一直报错,经查询可能是基因组文件有问题。在经历多次探索,发现基因组文件不正确。基因组文件格式一般是:fasta或者是fa.gz在基因组组装时,是从contig组装成scaffold,然后在根据图谱,组装到Chromosome染色体上。我把Scaffold当作Chromosome格式使用,程序自然会报错。

目前可以使用三代测序数据重新组装基因组,从scaffold到chromosome水平。最新的工具:RaGOO(基于minimap2). github论文

contig/scaffold 和 N50/N90

把测序的reads拼接,如果可以完全拼接起来,中间没有gap,则是contig.如果中间有gap,但是知道gap的长度,这样的序列称为scaffold.contig N50 和scaffold N50把contig或scaffold按照从大到小的顺序排列,长度达到基因组大小(所有contig或scaffold的长度)的50%时,那条contig/scaffold的长度,即为contig/scaffold N50. N50越大,说明基因组组装的质量越高。同理还有N90,即达到基因组大小90%时的contig/scaffold的长度。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。