知方号

知方号

现学现卖序列比对之identity VS similarity

今天对次生代谢产物基因簇(BGCs)的氨基酸序列比对的时候,看到结果文件里有%identity和%similarity两类输出结果。

上次比较了标准差和标准误(【现学现卖】标准差VS标准误),这次看看这两个概念——一致度(identity)和相似性(similarity)。

%identity指的是两条碱基序列或者两条氨基酸序列的相同比对长度中,对应位置上相同残基的数目占总长度的百分数。

比如上面的一段长131的氨基酸序列,完全对应的绿色部分占总长的95%。

%similarity指的是对应位置上相同和相似的参基占总数的百分数。

对于上面的不完全匹配的氨基酸残基,存在氨基酸保守性替换,所以虽然不是完全一致,但是相似性为100%。

一般用相似性和一致性推测两个序列的同源性 (好像identity>30%,similarity>50%可以说是同源的,没有查到明确的量化指标,可能也需要根据基因、蛋白质功能进一步确认吧)。

同源性(homology)是一个进化学上的概念,没有程度,只有同源或者不同源。所以说两个序列95%同源,或者高度同源都是不恰当的。

PS. 对于微生物中次生代谢产物基因簇分析,注意比对core biosynthesis genes的相似度。因为基因簇中有很多基因,主要的合成基因和一些调控基因等。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。