首页 > 其他 > 详细

生信慕课-序列比较笔记

时间:2018-10-05 23:18:21      阅读:506      评论:0      收藏:0      [点我收藏+]

来自:中国大学mooc-山东大学 生物信息学 课程

1.什么是序列?

序列就是字符串。

技术分享图片

s就是一个序列。(原来序列是这么简单的,听着太高大上了)

蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。

核酸序列:由4个不同的字母(碱基,ATCGU)排列组合而成,包括DNA序列和RNA序列。

FASTA格式:第一行>表示注释;第二行及以后:每行60个字母或80,不一定。

 技术分享图片

图1.数据格式

2.序列相似性

技术分享图片

图2.相似比较

图中显示了序列的相似性比较,对于序列长度是非常非常长的,肉眼根本无法识别,所以就需要技术来进行识别。

 那么有序列一致度identity与相似度similarity两个概念:

技术分享图片

图3.一致度和相似度定义

技术分享图片

图4.例子

 那么这两个序列的一致度就是50%,很好计算。

但是相似度是怎么计算的呢?哪个残基和哪个残基算作相似

答:残基两两相似关系被  替换积分矩阵 所定义。

技术分享图片

图5.蛋白质替换积分矩阵长这个样子

 3.替换记分矩阵

 描述了残基两两相似性的量化关系。

技术分享图片

图6.DNA

 3种常见的替分矩阵:

 

生信慕课-序列比较笔记

原文:https://www.cnblogs.com/BlueBlueSea/p/9746254.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!