《生物信息学:导论与方法》–本体论、分子通路鉴定–听课笔记(十九)

《生物信息学:导论与方法》–本体论、分子通路鉴定–听课笔记(十九)第九章本体论、分子通路鉴定9.4分子通路鉴定Youhavegotasetofgenesorproteinsfromyourexperiments. Howcanyoufindoutwhichpathwaystheproteinsbelongto? Howcanyoufindoutwhichwerethemostsigni…

第九章  本体论、分子通路鉴定

9.4 分子通路鉴定

  • You have got a set of genes or proteins from your experiments.
  • How can you find out which pathways the proteins belong to?
  • How can you find out which were the most significant pathways?
  • 为了后续的计算方便,把KEGG数据库分解之后,存到本地。
  • 将KO(KEGG Orthology)中的条目的信息,包括ID,对应的pathway等全部用python parse出来,然后用mysql存入本地数据库。类似爬虫?
  • 同时将KEGG数据库里相关的基因的序列和ID也存到本地数据库。
  • 有了这样的本地数据库,给一个新的基因,就可以用计算机把他们对应到已知基因上。
  • Mapping an input gene to pathway(s):
  1. ID mapping: Genbank GI; Entrez Gene ID; Ensembl Gene ID; UniProtKB AC
  2. ID mapping找不到几个通路,可以用Sequence similarity mapping: newly discovered genes; genes in a poorly annotated species, 这种方法基于的假设是同源基因在不同的物种里会参与类似的通路。
  • Sequencing Mapping就是每一个输入的序列和KEGG里的基因做一个blast的比较。为了避免假阳性的出现,定义了rank,如rank<=5, 即为blast结果的前5个基因中至少有一个要有通路的注释。
  • Evaluation of pathway annotation by sequence similarity: precision = TP/(TP+FP) ; coverage=TP/N (所有得到的基因中有多少有正确的注释) 。 precision和coverage之间是有tradeoff的,权衡。
  • Which pathways are significant?
  • Most frequent pathways, 覆盖的基因越多,但是有一些分子通路很大,即使是完全随机产生的一组基因,没有任何生物学意义,也会使大的通路覆盖的基因较多。
  • 有时候实验做的不好,可能一组基因都是噪音。
  • 期望软件有一定的方法能把噪音和有意义的通路分开:Most enriched pathways.
  • 《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(十九)
  • 所有基因组有N个基因落在M个通路里,你的实验里有n个基因落在m个通路里。
  • When we take n genes from all N background genes, what is the probability of getting m genes from a specific pathway of size M just by chance? Null hypothesis
  • If this happens just by chance, then this pathway is not special for your experiment.
  • p-value: the probability that the data have occured have occurred by chance assuming that the null hypothesis is true. p-valu的含义就是如果零假设是真的,完全是随机地看到n个基因中有落在m个通路里的概率是多大?如果概率非常小,那么这组基因可能与这个通路有关联。这样就reject了零假设。
  • p-value越小,犯错误的概率越小。常用的值为0.01,0.05。
  • 不同的问题,不同的零假设,不同的数据特征所用的统计方法是很不一样的,它假设的概率模型也很不一样。
  • 《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(十九)
  • Multiple testing correction after hypergeometric test: 多假设检验的矫正,只要做了多次的statistical test,就要做多假设矫正。
  • FDR矫正,矫正的是false discovery rate:E{FP/(TP+FP)}  much less conservative
  • KOBAS web server
  • KOBAS 2.0也集成了疾病相关的数据库。
  • KOBAS也有本地版本,可以在linux系统下运行。
  • 《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(十九)

9.5 应用:药物成瘾共同分子通路的鉴定

  • Which genes are related to addiction? 不同的成瘾有没有共同的分子通路?
  • 首先需要知道哪些基因和成瘾有关,然后他们团队的一个成员看了1000多篇文献。。。oh my god
  • 将与成瘾相关的基因都总结出来,第一类通过遗传策略;第二类通过分子生物学的策略,比如基因的差异表达等。
  • 通过两大策略找到的基因只有4个overlap,的确复杂疾病遗传和分子生化领域的人经常掐架,为啥我找到了,你没找到。。。
  • Genetic and molecular biological technologies often detect different parts of the same pathways/networks. 两类实验策略虽然找到的基因上交叉很少,但是更多地落在同样的代谢通路和同样的蛋白相互作用网络上,经常一个方法找到的同一个通路的不同基因。
  • 所以结果就是基因上没有overlap,但是分子通路上有很强的overlap。
  • Collection of meta-data enables detailed analysis
  • 生物信息学中,数据库存储data的同时也要存储meta-data,即要记录下每个基因是用什么方法和什么实验技术找到的。
  • reference: Genes and (Common) Pathways Underlying Drug Addiction  这项研究成果在国际上引起了很大的反响。因为发现了两个从未被报道过与成瘾有关的通路,而通路上各个基因被世界各地的人们用不同的方法发现过。
  • To facilitate communication and computation:
  1. store data in database whenever possible
  2. define an ontology for the data
  3. collect meta-data together with data
  • To discover higher level patterns in a set of genes or gene products
  1. identify the most significant pathways and functional categories
  2. perform statistical analysis such in KOBAS

9.6 数据库系统简介

  • 数据库是数据的集合。
  • Database management system(DBMS), 是由一个互相关联的数据集合和一组用以访问这些数据的程序组成。
  • DBMS提供高效、可靠、方便、安全的多用户存储和访问大量持续存在的数据。
  • 数据库结构的基础是数据模型。
  • 数据模型是一个描述数据、数据联系、数据语义、以及一致性约束的概念工具的集合。
  • 数据模型包括以下四类:
  1. Relational model,关系模型,使用最广泛
  2. Entity-relationship model,实体-联系模型
  3. Object-based data model,基于对象数据模型
  4. Semistructured data model,半结构化模型
  • Key,键,关系模型中的一个重要概念。键可以是每行值都唯一的列,也可以是每行组合值都唯一的一组列。
  • 利用键可以查找特定的行,建立索引提高查找效率,以及关联数据库中不同的表。
  • 数据参照完整性,reference integrity. 拒绝执行导致完整性被破坏的操作。
  • 数据库系统提供一种数据定义语言用于定义数据库模式,Data-Definition Language DDL;和一种数据操纵语言用于表达数据库的查询和更新,Data-Manipulation Language,DML。
  • SQL提供了一个丰富的DDL语言,通过它可以定义表、完整性约束、断言等。
  • SQL查询语言是非过程化的,以几个表为输入,总是仅返回一个表。
  • 开源数据库软件: MySQL、SQLite、PostgreSQL
  • 推荐了一门Coursera课程:Introduction to Databases
  • 每次看到熟悉的学过的内容,就很亲切啊。。。。

今天的文章《生物信息学:导论与方法》–本体论、分子通路鉴定–听课笔记(十九)分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/11590.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注