Biobank genetic data探析(一)——Genotype results
1. 前言
我从零开始学习GWAS,对大多数文件以及其意义不是很明确,而UKBiobank数据量庞大,除开whole exome sequencing 数据外的genotype results以及imputation数据大小足足有12TB,一昧将所有的数据下载所花费的时间以及存储空间是我们希望避免的。
希望以Biobank genetic data探析系列系统记录下自己的学习结果和收获。
2. Genotype results
2.1 genotype call
文件大小共0.1TB。
Genotype calls内包含三类数据:.bed,.bim,.fam,这也是PLINK常见的文件输入格式。关于这些文件的描述在网上我们可以找到许多:初探PLINK文件格式(bed,bim,fam)以及PLINK官方文档:PLINK文档。
- bed:存储了每个样本的所有的variants的信息(是否显/隐性纯合、杂合、缺失)。
- bim:没有header,每一行依次包含如下信息:
今天的文章Biobank genetic data探析(一)分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/61762.html