嘉宾介绍:谭光明,中国科学院计算技术研究所副研究员、博士生导师。
主要研究方向为并行算法、编程与体系结构,负责计算机体系结构国家重点实验室和曙光团队的并行算法小组的研究工作。作为科研骨干参加了863项目曙光4000/5000/6000(星云)系统的研制;承担并参与了多项国家自然科学基金项目和973项目;2006年8月至2007年8月访问University of Delaware,参与了IBM Cyclops-64众核体系结构的研究。在高性能计算方面发表了论文三十余篇,包括超级计算领域的国际会议和期刊如SC、ICS、SPAA、PPoPP、TPDS和JPDC等。曾担任多个国际会议的程序委员会委员(ICS 2010、ICPP 2012、HiPC 2011-12等),并担任了多个期刊的审稿人(TPDS、JPDC、PC、IJHPCA等)。2007年获得中国科学院院长优秀奖,2008年获得中国计算机学会优秀博士论文奖,2010年获得中科院卢嘉锡青年人才奖,2011年入选中科院青年创新促进会。
演讲主题:面向GPU的快速稠密矩阵乘算法设计和实现
主题概述:双精度稠密矩阵乘(DGEMM)是科学与工程计算应用中重要的性能关键的核心算法,本工作介绍一种基于现有的GPU体系结构如NVIDIA Fermi和AMD Cypress的高度优化的DGEMM设计和实现。针对两种GPU存在的共同的存储墙问题,开发了算法性能模型确定最优分块因子的以缓解其内存带宽瓶颈。进一步考虑到两种GPU上不同的来自体系结构方面的性能瓶颈,提出了新的半自动自动调度算法和细粒度软件流水算法,并分别在NVIDIA Fermi和AMD Cypress的GPU平台上实现了优化的DGEMM程序。在NVIDIA Fermi平台上,优化DGEMM的浮点峰值从原来的302GFLOPS(效率58%)提升到362GFLOPS(效率70%),超过比CUBLAS4.0版本20%;在AMD Cypress平台上,浮点峰值从优化前的438GFLOPS(47%)提升到758GFLOPS(82%)。二者都是目前为止公开报道的在上述两种GPU体系结构上性能最高的DGEMM实现,在NVIDIA Fermi上优化实现的DGEMM已经被集成到评测CPU-GPU超级计算机的基准测试程序HPL GPU版本中。
今天的文章中科院计算机所副研究员,中科院计算技术研究所副研究员 谭光明分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/63225.html