数据密集型挑战重重 IBM HPC 解决方案对抗”不可能”

       大数据,将会对各行各业的发展和决策模式带来前所未有的革新和挑战。在教育和科研领域同样不可避免。在科学研究领域,从自然届到社会,从宏观层面到微观层面,都在快速产生着海量且多种多样的数据。各种科研仪器和科研设备、模拟方法和实验、各种智能终端以及应用等等,这些使得科研领域进入到了一个前所未有的“大数据”时代。

       笔者在采访一些高校的科研机构工作者了解到,在科研过程中,数据量、数据生成和数据种类增长的速度很快,某科学家在采访中表示,不断增加的数据将会直接为科研的模式带来极大改变。继实验科学、理论科学和计算科学之后,第四种研究模式将会出现,即“数据密集型科学”。

       然而,前所未有的数据量和复杂的计算迫切需要使用可扩展的软件解决方案和高效的分布式技术基础结构,来处理数据和计算密集的工作负载。而高性能计算 (HPC)、大数据分析和高性能数据分析 (HPDA) 的融合是一个可行的解决方式。

       IBM Power Systems在大数据分析、高性能计算等方面发挥着巨大能量,体现了为大数据而生的预置能力。IBM PowerLC服务器 在一次基于 Hadoop 的基因组分析测试中,利用包含40个POWER8 节点的集群对 3.2TB Hadoop 输入元基因组数据集进行分析,在 6 小时内得到了 8.6TB 图形数据结构分析结果。

       此外,越来越多的科研项目和分析实验需要提高 GPU 性能、可编程性以及向GPU 输入数据的能力。全球众多企业及机构采用IBM Power System S822LC for HPC解决方案,该款服务器可配置 4 个 NVIDIA Tesla P100 GPU,是目前唯一在 CPU:GPU 中配备NVIDIA NVLink 技术的架构,性能表现超越x86 5倍。

       IBM Power System S822LC for HPC还通过系统的优化实现低采购成本 ,作为一个专为Hadoop所优化的系统,采用模块化的设计,也就是说,能够从单机架横向扩展至数百个机架,满足在具有最多20个POWER8核心的2S2U平台上构建的大规模集群和向外扩展部署的需求。通过虚拟化构建资源池的方式,使得基础架构具有高弹性和动态调整资源的能力,具体来说,PowerKVM利用“微核模式”,让系统在CPU性能不损耗的基础上承载更多的虚机和更高的应用负载,每个虚拟服务器在性能上等同于传统的单台服务器,在减少服务器硬件开支的前提下,达到了资源利用率最大化。这样,实验室可以合理的分配硬件资源,节约投入的成本和维护的经费。

       综上所述,IBM HPC 解决方案结合 IBM Power Systems、IBM SpectrumTM Computing、IBM Spectrum StorageTM 和 IBM Software 等众多创新技术而构建,提供了一个集成式平台来优化HPC 工作流,也只有 IBM 能够提供如此完整的 HPC 解决方案,其基于以数据为中心的HPC设计思路,最大程度地减少数据移动,充分发挥整个系统堆栈内部的计算能力,同时还提供专为 HPC 而优化的模块化、可扩展架构,同时,基于OpenPOWER开放生态系统的活力,笔者相信,IBM HPC 解决方案将会帮助大数据时代的科研项目提供最佳的研究成果。大数据时代的到来的确改变了我们的很多技术手段和模式,而IBM HPC 解决方案使得我们在科学研究的道路上有了新的动力,不断突破,挑战人类更多的”不可能”。