联系我们

4000 555 018
(7×24)
正睿服务器  >  新闻中心  >  业界资讯
新闻中心

正睿科技依托Solidigm高密度存储加速畜牧业科研创新

间隙填充
正睿科技  发布时间:2024-03-06 14:54:37  浏览数:168

现代化的畜牧业满足了人类对肉蛋奶等动物性食品的增长需求,也为大规模的科学饲养、基因研究带来了可能性。借助基因组选择、智能繁殖、智能饲喂、疾病诊断、智能监控与管理、数据挖掘与决策支持等流程,AI技术优化了牲畜遗传育种,提高了牲畜的生产效益和健康状况,推动着畜牧业的发展。

图片

AI技术在优化牲畜遗传育种方面的典型应用场景包括:
基因组选择:可以通过对大量基因组数据进行深度学习和分析,预测个体的遗传性状,如生长速度、产肉量、产奶量等,从而优化育种方案。
智能繁殖:通过对基因组信息、生理信息和环境信息的综合分析,可借助AI技术预测母畜的繁殖性能和子畜的遗传性状,从而提高繁殖成功率。
智能饲喂:根据牲畜的生理需求、生长阶段和环境因素,智能调整饲喂量和营养成分,提高牲畜的生长速度和生产效益。
疾病诊断:AI技术可以通过对牲畜的行为和生理指标进行实时监测,及时发现异常情况,并通过对历史数据的分析,预测疾病的发生和传播,从而实现早期诊断和治疗。
智能监控与管理:通过对养殖场的环境参数(如温度、湿度、二氧化碳浓度等)进行实时监测和自动调节,提高养殖环境的舒适度和牲畜的健康状况。
数据挖掘与决策支持:对养殖数据进行深度挖掘和分析,为养殖户和管理者提供决策支持,如制定最优的育种计划、饲喂方案和疾病防控策略等。

正睿科技的客户——某畜牧业研究院所,借助AI技术收集和标注了大量基因组、产能表型等生物数据,训练了牲畜疾病智能识别、育种价值预测等深度学习模型。AI与基因技术的结合,让畜牧行业的发展能以崭新的方式和速度前进。

图片

人工智能应用到畜牧领域

带来的性能挑战



随着人工智能的发展,尤其是大数据、机器学习、多模态模型等技术的广泛应用,传统的数据仓库概念发生了重大的改变。畜牧业传统手工记录即使在逐步电子化之后,其本质依然是对应于预先设计的结构化数据,这些数据在长期实践当中用作各式分析的价值已经面临瓶颈,而大量影像资料并没有发挥充分价值,而是随着归档变为冷数据。人工智能技术让人们试图重新挖掘归档数据的价值,并进一步扩大数据的采集范围、频次,使得大量未经过设计的、原始的、非结构化的数据大量涌入“数据湖”。
畜牧业研究所每天可产生TB级的数据,传统数据存管模式无法应对大规模复杂数据的快速处理,包括图像、温湿度在内的各种传感器数据及外部数据的适配接入。数据湖是一种以自然格式存储数据的方法,有助于以各种模式和结构形式配置数据。数据湖的核心思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据,半结构化数据,非结构化数据和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储。
为了发挥数据价值,该畜牧业研究所构建了以4台大数据运算服务器、4台推理服务器、8台存储服务器为基础设施的算力底座。其中每台计算服务器配置4块A100 GPU,主要用于数据挖掘、训练;推理服务器各配置8块RTX 3090 GPU,对大量图片、视频数据进行视觉神经网络运算;存储服务器配置了大容量机械硬盘组成分布式存储;服务器网络以200G InfiniBand交换机链接。
随着历史数据的导入,以及日常研发、运营的数据积累,存储与算力之间的矛盾逐步显现出来。研发、运营过程中涉及庞大的数据量,但数据价值密度日趋降低,存在大量重复数据,导致有效数据稀疏。读取负荷过大,原存储系统的读取效率明显下降,算力无法充分发挥,研发效率降低。为了改善数据质量,还需要进行大量的数据预处理工作,由此引入了更多的读写操作,占用大量资源。

图片

重新审视人工智能数据湖

对存储系统的要求 



为了满足数据挖掘和机器学习的需求,构建单一的、大容量的数据湖是必然之路,使用大容量硬盘构建分布式对象存储是成熟的解决方案。在传统观念中,分布式存储的性能瓶颈主要在于网络,数量足够的机械硬盘可以提供不错的读取吞吐量,而写入吞吐量则受限于网络带宽而非机械硬盘,机械硬盘提供了具有吸引力的容量价格比和堪用的性能。
但是,随着数据规模的增长,分布式存储的跨节点访问消耗了大量网络资源,即使使用高性能的100G以太网或者InfiniBand网络也难以忽视其中的效率问题。多节点还消耗了较多的网络端口资源,对于高速网络而言,这是一笔不菲的开销。
比网络成本更突出的是算力的闲置。随着GPU、TPU等AI算力的快速发展,需要更大的数据吞吐量以满足计算需求,对存储系统的性能提出了更高的要求。考虑到AI算力的昂贵价格,因等待数据而导致的算力闲置是一种巨大的浪费。
为了应对存储性能的高要求,改用SSD作为存储介质是一种顺理成章的思路。但这个转变需要面临几种问题:
1、市场上主流SSD容量较小。高性能存储系统会考虑全闪方案,但成本高昂,容量有限。主流SSD的容量通常为1.92~7.68TB,以较大的7.68TB容量点为例,如果需要满足数百TB容量的要求,则需要的SSD数以百计。数量的增加意味着故障隐患和管理难度都会相应激增。对于NVMe SSD而言,满足这个数量级的NVMe端口数量,依旧需要较多的新一代服务器节点才能实现,服务器成本和网络成本均较高。
2、存储分层的实施门槛高。为了平衡SSD的高性能、高成本,混合配置SSD和机械硬盘,实现存储分层也是常见的思路。但部署分层存储对底层开发水平、业务理解的要求都很高。对于大数据训练,由于数据被广泛而反复的访问,传统的冷热分层的概念也变得不合时宜。

3、高性能云存储的成本偏高。大数据应用的一种典型模式是将计算托管,存储上云,利用公有云厂商的技术实力解决数据安全冗余、分层等方面的管理成本。但高性能云存储的溢价远高于基础云服务,对于长期运营而言的成本压力十分沉重。另外,日常数据采集的流量费用也是一笔难以忽视的开销。

传统分布式存储痛点


性能制约:存储系统面临着百TB级的数据增长,读取效率下降,分布式计算时间拉长,严重制约了研究进度。

本效难全:云计算中心的存储成本过高,无法持续;而使用商用小容量SSD则面临可靠性及管理瓶颈。原本的多台存储服务器架构落后、占地面积大、发热量与功耗齐高。



Solidigm第四代QLC SSD

提供破局之道 



Solidigm于2023年上市的192层3D NAND提供了业界领先的18.6Gb/mm²密度,大幅度领先于竞品同期的公布的量产密度。介质创新让Solidigm得以提供无与伦比的高存储密度SSD,以解决业内的高密度、高能效、高吞吐量痛点。

Solidigm D5-P5336属于Solidigm面向数据中心的第四代QLC SSD 产品,可提供行业领先的高达61.44TB的高容量组合以及读取优化的性能,并且支持高吞吐量读取和数据密集型工作负载。其架构设计旨在有效加速和扩展广泛部署的读取密集型工作负载中日益庞大的数据集,同时提高存储密度、降低总拥有成本,并实现比TLC SSD和基于HDD的解决方案更可持续的存储基础设施。

Solidigm D5-P5336已上市了兼容性广泛的U.2外形,以及面向新一代高密度存储的E1.L外形,均可提供61.44TB容量。2024年上半年还将推出面向新锐服务器的E3.S外形产品,容量达30.72TB。


图片

图片


大容量、高性能QLC SSD进入市场使得构建基于单层存储的全闪服务器在技术上和经济上变得完全可行。单层存储设计明显降低了开发和部署存储服务器的技术难度,并提供了更为稳定、可预测的性能。
基于新一代QLC SSD高存储密度的优势,以此为基础的存储服务器也实现了机械硬盘望尘莫及的PB级单节点存储容量。单层存储介质的设计还节省了缓存盘占用的容量、空间、能耗,进一步巩固了每个节点在存储密度方面的优势。
高存储密度节点还可以节约机架空间、能耗,以及网络端口的开销。如果用户的目标存储容量得以在单节点内实现,将大大降低部署和运维难度。基于E.1L外形的Solidigm D5-P5336 61.44TB已经可以在1U标准服务器中实现高达2PB的巨大容量,有助于激励用户将企业数据完全迁入全闪存储当中,从而有机会充分挖掘沉睡数据的价值。

图片

图片

正睿科技 Solidigm 密合作:

助力AI推理,加速存储革新  



正睿科技采用Solidigm的大容量QLC NVMe SDD为客户的使用场景打造了一套畜牧业生物基因数据存储解决方案,高密度、高可靠、高扩展性的存储平台为客户带来本效两全的满意体验。

图片

方案特点



1.采用全闪存技术,最高可支持24块热拔插NVMe SSD,运行在全速的PCIe4.0上,搭载Solidigm D5-P5336 30.72TB SSD,高IOPS与极高容量密度相辅相成,单个节点可提供100万+IOPS、700TB以上的存储空间。

2.搭载的第四代/第五代英特尔至强可扩展处理器也为AI加速提供了核心上的支持。有了新存储端的加持,能够在数据写入时就过滤掉非关键数据,减轻网络负载,数据可靠性出色。

3.2U全闪服务器充分发挥存储密度优势,仅1个机柜就能妥当存放原先数个机柜的数据,极大提升了空间利用率,有效降低用户的总体拥有成本。

Solidigm携手正睿科技为客户量身打造的这套解决方案得到了客户的认可,帮助他们解决了多个痛点:

1、结合数据量级,采用大容量的QLC单盘

数十个存储设备之间容易因争抢资源而产生性能热点,导致计算任务的不确定等待。面对PB级数据的存储,低延迟、稳定可靠、密度极高的QLC SSD成为首选。稳定的微妙级响应,确保计算吞吐不受影响,有效提高推理端数据读写的效率。

2、更为灵活的扩展性

因为存储密度的提升,直接缓解了客户机柜和盘位的紧张,为将来的发展解除了限制,随数据一同高速增长

3、节省能源消耗,降低空间占用

大幅减少的存储设备数量,可直接缓解机房的供电与制冷压力,减轻机房建设与运营成本。也可简化集群管理,统一的大容量存储池更易于资源调度,灵活应对计算任务的调整。

图片

图片

即使是采取混闪的存储模式,依旧要面对大量空间占用和复杂的管理调度逻辑等一系列伴生问题。

正睿+Solidigm方案只需要2U空间,就可实现700TB级存储,若想进一步提升存储密度,还可考虑采用61.44TB单盘,或进一步引入EDSFF外形支持。

结 语



超高密度的全闪存存储为计算中心提供稳定高效的IO支撑,提升整体计算吞吐率,保证结果输出;并帮助简化机房运营,降低建设与管理成本。在降本增效的大环境下,能为您的行业带来更多新的发展空间。


关于 Solidigm

Solidigm 是全球领先的创新 NAND 闪存解决方案提供商。Solidigm致力于成就客户,激发数据无限潜能,推动人类发展进步。源自于英特尔出售的NAND和SSD业务,Solidigm公司于 2021 年 12 月正式成立,目前是半导体领导者SK 海力士在美国的独立子公司。Solidigm 总部位于美国加州兰乔科尔多瓦,拥有 2000 多名员工,在全球 13 个地区设有办事机构。如欲了解有关 Solidigm 的更多信息,请访问[https://solidigm.com],或关注微信公众号[SolidigmChina]。"Solidigm"是SK hynix NAND Product Solutions Corp (d/b/a Solidigm) 的商标。



*文中涉及的其他名称及商标属于各自所有者资产


本文提及的所有产品、计算机系统、日期和数据都是基于当前预期的初步设计,如有更改,恕不另行通知。

硬件、软件或配置上的差异会影响实际性能。

Solidigm或英特尔对非Solidigm产品或非英特尔产品的优化可能无法达到对Solidigm或英特尔编译器或其他产品的优化程度。Solidigm 技术或英特尔技术可能需要启用硬件、软件或服务激活。

本文中的任何内容均不构成任何明示或默示的保证。

本文档中描述的产品可能会存在如“勘误表”类的设计缺陷或微小误差,这可能会导致实际规格偏离上文描述。最新情况可承索提供。

在不同情况下,您的成本和结果可能会不同。

© Solidigm. "Solidigm"是SK hynix NAND Product Solutions Corp (d/b/a Solidigm) 的商标。其他名称和品牌可能属于他方资产。

图片


图片





欢迎扫码关注Solidigm 


  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号