用大数据建模给硬盘做实时体检,希捷与腾讯云是这样操作的

2020-10-13 10:25 分类:行业新闻 来源:

跟着数据中心规划的扩张,用于存储数据的硬盘数量不断增加。云核算渠道中要运用数以百万级的硬盘作为数据存储载体,高效、牢靠又安稳的硬盘存储体系关于云服务的重要性显而易见。

1

正因为硬盘是云核算体系中最为重要的存储载体,硬盘的健康办理是云服务稳健牢靠的底子。为此,希捷与腾讯云服务器运营团队在2018年开端在腾讯云的数据中心中布置了FARM技能,从而对云渠道和数据中心的每一块硬盘进行实时的“体检”与健康办理。

为什么FARM能够做到硬盘的健康情况预知?这项技能又是怎样被运用的?今日咱们就来体系地为我们追根溯源,看看FARM究竟是一项什么奥秘的黑科技?

FARM是什么?

一看见FARM这个词,我们很简略联想到风吹草低见牛羊。但本相是,FARM的全称为Field Accessibility Reliability Metrics,最早于2018年OCP峰会上提出,它的字面意思是 “终端客户可便利获取的硬盘牢靠性目标”,是一种让用户以极端简略的办法获取硬盘全方面参数的日志。FARM的意图在于让云核算用户以此树立根据机器学习的健康监控或许猜测模型,以及实时直观地获取数据中心中每一块硬盘的健康情况。

在现在的硬盘运维实践中,硬盘的数据收集首要根据SMART体系(Self-Monitoring Analysis and Reporting Technology,即自动检测剖析及陈述技能)。它能剖析并预警硬盘可能发生的问题。 SMART体系自投入运用已有25年时刻,可包括10多项的参数。

FARM是对SMART体系的严重改进。FARM自身获取便利,参数掩盖广,能够说是超级加强版的SMART。FARM的120多项参数包括了硬盘愈加底层的传感器和磁头等级的相关参数,以及飞翔高度、作业负载、环境等运用情况的参数,而且现已在多个希捷产品上施行,给硬盘做具体的“全身体检”。

2

FARM的结构简略、数据量小,在抓取参数时,不会影响到体系自身在作业的事务。客户能够经过十分细的粒度按需抓取数据,以自己所需的频次获取硬盘健康日志及很多数据,并经过大数据建模,进行监控和剖析。

3

经过定时的FARM数据抓取, 希捷与腾讯云根据云事务模型,使用定制机器学习算法,将硬盘健康度进行打分评价,提早辨认高危险硬盘,赶快采纳办法,做事务搬迁、危险规划等,防止极低概率下硬盘批量失效而导致事务中止和数据丢掉。

4

FARM都记载些什么?

让咱们举些比如↓:

硬盘信息:SN序列号、WWN全球仅有姓名、容量等基本信息,以及磁头数量、马达等零部件的运转时刻、最近一次的硬盘状况等。

读写数据量:除读写LBA(逻辑区块地址)数量之外,还包括按类别计算的读写指令数量(总数,随机指令数,非读写指令数),以及最近几个小时内涵磁碟不同区域的读写指令数量等。

过错计算:除记载SMART现已包括的过错处理数据之外,还包括固件内部反常事情、读写重试、组织部件重试等。一起关于不行康复的过错,依照读写别离计算。

环境参数:记载外界环境相关参数,除温度之外,还包括湿度、5V/12V输入电压、马达电压等。

牢靠性参数:包括周期性及空闲时的后台评价、IDD(In Drive Diagnostic)、偏心率、以及磁头等级的底层参数——误码率、信道补偿、寻道过错率、磁阻、飞翔高度等。

5

有备无患,助力客户事务开展

腾讯云是国内首家布置FARM的企业。经过此项目,希捷联合腾讯云对其数据中心的硬盘运转数据进行实时检测,运用大数据建模剖析存在失效危险的硬盘。

作为国内抢先的云服务提供商,腾讯云对体系的安稳性和牢靠性要求苛刻。腾讯云与希捷协作,经过FARM定时对硬盘的健康数据抓取,实时监控硬盘的健康状况。一旦发现有任何反常,便会及时采纳办法,提示客户从头规划作业负载,有备无患,维护要害事务的延续性。

随同腾讯云事务规划的快速增加,以及两边协作的深化,两边将持续坚持严密的技能交流,不断完善相关技能,为更多用户打造更为安稳和牢靠的数据存储计划。

6