020-8888888
网站首页 关于我们 产品中心 新闻动态 成功案例 荣誉资质 联系我们
咨询热线
020-8888888
地址:上海市徐汇区淮海中路1469号
邮箱:

新闻动态

当前位置: 首页 > 新闻动态

你知道吗?硬件故障慢的根本原因竟然有这么多

发布时间:2024-06-12 19:37:56 点击量:

3.1 各种根本原因

查找硬件缓慢故障的根本原因是一项艰巨的任务,因为它可能由多种根本原因引起,如表 3 所示。硬件性能故障可能是由设备内部的根本原因引起的,例如固件问题 (FW) 或设备错误/磨损 (ERR),这将在第 4 节中讨论。但是,一个完美运行的设备也可能由于许多外部根本原因而降级,例如配置 (CONF)、环境 (ENV)、温度 (TEMP) 和电源 (PWR) 相关问题,这将在第 5 节中介绍。请注意,一份报告可能有多种根本原因(环境和电源/温度问题),因此表 3 中的总数 (112) 大于 101 份报告。

根本原因

固态硬盘

磁盘

内存

中央处理器

全部的

防火墙

10

10

40

20

温度

压水反应堆

环境

会议

11

20项亚健康信号_亚音信号_亚健康预警信号

18

联合国儿童基金会

全部的

22

23

十三

二十九

二十五

112

表 3:不同硬件类型的根本原因。此表显示了不同硬件类型的根本原因。该表在第 3.1 节中提供。硬件类型包括 SSD、磁盘、内存(“Mem”)、网络(“Net”)和处理器(“CPU”)。内部根本原因是设备错误 (ERR) 和固件问题 (FW),外部根本原因是温度 (TEMP)、电源 (PWR)、环境 (ENV) 和配置 (CONF)。标记为未知 (UNK) 的问题意味着操作员无法确定根本原因,只是更换了硬件。请注意,一份报告可能有多个根本原因(环境和电源/温度问题),因此总数 (112) 大于 101 份报告。

3.2 失败变成亚健康

故障停止、部分故障、瞬态故障等不同类型的故障可以转换为亚健康故障。

故障停止导致亚健康故障:由于许多硬件部件连接在一起,故障停止组件可能会导致其他组件以亚健康故障模式运行。例如,由于备用电源没有提供足够的电力,CPU 速度被限制在 50%;单个坏盘耗尽了整个 RAID 卡的性能;供应商的故障固件使一批 SSD 停滞了几秒钟,禁用了闪存缓存层并降低了整个存储堆栈的速度。这些示例表明,亚健康故障的发生可能与系统中的其他停止故障有关。此外,强大的故障停止容错系统应确保故障停止故障不会变成亚健康故障。

瞬时故障到故障缓慢:除了故障停止之外,许多类型的硬件都可能遇到瞬时故障,例如磁盘偶尔返回 IO 错误,处理器有时会产生不正确的结果,有时内存位会损坏。由于其瞬时性和“罕见”性,固件/软件通常会向用户屏蔽这些错误。一种简单的机制是重试操作或修复错误(例如,使用 ECC 或奇偶校验)。但是,当瞬时故障频繁发生时,错误屏蔽可能是一把“双刃剑”,即由于错误屏蔽不是免费操作(例如,重试延迟、修复成本),当错误并不罕见时,屏蔽开销将成为常见情况下的性能损失。

我们观察到许多瞬时故障导致故障转换缓慢的情况。例如,在性能下降的磁盘中,磁盘固件会频繁触发“先读后写”检查;由于 ECC 校正大量 DRAM 位翻转,机器被视为无法运行;PCIe 连接松动导致驱动程序多次重试 IO;许多网络数据包丢失/损坏的情况(在我们的报告中,丢失/损坏率在 1-50% 之间)会触发大量重试,导致网络吞吐量大幅下降。

从上述故事中可以清楚地看出,必须区分罕见故障和频繁瞬时故障。虽然可以屏蔽前者,但后者应该暴露给高级软件堆栈和监控工具,而不是隐藏起来。

部分故障到亚健康故障:某些硬件还可能出现部分故障,即只有设备的某些部分不可用(即部分故障停止)。此类故障通常被固件/软件层掩盖(例如,通过重新映射)。然而,当部分故障的规模增加时,故障掩盖可能会对性能产生负面影响。例如,在一次部署中,可用内存的大小随着时间的推移而减少,增加了缓存未命中率但不会导致系统崩溃;SSD 中的坏芯片减少了过度配置空间的大小,触发了更频繁的垃圾收集;还有一个更广为人知的问题是大量坏扇区的重新映射会导致更多的磁盘寻道。与上面描述的瞬态故障情况类似,需要区分小规模和大规模部分故障。

3.3 各类亚健康症状

我们观察到亚健康故障症状的“多个方面”:永久性、暂时性、部分亚健康故障和暂时停止故障,如图 1 所示。表 4 显示了这些故障模式在硬件类型中的细分情况。表 5 显示了这些故障模式在根本原因中的细分情况。

亚健康预警信号_20项亚健康信号_亚音信号

表 4:不同硬件类型的亚健康故障症状。该表格描述了不同硬件类型的亚健康故障症状。表格见 3.3 节。共有四种症状:永久减速、瞬时减速、部分减速和瞬时停止。

亚音信号_20项亚健康信号_亚健康预警信号

表 5:无根本原因的亚健康故障症状。此表见第 3.3 节。根本原因缩写可在表 3 的标题中找到。这四种症状是永久减速、瞬时减速、部分减速和瞬时停止。

• 永久性减速:第一个症状(图 1a)是永久性减速,设备最初运行良好,但随后性能下降,无法恢复正常行为(直到手动修复问题)。此模式是四种模式中最简单的一种,因为操作员始终可以看到问题。如表 4 所示,这种症状(幸运的是)是最常见的。

• 瞬间减速:第二种类型(图 1b)是瞬间减速,设备性能在正常情况和显著下降之间波动,这种情况下更难排除故障。例如,当环境过冷/过热时,磁盘和网络性能可能会下降,但当温度恢复正常时,性能会恢复;当多个磁盘同时处于繁忙状态时,偶尔会发生振动,这会使磁盘速度降低几个数量级;并且,产生巨大负载的应用程序可能会导致机架电源控制无法为其他机器提供足够的电力(从而降低其性能),直到耗电的应用程序完成。

• 部分减速:第三种模式(图 1c)是部分减速,其中只有设备的某些部分会减速。换句话说,这是部分故障停止转变为部分减速的情况(§3.2)。例如,内存的某些部分发生故障,需要执行更多 ECC 检查;网络路由器缓冲区的某些部分损坏,导致仅重新发送受影响的数据包;在一次事故中,40% 的大数据包丢失,但没有小数据包丢失。部分故障停止转变为亚健康模式也使调试变得复杂,因为某些操作会减速,但其他操作(在同一设备上)不受影响。

• 瞬时停顿:最后一种(图 1d)是瞬时停顿情况,设备偶尔会自行重启,随后性能降至零。例如,有缺陷的固件会导致 SSD 有时从 RAID 控制器中“消失”,然后重新出现;SAS/SCSI 命令中偶尔出现的位翻转会导致主机总线适配器反复重启;节点在热节流时自动重启(例如,当风扇固件反应不够快时)。

有一个(搞笑的)故事,在配有方便的临时工作台的数据中心,一名操作员将办公椅放在存储集群旁边。操作员在椅子上摇晃,并反复从底盘中弹出热插拔驱动器(很难诊断的关联)。

3.4 连锁因果

亚健康故障的另一个复杂性是事件的级联链:首先,实际根源和硬件亚健康故障之间存在级联原因链。其次,亚健康故障的症状会对更高级别的软件堆栈产生级联影响,并可能对整个集群产生影响。

以下是导致亚健康故障的长期连锁根本原因的一些示例。计算节点中的风扇停止工作,导致其他风扇以最大速度运行以弥补坏掉的风扇,从而产生大量噪音和振动,进而降低磁盘性能。主板中的故障传感器向操作系统报告了错误的值,导致 CPU 在省电模式下运行速度变慢。断电导致的电力不足会导致许多类型的硬件、磁盘、处理器和网络组件运行不理想。亚健康故障也可能是由电源故障本身引起的,例如,供应商遗漏了随有故障电容器一起发货的 120V 保险丝,该保险丝在重新通电时很有可能发生短路,从而导致小型电气火灾,并连锁到机架级电源故障。

其次,当硬件进入亚健康状态并变慢时,不仅会影响主机,还会在整个集群中引起连锁反应。例如,一台机器的网卡性能下降(从 1 Gbps 下降到 1 Kbps)会引起连锁反应,使整个 100 台机器的集群变慢(因为受影响的连接任务会长时间占用容器/信号,新的作业会因为信号不足而无法运行)。在 HDFS HA(高可用性)部署中,当其中一个磁盘非常慢时,名称节点的仲裁将挂起。在 HBase 部署中,以正常速度 25% 运行的存储卡将导致积压、内存不足和崩溃。同样,性能下降的磁盘会造成工作积压,一直到客户端 VM,为用户弹出“死机蓝屏”;

3.5 罕见但致命:检测时间长

我们报告的亚健康故障事件需要数小时甚至数月才能检测(精确定位)。更具体地说,1% 的问题在几分钟内发现,13% 在数小时内发现,13% 在数天内发现,11% 在数周内发现,17% 在数月内发现(45% 的时间未知)。一些工程师称之为“昂贵的调试尾部”。在一个故事中,一整个工程师团队被拉来调试这个问题,花费了组织数万美元。检测时间 (TTD) 过长的原因有很多。

首先,亚健康故障发生频率不如故障停止情况高,这意味着当今的软件系统无法完全预测(即中断)此类情况。因此,虽然较频繁的故障可以快速修复,但频率较低但更复杂的故障(系统无法缓解)可能会耗费工程师大量时间。

其次,如前所述,根本原因可能不是由亚健康的硬件引起的(例如,§3.3 中由耗电应用程序引起的瞬间速度减慢花了几个月的时间才解决,因为问题不是源于速度慢的机器或电源)。

第三,超出操作员控制范围的外部环境条件可能会延长诊断时间(例如,几个月以来,供应商无法在其低水位测试设施中重现亚健康故障减速症状,因为硬件仅在高水位时才会减速)。

最后,操作员并不总是能够全面了解整个硬件堆栈(例如,由于操作员无法了解电力设备的运行状况,因此事故可能需要几天时间才能解决)。

Copyright © 2002-2024 北京k10 版权所有 非商用版本  网站备案号:冀ICP备07016787号    网站地图