SAN网络故障排除
一、 SAN网络故障排除的两个应用技巧:
1、交换机的LED:
我们在讨论SAN故障排除之前先看一下故障诊断工具。其中最重要的是交换机的LED显示屏。
图-1是一个典型的SAN存储网络构架,其中包括Fbric线缆、主机、工作站、服务器、交换机、RAID阵列等设备。交换机是处于主机和存储设备之间的
网络中间位置,既能看到存储设备,也能看到主机。得益于对存储网络两端的可见性,你可以使用交换机确定SAN中所有故障的原因。通过查看交换机的LCD就
能收集到大量的信息。可以通过查找“快闪黄灯”,确定设备发生了故障,或是它仍未处于联机状态。如果交换机置于异地,可以使用Web
工具直观地、实时地了解LED的状态。快速闪烁的绿灯是SAN正常运行的信号。
通过实际观察组成SAN的交换机,可以检测模式,并确定处于边缘状态或是有故障的组件。例如,如果你处于需要确定在联机和脱机两种状态间重复切换的设备的
情况,此时就可以使用交换机的LED。
在观察运行的Fabric线缆时正常情况是:该端口由处于脱机状态(没有LED灯),然后发光(保持为黄色),然后进如联机状态(保持为绿色),然后循环
进行同样的步骤--无色、黄、绿。黄灯或是闪烁的黄灯表明SAN中存在问题。由黄灯转绿灯的LED则不是问题,因为边缘设备断电,或是未处于联机状态,都
可能导致交换机的LED黄灯闪烁。如果交换机电源的LED开始慢速闪烁,则表明交换机的加电自检(POST)过程存在故障,无法实现联机。(表一:交换机
各端口LED和定义).
端口 LED定义
黄色 接收到灯或是信号的载波,但是尚未联机
缓慢变黄 禁用(诊断、switchDisable命令的结果)
快速变黄 端口故障
绿色 联机(通过线缆与外部设备相连)
缓慢变绿 联机,但是已分段(Fabrlc参数不兼容)
快速变绿 正在进行内部环回
绿灯闪烁 正常联机,有帧流量通过端口
2、将SAN视为虚拟线缆:
当对SAN进行故障诊断时,可以通过将其分解为主机、SAN虚拟线缆及存储设备来解决问题,这时将SAN视为一条虚拟线缆。对于操作系统来说,SAN一条通往磁盘的链路,这正是传统的SCSI连接所实现的目的。
在刚开始进行故障诊断时,请将SAN视为一条虚拟线缆。传统的存储方式就是通过一条
SCSI线缆将小型计算机系统接口(SCSI)磁盘连接到主机;在这种情况下,你会关注4个组件:存储设备、主机总线适配器(HBA)、主机的操作系统以
及Fbric线缆。SAN故障诊断与传统的存储故障诊断过程相有许多异同之处。对于操作系统来说,SAN提供了一条通往磁盘的链路,这正是传统的SCSI
连接所实现的目的。
在诊断直连SCSI设备的故障或是以太网故障时,采用的是排除法;可以将这一方法用于对SAN进行故障诊断。从宏观层面讲,如果将SAN作为一条虚拟线缆
来考虑,问题有可能出在三个地方:主机、“Fbric线缆”或是存储设备。采用类似于对分查找的放障诊断方式开始对这些领域进行研究。从中间部分着手,确
定是处于问题的“上方”还是“下方”,然后继续对可疑路径进行对分,直到解决问题为止。
二、SAN网络故障排除:
1、 Fabric线缆故障
Fabric线缆故障经常会严重地影响多个设备。由于SAN对边缘情况的冗余补偿,Fabric线缆故障在一个冗余的SAN上发生时,可能不会影响SAN
的功能。但是这些“软”故障能够引起企业应用性能的降低,因此也应立即引起注意。大型Fabric线缆指包含10个或更多交换机及上百边缘设备的
Fabric线缆,它们更易于发生Fabric线缆故障。
Fabric线缆故障排除方法:
(1)Fabric线缆故障影响众多设备。分段等逻辑性交换机中断或物理性交换机中断,能够引起许多设备脱离Fabric线缆。ISL初始化故障也是需要考虑的问题。
(2)缩小Fabric线缆故障诊断范围的最佳途径,是对比基准SAN配置文件和当前SAN配置文件,并研究其差异。
(3)SAN配置文件的内容包括每个交换机上设备的数量、Fabric线缆中设备的数量、Fabric线缆中交换机的数量等。errShow命令和switchShow命令对于追踪Fabric线缆故障也非常有用。
(4)一些Fabric线缆故障由Fabric线缆服务超时变量和边缘设备超时设置的不匹配引起。必须仔细分析Fabric线缆和边缘设备来解决这种复杂问题。
(5)从图-1中可以发现,SAN网络设备中使用最多的是Faricb线缆。由于线缆通过墙角和门缝处,有可能被压坏。所以,需要注意线缆是否截断、线缆过度扭曲变形等。