posts - 55,  comments - 7,  trackbacks - 0
金建明
(温州日报报业集团)

   摘  要:文中详细地介绍了当前报业集团网管现状和选型标准,并着重的介绍了北塔网管软件在温州日报报业集团日常网络管理中的具体作用及应用实例,对当前报业集团的网管实施具有一定的借鉴作用。
   关键词:拓扑图  数据流  带宽  ARP
   一、引言
   随着IT技术的发展和信息化的日益普及,现在的报业集团网络规模越来越大,网络的应用也日趋复杂,网络管理的难度也越来越大,为此应用网管软件对报业集团网络进行管理就显得非常有必要。许多报业集团在网络建设之初并没有上马网管项目,有些则在使用一些免费的网管软件来充数,并没有真正意义上的网管软件。好在越来越多的报业集团认识到,网管软件不仅仅是电信、银行这些大企业才需要,只要具备一定复杂度的网络结构,都需要使用网管软件对网络进行管理,以保证各项业务的正常开展。下面就对温州日报报业集团网管软件的部署和应用进行简单的探讨。

   二、报业集团网管软件的选型标准
   网管的目标是将相对专业的网络管理简单化,让网管工作变得方便快捷。用户在选择网管系统时应根据自己单位的网络规模、拓扑结构、网络设备类型、网管人员的知识构成等进行综合考虑,来选定最适合本单位网络的网管软件。既不能一味的追求大而全,也不能一味追求操作简单而忽视了应有的功能。我认为报业集团的网管选型必须符合以下几个特点:
   1、全中文、简单方便的管理界面 
   对报业集团来说,网络管理软件不能是专家风格的用户界面,而应该是用户界面友好、操作简单方便、功能完善易用的系统。针对众多网管员的外语水平都不是太专业这一现象,最好引入全中文界面的网管系统,效果可能会更好一点。
   2、通用的、开放的、能支持众多厂商网络设备的综合网络管理模式
   随着网络技术的不断发展,新产品的不断涌现,报业集团网络建设会不断进行完善,不可避免地会引入多个厂家的设备。因此,所选网管软件时必须是通用的、能兼容不同厂商的、综合型的、集成的网络管理平台。
   3、 实现应用监测和拓扑图展示
  网管软件必须做到对网络中每个关键应用进行实时的监测和管理,并能提供美观的网络应用拓扑图,当系统异常时,通过颜色变化等多种报警方式来提示网络系统故障。
   4、功能实用、操作简单 
   对于报业集团的网管软件,不能贪图功能的大、多、全,而是要根据自身需求选择适合的、实用的管理软件,针对大多数报社网管属非专业人员这一特点,其操作也不能太复杂。有些太专业的国外网管理软件,其繁多、分散的强大功能也使得非专业人员只能是使用了其一些基本功能,根本没能全面发挥其强大的管理功效。而国内网管软件在功能实用和可操作性方面做的会比较符合国内用户的使用需求。
   5、提供主动预防功能,能解决绝大部分主流的网络故障
   具有强大的预故障处理功能,并且能够自动进行故障恢复,尽一切的可能把故障发生的可能性降至最低。通过网管软件能快速解决线路和端口流量异常、网络断网、ARP欺骗等常规主流的网络故障,并对当前网络中出现的问题能提供针对性解决办法。
   6、更加注重性价比
   报业集团网管软件与电信级网管软件不同,首先考虑的不是功能的强大,而是是否适合自身需要,同时对稳定性、可靠性的要求都没有电信级这样高的要求,因此,它更加关注的是软件的性能价格比。

   三、北塔网管在本报业集团的主要应用
   1、强大的拓扑发现管理功能,全网架构一目了然
   BTNM3.0采用多种算法、迅速搜索我们报业集团整个网络内的所有节点,包括Extreme、Cisco、Netscreen、F5等多厂商的设备组成的“混合”网络,由于我们网络绝大部分是采用双核心双链路热备连接,这种接法的网络经BTNM智能分析后自动勾画出网络拓扑图与其真实物理拓扑结构还是有些出入的,经我们校正后形成我们集团的网络拓扑(如图1),拓扑图真实的反映整个网络的运行状态,直观的反映设备的分布情况、负载状况和设备属性,以及线路的实时流量;通过颜色显示负载和流量的压力,主动告诉网管关注点应在哪里,动态告诉网管可能存在的故障隐患。
 


                                      图1:温州日报报业集团网络拓扑图
   2、对重要设备启用告警设置,实现“网络的无人值守”
   通过设置阈值和定义告警级别,可以实现对网络设备、数据流量、服务器、网络应用等的全面监控。通过颜色,语音、屏幕闪烁、E-mail、短信等多种手段,主动告知用户网络中可能存在的故障隐患点和已发生的网络故障,将我们的网管人员从网管机面前解放出来,实现“网络的无人值守”,确保整个IT系统从网络到应用的正常运行。
   针对我们集团网络的特点,我们只对核心及汇聚等重要设备的端口Up/Down、CPU负载、线路负载等重要指标做告警设置。我们并没有对楼层交换机端口及其他普通指标做详尽的告警设置,其原因有二:
   其一、如果对每个楼层交换机端口的所有参数都进行了告警设置,那么告警的数量就非常的庞大。说到底许多楼层交换机个别端口的个别参数短时超标对我们整个网络正常运行不会造成任何的影响。如果我们花大量的时间来处理这些无谓的告警,那么许多重要设备的告警将可能得不到很好的关注和及时的处理,就有可能导致重大的网络故障。
   其二、目前我们的网管软件设置还是比较繁琐,类似端口还不能进行批量设置。我们集团网络设备端口数近2000个,每个端口的参数多达几十种,全部设置成告警工作量会非常的大,再说也没有这个必要。
   3、利用地址簿进行快速定位
   “地址簿”是对IP地址资源空间进行管理的高效手段。BTNM通过多种方式获取我们集团网络中的IP-MAC端口对应关系,并动态自动生成地址簿,它能提供全网IP-MAC定位。 我们集团实行动态为主和静态为辅的IP地址分配机制,生成一张正确的IP地址簿对照表对整个网络的故障定位至关重要。一旦我们发现某个IP或MAC地址的设备出现故障,威胁到整个网络的安全。那么我们将通过地址簿快速定位到设备端口,需要的话可实现端口远程关闭与开启。
   4、对实时数据流进行监视与分析
   鉴于我们主干网络全是extreme设备,而且对sflow功能的良好支持,我们在网管机上启用了sflow数据流分析探针,对网络中的实时数据流进行2-7层的监视,确保流量的透明化管理。
   我们经常用sflow数据流分析探针对全网的实时流量按数据滤取条件(如指定IP、端口、协议、数据帧大小等)进行监视与分析,并据此对网络中各种应用业务占用网络带宽的情况进行分析,为我们及时掌控网络带宽的使用提供依据。实时流量分析界面如下(图2):


                             图2:温州日报报业集团网管实时数据流监视与分析
   5、线路、设备、端口等状态分析是我们常用分析的工具
我们经常对线路、设备和端口的状态进行分析,对网内所有设备的端口、CPU、内存以及设备间的流量等进行监视和查看。并通过对其流量、流速趋势进行分析;以及不同线路、端口之间的参数进行对比,及时发现网络设备和流量的异常波动,从中发现一些流量不正常的用户并对其进行重点监控,通过对其端口流量、平均帧大小、错包发生率、广播与非广播包的多少等进行详细分析之后,再用桌面管理软件及防火墙等对其部分网络行为进行限定,确保整个网络应用正常。


   四、网管软件在本集团的应用实例
   1、印务中心网络故障的远程处理
    2007年6月15日深夜,印务中心生产车间报告网络连接到集团FTP服务器进行版面数据下载时出现时断时续的现象。由于时值深夜,印务中心离市区较远,又没有专业的网络维护人员,于是我们通过网络远程登录到网管平台进行诊断分析。发现印务中心的汇聚交换机到核心交换机的通路并没有中断,只是流量特别大。我们查看了印务中心汇聚交换机的接口信息表,发现其端口22流量异常,而且数据包也很不正常。查看其下联设备是行政办公区的一台smitty200楼层交换机,再进入该smitty200进行端口状态分析,发现其端口08下联的一台PC机在发大量的无效数据包。由于时值深夜无法进入行政办公区查看该PC,在实时流量监控中对该PC流量进行详细的分析后,发现该PC正在做全网段扫描,占用了大量的带宽,估计是中了病毒,我们果断通过端口Up/Down功能将此端口关闭,网络恢复正常。
   2、集团一子报的ARP欺骗处理
   2008年6月7日,集团下属某子报出现了172.12.3.0/24网段的所有机子都不能上外网,但同网段内的机子相互间能正常访问,在网管地址簿中查看了实时定位信息表显示如下(图3),在表中能快速发现00:06:5B:74:F6:84就是ARP欺骗地址,在定位信息对照表中找出00:06:5B:74:F6:84原先正确对应的IP地址和端口信息,进而通过IP定位对问题主机进行定位,马上对该IP主机进行断网处理,故障解决。
 


                                    图3:受ARP欺骗后的地址簿中的定位信息表
   如果00:06:5B:74:F6:84是伪造的虚假MAC地址,那么在定位信息对照表是找不到该MAC地址的,通过上述的定位方法我们是无法定位到问题主机的。为此我们只能借助ARP工具软件先找出攻击源再进行定位,方法如下:在172.12.3.0/24网段上找一台机子安装ARP工具软件(如360ARP防火墙、AntiARP等),马上就能发现是哪一台主机IP在进行ARP攻击,再到定位信息表中查找该IP进行定位,从而找到问题主机再进行处理。
    这只是在ARP欺骗后进行处理的方法,但目前包括网管软件在内对ARP欺骗还没有一种很好的预警措施,网管也只能在端口的广播包数量上设置告警来对ARP欺骗进行预警,但如果引起ARP欺骗的广播包发包频率很低也是不会触发报警的,再说网内的广播包并非只有ARP一种。
   3、发现了光纤链路传输性能问题
   在网管的拓扑图上发现有一线路老是红色的,经查后我们感到很奇怪,其流量只有几兆,但却显示带宽已被占100%。而按我们的布线设计这是一条1000M单模的线路,用于一台楼层交换机远程接入到核心交换机。这说明该链路原设计的传输能力与实际传输能力相差太大,于是我对光纤模块、端口、跳线等逐一进行更换排除,最后发现是光纤跳线质量不合格,更换跳线之后线路恢复正常。
   4、及时告警重要链路故障
   我们核心交换机是双机热备架构,核心到汇聚之间的双链路是采用主备的工作方式,任何其一出现故障,都不会影响到终端用户的正常使用。2007年5月17日,网管告警商报汇聚与集团核心之间的一条1000M单模光纤链路断开了,在判定我们自己的设备和接口没有问题之后,及时地通知了链路提供商进行及时的处理。这得益于我们对核心与汇聚的重要端口都启用了端口Up/Down告警设置,如果没有网管的话,我们需要登录到各个交换机上对端口状态进行查看,才能发现此类链路连接是否正常,再说作为一名网管员也不太会经常登录到各交换机上做此类检查。这就造成我们不可能那么及时的发现此类故障,就有可能造成双机或双链路全部趴下的重大网络安全事件,那么我们的双链路与双核心热备将会变得毫无意义。网管软件在保障我们集团这种双机双链路热备架构的网络正常工作还是有相当重要的意义。

   五、结束语
   一个好的网管软件的确能简化我们许多专业复杂的网络管理,但是我们也不能全部依赖网管软件。在很多情况下网管软件并不能反映网络的真实情况:
   1、交换机IP失效、网络过度拥塞和SNMP出错等情况下,网管软件是读取不到交换机的数据的,只能直接登录到交换机上进行故障判断。
   2、由于网管采用的是采样机制从交换机上获取数据,采样数据与真实数据之间还有一定的差异性,所以在网管软件上反映出来的数据只是较接近交换机的原始数据,但并非代表交换机的真实数据。
   作为一个好的网管员对整个网络架构和拓扑图要非常的清楚,不但要精通网管软件,同时其对网络设备本身的配置和管理命令要有足够的熟悉,在必要的时候能直接登录到网络设备上用其自身的命令进行网络故障的判断和修复,如果哪个网管员能将网络设备本身自带的、相对专业的、复杂的配置和管理命令玩得很溜的话,我想不用网管也未尝不可,但对于大多数的网管员来说是达不到这么高的专业水准的,所以网管软件在我们的网络安全管理中还是相当重要的,可以说是必不可少的。

posted on 2009-05-15 16:39 孙永杰 阅读(118) 评论(0)  编辑 收藏 引用
只有注册用户登录后才能发表评论。
<2009年7月>
2829301234
567891011
12131415161718
19202122232425
2627282930311
2345678

常用链接

留言簿(1)

随笔档案(55)

搜索

  •  

最新评论

阅读排行榜

评论排行榜