意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

nVisual如何帮助运维人员快速定位网络故障点

来源:恒创科技 编辑:恒创科技编辑部
2024-02-12 09:46:59
01# 背景

数据中心要全天候运行,难免会出现这样那样的故障,出现故障后,如何迅速找到故障原因并消除故障是一个数据中心运维效率的最直接体现。数据中心一旦发生故障,影响了数据业务,将给数据中心带来巨大的经济损失,有时甚至是毁灭性的打击,所以数据中心都不希望出现任何的故障。

当然,愿望是美好的,现实是残酷的,数据中心包含有太多的电子设备和大量的软件,虽然部署了很多的备份技术和设备,但依然很难做到永远都不出故障。那么问题来了,一旦数据中心出现了故障,该如何高效处理?

nVisual如何帮助运维人员快速定位网络故障点_故障定位


nVisual如何帮助运维人员快速定位网络故障点

02# 常见的网络故障原因分析

常见的网络故障主要有:物理层故障、数据链路层故障、网络层故障、以太网络故障、广域网络故障、TCP/IP故障、服务器故障、其他业务故障等。据相关资料的统计,网络发生故障的原因应用层占3%;表示层占7%;会话层占8%;传输层占10%;网络层占12%;数据链路层占25%;物理层占35%。

由此可见物理层故障是最常发生的。物理故障又称硬件故障,包括线路、线缆、连接器件、端口、交换机、配线架或路由器等设备出现故障。据小编了解物理层故障发生的原因主要有以下几点:

线路故障:

随着结构化布线的普及,IT系统的灵活性不断提高,同时用户变更网络连接和跳接的频率也在提高,而布线系统的好坏是影响网络故障整体情况的重要原因,据调查60%-70%的网络故障是由于线路管理的不清晰导致整个网络的不可靠或者瘫痪。线路故障通常包括线路损坏、线缆老化及线路受到严重电磁干扰等。

端口故障:

端口故障通常指的是设备插头松动和端口本身的物理故障,大部分端口故障是由于机房运维管理人员不小心触碰了线缆到账端口松动,相比线路故障和设备故障,端口故障率相对较低。

设备故障:

数据中心机房内设备出现故障通常是由于设备磨损、异常操作、超负荷运行以及不注重维护或者维护方法不当等原因造成。设备磨损不难理解,因为设备也有生命周期,累计使用到一定程度就会寿终正寝,小编认为设备故障发生原因最多的是因为运维人员日常操作没有行为审计和不遵守运维流程,未熟练的新人、错误的操作都是损坏设备的直接杀手,设备非法乱接还会给组织带来安全隐患等一系列问题。


03# 故障定位难在哪儿?

数据中心的故障表现复杂多样,首先要弄清楚故障现象是什么?一般数据中心故障都是先从应用层面表现出来,但是所有的应用业务都是在这些物理硬件设备上运行的,其中任何一个环节的设备出现故障都会导致问题。

数据中心里有太多的设备,这些设备来自不同厂家,各自的技术特点也不同,没有哪个数据中心技术人员能全部掌握所有设备的所有特点,所以需要运维人员在故障发生前、故障发生时以及故障后收集一些设备的日志、诊断、操作记录、内部隐藏信息等,特别是很多信息是设备厂家要求必须在故障时收集的,要按照厂家的要求将信息收集完整,以便这些信息可以供设备厂家分析,日后找出故障发生的原因。

然而很多时候,数据中心的技术人员急于恢复业务,往往忽略收集这些信息,并且事前事后都没有准确的线缆与设备物理层记录数据,这将为故障定位问题造成了极大难度。

俗话说“养兵千日,用兵一时”,平时不做足功课,出了故障必然处理起来毛手毛脚,在数据中心网络日常管理中,维护人员要对网络设备的端口互联、组网配置、业务关系等熟记于心,出现故障时脑海里能立刻出现网络拓扑架构以及每个设备的位置和设备端口之间连接关系。但这是不可能实现的,因为数据中心里面的设备以及线缆数量是非常庞大的,单靠人脑根本不可能记住,所以需要一个专门针对网络物理层的管理工具,当出现故障时可以精准查阅资料、可以快速查询设备、线缆的位置并且快速分析出彼此之间的关联关系等。


04# 巧用工具快速定位故障点

nVisual网络基础设施可视化运维管理平台是运用数字孪生技术加管理模式创新,针对网络基础设施线缆与资产的优化使用与合理扩展开发的管理软件,最终能够帮助组织实现资源可视化、管理精细化和运营的高效化。其中能够帮助运维人员快速定位故障点的功能如下:

1、自动生成物理拓扑功能:

nVisual可视化管理系统可自动生成设备之间物理拓扑关系,并且运维管理者可以自主选择查看一级拓扑、二级拓扑、三级拓扑等等,通过物理拓扑分析设备相互之间的关系,帮助运维人员快速解决故障。

nVisual如何帮助运维人员快速定位网络故障点_网络基础设施管理_02

2、文档管理功能

nVisual文档管理功能可实现每台设备的配置文件、维修记录、检测报告、维保期限等等非常重要但又不易保存的文件直接上传到具体设备上,当运维人员需要查看跟这台设备相关的任何资料时随时可以下载,文件的格式可以是CAD图纸、音频、视频、PDF、excel等等各种格式。当机房出现故障时,运维人员可以轻松快速的拿到设备信息,快速分析故障原因进而解决故障。

nVisual如何帮助运维人员快速定位网络故障点_故障定位_03

3、 设备对端分析功能:

nVisual对端分析功能可以在一个机柜内的众多设备中快速分析出与某台设备有直接关联关系的对端设备有哪些。假如某台交换机出现故障了,运维人员首先要做的是确定和控制故障影响的范围,nVisual对端分析功能可以帮助运维人员快速分析出这台交换机不通了那么直接产生影响的设备有哪些。

nVisual如何帮助运维人员快速定位网络故障点_网络基础设施管理_04

4、 链路分析功能:

nVisual可以自动生成物理链路拓扑图,从设备的起始端口到终止端口中间不管经过多少跳接,系统都会自动生成物理链路拓扑关系。相比查看excel表格更加的直观、清晰,不管是新来的人员还是资深运维人员都能看得懂,并且比表格查看更快速,也可以相互之间共享,也方便保存。我们都知道当出现故障的时候,时间是最关键的,要争分夺秒的迅速解决故障,把损失降到最低,这个时候nVisual的以上功能都可以帮助运维人员快速解决故障,提高故障处理效率。

nVisual如何帮助运维人员快速定位网络故障点_网络基础设施管理_05

5、 快速查询定位功能

nVisual不仅可以分析链路关系,还可以快速定位面板、设备、板卡、端口、线路等,相比其他机房管理工具,nVisual可以在成百上千个面板或者上亿条线缆中快速定位到运维管理者想要查找的那根线或者某个端口,nVisual快速检索功能真真正正帮助管理者实现了一秒查询和定位,大大提高故障处理效率,提高运维效率。

nVisual如何帮助运维人员快速定位网络故障点_故障定位_06

6、 业务映射功能

运维人员通过nVisual业务映射功能可以实现关键业务和重点链路的重点维护,通过nVisual系统可以查看企业内某项业务占用了多少IT设备资源,这些IT设备之间的相互关系又是什么。首先我们要保证关键业务绝对不能出现任何问题,所以日常运维管理时就要对关键业务所依赖的设备加强维护和管理,要清楚关键业务依赖的设备有哪些、分布在哪里、设备的维保期限多久、设备的特点是什么、端口占用情况等等,只有日常做好维护才能保证不出故障。最后通过nVisual操作行为审计功能,防止设备乱接以及非法使用网络,保障企业数据安全。

nVisual如何帮助运维人员快速定位网络故障点_网络可视化_07

05# 小结

在数据中心里,网络故障不可避免,网络故障产生会受到多方面因素的影响,故障类型较多,要彻底消除是不现实的,并且随着数据中心网络规模越来越大,新的网络技术越来越复杂,给网络故障排查和处理造成了极大障碍,这也是那些网络技术实力非常雄厚的互联网巨头数据中心依然故障不断的原因。

由此看来拥有一套nVisual这样精细化的、专业的网络运维管理工具是多么的重要。通过nVisual网络可视化管理平台,可以大大减少网络故障发生的同时提高故障处理效率,帮助运维管理者快速解决故障,提高整体运维效率,保障组织业主的安全平稳运行。​

上一篇: 什么是网络安全?网络安全体系分为哪些层次? 下一篇: 手机怎么远程登录云服务器?