《链路抖动问题的现象与处理.docx》由会员分享,可在线阅读,更多相关《链路抖动问题的现象与处理.docx(4页珍藏版)》请在第壹文秘上搜索。
1、链路抖动是指物理接口在至少10秒的时间内持续上升和下降,每秒三次或更多次。常见原因通常与电缆损坏、不受支持或非标准电缆或小型封装热插拔(SFP)或其他链路同步问题有关.链路抖动的原因可能是间歇性或永久性的。链路抖动通常是物理干扰,因此要采取相应的方式和步骤来诊断和防止以及解决.问题现象以数据库主机为例,在出现链路抖动时数据库磁盘链路有异常,IO延迟大,影响数据库的访问,生产业务受到影响.出现此问题需要按照架构层次进行排Si,先排查上层操作系统出现的现象,再根据现象进行排直存储、光纤交换机、光纤线缆收发光、光纤模块是否存在问题.问题处理过程操作系统排查在系统中,如使用存储链路抖动或远程数据传输到
2、本地未及时交互完成都可能会出现磁盘busy增高情况,磁盘IO延时会增大,正常情况下磁盘的响应时间应在10身秒以下,操作系统直看到的只是问题的表象,根因需要检查后端的光纤链路、光纤交换机等.以AIX操作系统为例(如图2所示).adsk-Adaptrs-Hoit-bjwMscdbl一Refrs2c-11:31.09-IDlek-Adapter-IZOINaaebusyreadwltexferDisksAdApcer-Typefc21129.090105.20Q7.9KB2175.955VirtualFibreChannelIfcsO1128.09010S.2047.5KB2047.9SSVirtu
3、alFlbxeChannel!TOTA1.S2Adapters18021X.34095.7KB/s223.755TOTM(NB/),1800IDisk-SIDiskfcrviceCiaesanSmcdQueuesReadSemc省理硬件设备监控控制器,管理FC接口模块的操作提示,清除所有FC端口误码统计.如下图3所示:图3存t设备管理界面系统运行一段时间(如1小时)后,更新杳看告警内容中的端口的线路误码统计增长情况,若误码增长速度较快,可通过提试更换该端口对应的线缆、模块单元,息至改用其他端口来确认误码消除情况.光纤交换机排直排直交换机上的误码增长情况。以博科和SNS系列交换机进行说明,登陆交
4、换机的C1.I命令行,通过CU命令StatSdear和porterrshow清除和直看当前误码情况.图4SAN交换机误码统计运行一段时同如1小时诟亚新使用C1.I命令Porterrshow查看端口统计情况.若encin和encout增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来消除误码.总结在操作系统出现磁盘性能问题后,根据现象检查光纤交换机和存储的误码情况,更换线缆、光纤模块等操作后检查问题是否解决.如检直各项都在正常范围且无硬件告警,说明底层硬件没有问题,可以检查端口流量是否跑满;如端口已经跑满说明业务系统流IR较大,如数据库在跑大的面询,建议可以优化SQ1.和检查索引是否添加等。在底层架构无法进行优化的情况下考虑对上层业务层面进行优化.缓解压力.