網路故障洗冤啟示錄之----外網丟包故障前前後後

最近事情稍微多了一些,就沒空整理文件了,但解決的網路故障天天都在經歷,每個環境下的網路故障都不一樣,每次的故障都是一次經驗的積累,靠經驗消化歸納總結

最近這個客戶的現場網路環境故障問題個人覺得有一定的總結意義,特此整理釋出出來,供大家一起討論

交代一下基本資訊

這個客戶是在深圳的某個產業園,更換新的辦公室地點,新辦公室喬遷,辦公室網路重新規劃新建的一個專案,整個公司專案有線點位600+,再加無線WiFi覆蓋, 一共兩層,外網為電信,6條1000M寬頻,11層分配4條,10層分配2條,都是撥號的ADSL線路,上行50下行1000M,測速都能跑滿千兆寬頻

經過前前後護半個月的施工週期和除錯,新辦公地點網路已經有了,基本的網路結構如下:

網路故障洗冤啟示錄之----外網丟包故障前前後後

兩層的網路結構都一樣,出口閘道器做多線撥號匯聚疊加負載,內網劃分了不同業務的vlan,無線單獨一個網段,內網所有的終端都通過出口路由閘道器來自動獲取IP地址上網,一個很典型的網路結構

但是,客戶從舊辦公室搬遷過來後,運營了一週左右,發現了網路存在重大問題,網路不穩定,上班高峰期的時候,外網時斷時續,ping外網丟包,而且還延遲非常大,嚴重的時候基本是沒法用了,客戶現場怨聲載道,如圖:

網路故障洗冤啟示錄之----外網丟包故障前前後後

延遲不穩定,還丟包

那麼問題就來了,新建辦公室的網路除錯的時候是沒發現問題的,當時也和客戶那邊的網管做了一個搬遷之前的網路接收驗收,均滿足要求,但為什麼整體搬遷過來後網路就不行了,問題出在哪裡?

眼看問題遠端是解決不了了,期間前前後後駐客戶現場都去了好幾次,經過我蹲點測試和驗證結果如下:

1。測試本地內網是沒有任何異常的,內網沒有環路、沒有IP地址衝突、也沒有arp的問題,測試ping閘道器一切正常,內網訪問內部伺服器均正常

2。出現問題的時機有點詭異,早上8點以前,公司上班沒什麼人,沒有到高峰期,也是一切正常,但到了9。-10點左右,上班的高峰期來臨,網路開始出現上圖的情況了

3。經過測試,從路由的外網口ping到運營商的閘道器IP地址,就已經開始不穩定了,別說訪問其他外網資源了,但還是不能定位到具體哪個環節的問題,中間也給電信的裝維師傅叫過來,查線路的光衰,-18和光,也是在正常之內,線路是沒問題的,電信的裝維師傅只能檢測處理線路和光貓的問題,其他的他們也不懂,他們只會讓你單機去測試,單機測試沒問題他們就不管了,這哪叫解決問題的路子,單機不用測,接到路由上電信的裝維師傅就說是你們自己裝置的問題了,給他看了檢測資訊,他說是正常的

網路故障洗冤啟示錄之----外網丟包故障前前後後

網路故障洗冤啟示錄之----外網丟包故障前前後後

經過一番的測試找到了疑似是光貓的問題,但電信的裝維師傅說這個是正常的,正常的,正常的····

這個問題已經拖了三週了,我司老闆也發飆了,親自過問這個專案進展,找到我,現在的問題出現在哪裡,我如實的和老闆說了前因後果,老闆來了句,不要動不動就懷疑說是運營商的問題,可以問問老同事借鑑一下經驗,因為那會兒我還沒轉正,老闆也下達瞭解決問題期限,客戶那邊也是被網路整的雞飛狗跳,客戶那邊的老闆都坐不住了,電信那邊的客戶經理,一個勁的說自己這邊沒問題,都是裝置的問題,電信不可能有問題的,沒辦法,我們做為裝置廠商,太弱了,什麼問題都是我們去查,我們裝置也換了,什麼都換了,還是一樣,這時候我跟客戶的閘道器私下說,要不你打工信部投訴電話吧,興許有辦法,說完當天我就走了,高潮來了,晚上客戶那邊的網管跟我說,當地片區的電信經理匿名幫他忙打自己電信的投訴電話了,明天會來人查問題,說明天還要過去一趟一起解決問題,我第一感覺,終於有救了,還得投訴管用

第二那天按照約定的時間點各方的人員都到了

這次電信從上一級調了一個專門做解決網路故障的技術支援,不再是裝維師傅了,當然裝維師傅肯定到現場了,然後我給前因後果再講解了復現了一遍,電信那邊也沒話說,然後經典的來了,片區的裝維師傅瞧瞧嘀咕了一句,說以前也遇到這樣的問題,後面是更換了一個光貓解決的,眼看也沒其他辦法呀,電信就去找還有沒有這樣的光貓,當天也是巧了,恰好有一個,二話不說,直接換上,電信那邊一頓神操作,路由正常撥號連線,獲取IP,更改外網線路策略,讓這條線的負載滿上,再測試,好了,問題解決了

網路故障洗冤啟示錄之----外網丟包故障前前後後

ping測試也不丟包也不抖動,延遲也正常了,穩如老狗····QTMD DX

但當天電信只有一臺這樣的光貓,被換下來的是天邑光貓,電信說是最好的光貓,全千兆的,更換的光貓什麼牌子我當時忘記拍照了,當天沒多的光貓了,只能下次來更換了,這天是週五,電信在下週一給其他的光貓全部換掉後,這個客戶的網路故障問題徹底解決,據後來客戶那邊網管說,客戶的老闆給那個裝維師傅和片區電信經理足足罵了半天···

一句話:因為電信配發的光貓穩定性問題導致外網不穩定,更換後徹底解決

總結:

1、千萬不要相信以為所謂的運營商裝維師傅有多專業,他們能做也不多,遇到既不負責任也不專業還臉皮厚的裝維師傅,直接投訴走起

2、網路故障排查是一個經驗積累的過程,需要大量的案例去積累,事後做好歸納總結,經驗也不是萬能的,經驗也有時候會誤導

3、別人不相信你的時候,自己要相信自己的判斷,大膽假設,小心求證,多多學學