發布時間:2021-01-21
2021年1月18日晚上8點22分,北方廣電網絡公司運行保障中心IT支撐組負責人楊健離開核心機房后,終于松了一口氣。當天,他在不依賴廠家技術人員指導的情況下,獨立排除硬件故障并成功修復了損壞系統,為公司節省15000余元的修復費用。說起這次系統故障,時間還要倒退到11個小時之前。
1月18日上午9點,北方廣電網絡公司運營支撐監控系統突然報警,供應商管理系統出現故障。作為公司官方網站一級頁面的重要組成內容,供應商系統停止工作會導致公司網站部分功能缺失,影響公司采購項目信息的公告公示,使供應商無法按時上傳審核材料。如果不及時修復故障,會對公司品牌形象造成嚴重的負面影響。
“從系統的損壞程度判斷,已經不具備遠程服務的條件。”楊健說,受新冠疫情及換修硬件采購時間等因素影響,廠家提供有償上門維修服務至少要一天以后才能進行。此時,面對緊迫的搶修任務,他決定先自行開展維修工作。
楊健根據多年的運維工作經驗判斷,故障初步原因是硬件RAID板卡損壞。如果直接更換RAID板卡,需要聯系廠家進行購買,采購周期時間長,服務器內的數據也會有丟失的風險。為了盡快完成維修,確保數據安全,首選方案是修復RAID板卡。楊健先從其它備件中拆卸并更換了RAID板卡中損壞的原件,將修復好的RAID板卡安裝在其它測試服務器上運行,成功恢復了5塊硬盤的正常陣列信息。通過系統安裝光盤引導計算機,訪問到硬盤陣列中的原始數據。他深知數據的重要性,不能莽撞行事。為避免給公司造成更大的損失,他用最原始的外部存儲方式備份數據。受單線程命令及外部存儲接口速率的限制,全部文件的分析及備份工作歷時6個多小時。
數據安全了,懸著的心終于落地。但在隨后的檢查中楊健再次發現新問題:服務器操作系統文件損壞非常嚴重,已無法正常運行。“操作系統核心數據損壞,最有效的方式就是重新安裝系統,但這需要廠商的配合才能完成。”而此時并不具備這樣的條件,楊健只能在現場獨立修復受損的系統。系統文件相互調用,結構復雜,楊健只能在摸索中一點點進行。
歷時11個小時,當日晚上8點,楊健終于排除硬件故障并成功修復了損壞系統,供應商管理系統重新恢復運行。
打破廠商技術限制,自主完成設備優化
楊健2008年入職于北方廣電網絡公司,先后就職于運營支撐部、運行保障中心,長期從事硬件架構設計、軟件開發部署、設備運行維護等工作。他責任心強,不懼困難,樂于專研。不滿足只做好本職工作的楊健,通過堅持不懈的努力學習和在技術一線的工作實踐,使他對運維工作有了更全面和深入的認識。
楊健工作照
對于運維工作來說,“穩”是工作的核心,而“變”意味著要打破常規,突破規則,“穩”和“變”看似是對立矛盾。但在楊健看來,“穩”和“變”并不矛盾。隨著公司5G業務的逐步開展,對運維人員技術能力、管理水平等多方面都提出了更高的要求,如果運維工作按部就班,不以發展趨勢而創新,在技術上止步不前,習慣依賴于外部的技術支持,那么我們只能為此付出高額的“學費”。“公司作為創新技術型企業,更需要穩中應變,變中求進,牢牢掌握工作的主動權。”楊健說。
幾年前,全省BOSS系統整合后遇到了性能瓶頸。如果按照廠商提供的技術改造方案,公司將付出高額的服務費用。為了打破廠商技術和價格的壟斷,經公司領導商議后決定自主進行升級改造。當時國內可供參考的技術資料非常有限,僅有兩三篇技術資料和廠商提供的宣傳技術概念。楊健根據豐富的知識儲備和多年從事運維系統維護的經驗,悉心研究架構,最終達到了既定優化目的,成功實施了BOSS系統的優化和割接。每年為公司節省系統服務費50余萬元,系統運行至今未購買維保服務,間接節省運維成本200余萬元。
北方廣電網絡公司多功能展廳是公司舉辦大型活動、對外展示公司前沿業務和產品的重要場所。楊健深知保障多功能展廳各項設備平穩運行,即是工作任務,也是政治責任。
楊健接手展廳設備維護工作時,距展廳建成已有4年的時間,部分設備早以過了維保期,故障率較高。在一次高規格接待任務前夕,展廳OTN網沙盤展示區播放控制端主機發生故障,送修后被告知無法修復。楊健通過逆向分析控制端程序了解其運行機制,將其移植到一臺筆記本電腦上,實現了控制功能。
還有一次,他在調試投影設備時發現5臺投影設備中有1臺投影發生故障,導致投影畫面不完整。這種高端投影設備單價高達20萬元,沈陽當地沒有授權維修機構,只能送修北京。為確保第二天的接待工作順利進行,楊健連夜加班,查找問題,最終修復了設備,圓滿的完成了當次接待任務。
以上只是他平凡工作中的縮影。楊健就是這樣一位秉承工匠精神、嚴謹認真、精益求精、有責任心、有專業技能、肯鉆研的運保人。作為一名共產黨員,他時刻不忘發揮先鋒模范作用、任勞任怨,突破傳統思維在其工作中做出了卓越的貢獻。
(運行保障中心)