序
在 IT 建設工作中,監控一直扮演著重要角色。我們能否在應用系統及其所依賴的各類基礎設施發生異常時即時探測異常、迅速定位問題原因、快速解決異常,以及總結經驗、避免再次發生類似問題,在很大程度上取決於監控系統的支援程度。可以說,在資料中心的建設過程中,監控貫穿了各個環節,從最上層的應用系統到底層的基礎設施,都需要透過不間斷的、近乎即時的監控檢測措施來保障業務的連續性。監控系統的建設工作是各企業內部一項最基礎,同時也是最重要的工作,尤其是在對業務連續性要求非常高的金融機構內,建構一套成熟完備的監控系統更是重中之重。
在業務系統結構不複雜、業務規模不大的情況下,監控系統的建設相對沒有那麼複雜,我們透過架設一套主流的監控系統,就可以實現大部分的監控需求了。但是,隨著 IT 技術的快速迭代和發展,雲端運算、容器、分散式架構等技術在企業內部的應用、落地及推廣程度逐漸加深,以及對應配套基礎設施的規模呈幾何級數增加,建構一個能夠第一時間發現問題、精準定位問題,甚至可以透過巨量資料分析、人工智慧等手段進行異常預警及事後分析且避免同類問題再次發生的監控系統就並非易事了。這對監控系統的功能、監控資訊的準確性和即時性、監控範圍的覆蓋程度,以及監控系統自身的高可用性等方面都提出了更高的要求,涉及從底層基礎設施到頂層應用系統的各個領域的監控實施工作。我們幾乎很難找到一套可以滿足所有監控需求的監控系統,所以監控系統的建設工作通常包括把對各類監控細分領域實施精細化監控的監控系統或工具進行整合、訂製開發及自研等工作。
本書試圖以理論結合實踐的方式,介紹如何從 0 到 1 打造一個一體化企業級監控系統,全書共 11 章,第 1 章「監控系統規劃及原理」詳細介紹了監控運行維護管理的發展歷程、監控系統整體規劃、監控系統的分類、監控系統工作原理、監控系統運行模式分類,以及監控事件匯流排等內容;從第2章開始至第 10 章自底向上依次對電腦硬體裝置、虛擬機器、作業系統、資料庫、中介軟體、Docker 容器、Kubernetes、應用,以及記錄檔等領域實施監控的技術原理、常用監控指標及實現方式等內容做了介紹。第 11 章「智慧監控」作為全書複習,對監控系統下一個階段的發展趨勢,即智慧監控涉及的相關技術原理及常用智慧監控功能做了介紹。本書第 1 章由姜才康編著;第 2 章、第 4 章、第 11 章由何瑋編著;第 3 章、第 5 章、第 6 章、第 7 章由邢世友編著;第 8 章、第 9 章由蔣德良編著;第 10 章由杜旭東編著;全書由姜才康和蔣德良統稿。
監控系統的成功建設離不開運行維護和研發工程師的互相配合及共同努力,所以本書對運行維護和研發工作具有同樣重要的意義。運行維護工程師透過對本書的系統學習,可以對監控系統的基本原理、設計思想、實現方式等內容有全面理解及深入掌握,從而將這些內容運用到監控系統的建設或完善工作中。研發工程師透過對本書的系統學習,可以更進一步地了解監控系統對應用系統進行監控的工作原理及可能產生的影響,從而在系統研發過程中更全面地考慮與監控系統的整合方式,建構能更加穩定運行的業務系統。
本書的出版離不開中國人民銀行科技司、中國外匯交易中心及中匯資訊技術(上海)有限公司各位領導的指導和同事們的大力支持,離不開電子工業出版社徐薔薇和朱雨萌編輯的認真態度和辛勤工作,編著者都是利用業餘時間完成本書的撰寫工作的,其間更是離不開家人的體諒與支持,在此一併表示由衷的感謝!同時,特別感謝中國人民銀行科技司李偉司長、跨境銀行間支付清算有限責任公司許再越總裁、北京青雲科技股份有限公司沈鷗副總裁為本書傾情作序。
最後,因監控技術的迭代和新技術的湧現速度非常快,受限於水準和經驗,書中內容的撰寫難免有欠妥和不足之處,熱忱歡迎讀者批評指正。
姜才康