Google 告警配置指導

作者:

MeshCloud脈時雲公有云架構師 王明立

引言

配置告警策略,以便在有事件發生或特定系統指標/自定義指標違反了您所定義的規則時收到通知。可使用多個條件定義複雜的提醒規則。透過電子郵件、簡訊、webhock等接收通知。

整體架構

Google 告警配置指導

技術簡介

配置基於指標的提醒政策後,Monitoring 會持續監控該政策的條件。當滿足該政策的條件時,Monitoring 會建立一個突發事件併發送有關建立突發事件的通知。此通知包含有關突發事件的摘要資訊、政策詳情頁面的連結以及任何文件。如果已開啟突發事件,並且 Monitoring 確定不再滿足基於指標的政策的條件,則 Monitoring 會自動關閉突發事件併發送關閉通知。

目標

配置告警策略以預警及發現業務存在的問題,及時處理問題避免出現重大的故障。

準備工作

必需的 Google Cloud Console 角色

要建立提醒政策,Google Cloud 專案的 IAM 角色名稱必須為以下其中一項:

Monitoring Editor

Monitoring Admin

Project Owner

實施步驟

告警通道設定

配置告警通知,首先要有通知的渠道,谷歌支援電子郵件、簡訊、webhock等方式

以webhock為例:

Wehhock api地址,需要對谷歌的資料做處理,然後再轉發到飛書群,釘釘群或者其他渠道。可以使用MeshCloud GAC服務,無需開發適配 Google Cloud 的各種報警模板。

控制檯進入Monioring > Altering >EDIT Notification channels>Webhocks>ADD NEW,填寫MeshCloud生成的Webhock地址

Google 告警配置指導

控制檯進入Monioring > Altering > CREATE POLICY,選擇要監控的metric

Google 告警配置指導

配置5分鐘內的頻寬超過指定值發出告警

Google 告警配置指導

配置告警閾值(注意單位是B/s)

Google 告警配置指導

選擇上述配置的Webhock告警通道,可以選擇勾選是否恢復時發出通知Notify on incident closure

Google 告警配置指導

填寫告警名稱,描述等建立告警即新增完成

Google 告警配置指導

驗證

發測試告警,告警發到飛書效果

Google 告警配置指導

常見問題

1。告警配置支援的metrics有哪些?

請參考連結:https://cloud。google。com/monitoring/api/metrics

2。包含多個條件時的告警通知規則?

您建立了一個包含多個條件的提醒政策,並使用邏輯 AND 連線這些條件。您希望在滿足所有條件時收到一條通知並建立一個突發事件。但您會收到多個通知,還會發現存在多個突發事件。

當提醒政策包含由邏輯 AND 連線的多個條件時,如果觸發政策,那麼對於觸發了條件的每個時序,該政策都會發送通知然後建立事件。例如,若您的政策包含兩個條件,每個條件都監控一個時序,則系統會開啟兩個突發事件並向您傳送兩個通知。

3。發出告警時,詳情頁面無法開啟,並顯示“許可權遭拒”的訊息為什麼?

請確保您的 Identity and Access Management (IAM) 角色為 roles/monitoring。viewer 或包含該角色所有許可權的角色。例如,roles/monitoring。editor 和 roles/monitoring。admin 角色包含 Viewer 角色的所有許可權。