雲上資源編排的思與悟

作者 | 元吟

一背景

2018年7月9日，我透過校招加入阿里雲，開啟了職業生涯。有幸參與了資源編排服務從1。0到2。0的全部設計、開發、測試工作，這對我瞭解雲上服務起到了啟蒙作用。當然，本文源於我在設計開發過程中的思考和感悟。

在傳統軟體架構下，撇開業務層程式碼，都需要部署計算節點、儲存資源、網路資源，然後安裝、配置作業系統等。而云服務本質上是實現 IT 架構軟體化和 IT 平臺智慧化，透過軟體的形式定義這些硬體資源，充分抽象並封裝其操作介面，任何資源均可直接呼叫相關 API 完成建立、刪除、修改、查詢等操作。

有賴於阿里雲對資源的充分抽象以及高度統一的OpenAPI，這讓基於阿里雲構建一套完整的 IT 架構並對各資源進行生命週期管理成為可能。客戶按需求提供資源模板，編排服務將會根據編排邏輯自動完成所有資源的建立和配置。

二架構設計

伴隨著業務場景的增加和業務規模的指數級增長，原有架構逐漸暴露出租戶隔離粒度大、併發量小、服務依賴嚴重等問題，對於服務架構的重構迫在眉睫，其中最重要三個方面就是拓撲設計、併發模型設計和工作流設計。

1 拓撲設計

拓撲設計的核心問題是明確產品形態和使用者需求、解決資料通路問題。站在產品角度考慮的點包括： 1。資源所有者（服務資源［計費單元］、使用者資源）、2。資源訪問許可權（隔離、授權）。站在使用者角度需要考慮的點包括： 1。服務型別（WebService型-需公網訪問、資料計算型-阿里雲內網訪問）、2。資料打通（源資料、目的資料）。

資源所有者分為服務賬號和使用者賬號。資源屬於服務賬號的模式又叫做大賬號模式，該模式優點有： 1。管控能力更強；2。計費更容易。但易成為瓶頸的點包括：1。資源配額；2。依賴服務的介面流控。很顯然，全量資源託管是不現實的，比如VPC、VSwitch、SLB、SecurityGroup等資源客戶往往需要和其他系統打通，這部分資源通常是使用者提供的，而ECS例項則比較適合透過大賬號建立。

多租戶隔離在大賬號模式下是非常重要的問題。既要保證某一使用者的資源彼此可以相互訪問，又要保證多個客戶之間不能有越界行為。一個常見的例子是，所有使用者的ECS均開在同一個服務VPC內，同一個VPC內例項預設是可以相互訪問的，存在安全風險，因此在系統設計初期就需要考慮到相關問題的應對方案。

對於上述問題我們的設計是，ECS例項透過大賬號模式建立在服務賬號下的資源VPC內，透過企業級安全組實現不同使用者例項的訪問隔離。涉及使用者資料（NAS、RDS等）訪問的操作時，需要使用者提供這些訪問點所在的VPC和Vswitch，透過在例項上建立ENI並繫結到使用者VPC上，實現對使用者資料的訪問。具體資料通路如圖所示。

常見的服務架構

2 併發模型設計

模型設計的核心是解決高併發（High Concurrency）、高效能（High Performance）、高可用（High Availability）問題。

資源編排的高併發主要指標為QPS（Queries-per-second），對於動輒以分鐘為單位的資源編排邏輯而言，同步模型顯然不能支撐較高併發請求。資源編排的高效能主要指標為TPS（Transactions-per-second），在根據使用者資源模板編排資源的過程中，資源彼此間存在一定的依賴關係，線性地建立資源會導致大量時間處於忙等狀態，服務吞吐嚴重受限。資源編排的高可用主要指標為SLA（Service Level Agreement），在HA基礎上若能解耦CRUD對內部服務的依賴，在服務升級或發生異常時就可以減小對SLA的影響。

對於上述問題我們的設計是，在服務前端僅進行簡單的引數檢查後立即將使用者模板寫入持久化層，寫入成功後立即返回資源ID，已持久化的資源模板將被視為未處理完成的任務等待排程處理。隨後，我們週期性掃表探測任務，有序建立資源並同步其狀態，如遇資源狀態不滿足向下推進的條件則立即返回，經過多輪次處理，最終達到期望的狀態，一個簡化的分散式模型如圖所示。

分散式併發模型

為了避免任務較多情況下的鎖爭搶問題，我們設計一套任務發現 + 租約續租的機制，一旦叢集從資料庫池子中被某個節點爭搶到之後會被新增到該節點的排程池中並設定租約，租約管理系統會對即將到期的租約進行續租（加鎖）。這樣可以確保一個叢集在下一次服務被拉起前一直只被某個節點處理，如果服務重啟，則任務會因超時自動解鎖並被其他節點捕獲。

3 工作流設計

流程設計的核心是解決依賴問題。依賴問題包含兩種情況：前序資源的狀態不符合預期和資源本身狀態不符合預期。我們假設各資源的狀態只有可用和不可用，並且假定可用的資源不會跳轉到不可用狀態，最簡單的情況就是一個線性任務，如圖所示。考慮到部分子資源的編排工作可以並行，編排過程就可以看作是一個有向無環圖（ DAG， Direct Acyclic Graph）任務。

資源線性編排結構

世界不只是非黑即白，資源的狀態也是一樣，有向無環成為了美好的願望，有向有環才符合真實世界的執行規律。對於這種情況，簡單的工作流很難覆蓋複雜的流程，只有進一步對工作流抽象，設計符合要求的有限狀態機（FSM， Finite State Machine）。有限狀態機說起來過於抽象，但ECS例項的狀態轉移大家都接觸過，下圖就是ECS例項的狀態轉移模型。

ECS例項狀態轉移模型

結合實際業務需求，我設計瞭如下圖所示的叢集狀態轉移模型。該模型簡化了狀態轉移邏輯，有且僅有Running這一穩態，其他三種狀態（Rolling、Deleting、Error）均為中間態。處於中間態的資源會根據當前資源狀態嘗試向著穩態越遷，每次狀態越遷過程均按照一定的Workflow執行相關操作。

叢集狀態轉移模型

從這時起，服務的整體架構和設計思路基本確立。

三核心競爭力

資源（ECS）短缺問題日益嚴峻，加上粗粒度的擴縮容、升降配功能已不能滿足客戶的需求，資源池化（Resource Pooling）、自動伸縮（Auto Scaling）、滾動升級（Rolling Update）被提上日程併成為提升產品競爭力的一大利器。

1 資源池化

資源池化簡單來說就是提前預留某些資源以備不時之需，很顯然，資源池化的前提一定是大賬號模式。對開發者而言，執行緒池不是陌生的詞彙，但資源池卻相對比較遙遠，實際上，資源池解決的就是資源建立、刪除時間開銷很大以及庫存不可控的問題。當然，池化資源另一個假設是，被池化的資源會被頻繁使用且可被回收利用（規格、配置相對單一）。

由於計算資源建立週期較長且經常被資源庫存等問題困擾，加之產品期望在業務上有所拓展，因此我們設計瞭如圖所示的資源池化模型並對多種計算資源進行抽象，提供了一套可以應對異構資源的處理邏輯。

資源池化模型

資源池化可以大大縮短資源建立等待時間，解決庫存不足問題，另外，它可以幫上層使用到資源的服務解耦複雜的狀態轉移邏輯，對外提供的資源狀態可以精簡到Available和Unknown兩種，所得即可用。但不得不考慮的問題包括：

ECS例項的建立是否受使用者資源的限制（如使用者提供VSwitch會限制ECS可用區）。

如何解決資源閒置問題（成本問題）。

對於第一個問題，目前受制於VSwitch由客戶提供，暫時還沒有比較好的解法，只能儘量要求客戶提供的VSwitch覆蓋更多的可用區，如果VSwitch屬於服務賬號，就可以比較好規劃資源池建在哪個AZ。對於第二個問題，資源池本身也是一種資源，成本控制我們可以從接下來提到的自動伸縮上得到答案。

2 自動伸縮

雲計算最大的吸引力就是降低成本，對資源而言，最大的好處就是可以按量付費。實際上，幾乎所有線上服務都有其峰谷，而自動伸縮解決的正是成本控制問題。它在客戶業務增長時增加ECS例項以保證算力，業務下降時減少ECS例項以節約成本，如圖所示。

自動伸縮示意圖

我對自動伸縮的設計思路是，先對時間分片觸發定時任務，再對時間段內配置伸縮策略。伸縮策略也包含兩部分，一部分是最大ECS規模和最小ECS規模，它指定了該時間段內叢集規模的浮動範圍，另一部分是監控指標、耐受度和步進規則，它提供了伸縮依據和標準。這裡監控指標是比較有意思的點，除了採集雲監控的CPU、Memory利用率外，還可以透過對ECS空閒、忙碌狀態的標記，計算出工作節點佔比率，一旦超出耐受範圍，即可按步進大小觸發一次擴容或縮容事件。

3 滾動升級

客戶服務架構的修改往往涉及複雜的重建邏輯，在重建過程中不可避免的會影響服務質量，如何優雅平滑地做升降配成為了諸多客戶的剛需。滾動升級正是解決不停服、可調控的升降配問題的。

滾動升級示意圖

一次簡化的滾動升級過程如上圖所示。滾動升級的核心是對升級進行灰度，按照一定比例開出Standby資源直到它們可以順利服役，隨後再下線掉相應臺數的資源。經過多次滾動之後，使其全部資源更新到最新預期，透過冗餘實現升級不停服。

四可觀測性

服務可觀測性將來必將成為雲服務的核心競爭力之一，它包括面向使用者的可觀測行和麵向開發者的可觀測性兩部分。時至今日，仍然記得半夜被客戶電話支配的恐懼，仍記得對著海量日誌調查問題的不知所措，仍記得客戶一通抱怨後毫無頭緒的茫然。

1 面向使用者

是的，我希望使用者在向我們反饋遇到的問題時，提供的資訊是有效的，甚至是能直接指向病灶的。對使用者而言，能夠直接透過API獲取資源編排所處的階段以及各階段對應資源的狀態資訊，確實能夠極大地提高使用者體驗。針對這個問題，我分析了系統處理流程，設計了面向“階段 - 事件 - 狀態”的執行狀態收集器。

具體包括：對的業務流程進行拆分得到多個處理階段，對每個階段依賴的事件（資源及其狀態）進行整理，對每個事件可能出現的狀態做結構化定義（尤其是異常狀態）。一個典型的樣例如程式碼樣例所示。

［ { “Condition”：“Launched”， “Status”：“True”， “LastTransitionTime”：“2021-06-17T18：08：30。559586077+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。574196182+08：00” }， { “Condition”：“Authenticated”， “Status”：“True”， “LastTransitionTime”：“2021-06-17T18：08：30。941994575+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。592222594+08：00” }， { “Condition”：“Timed”， “Status”：“True”， “LastTransitionTime”：“2021-06-17T18：08：30。944626198+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。599628262+08：00” }， { “Condition”：“Tracked”， “Status”：“True”， “LastTransitionTime”：“2021-06-17T18：08：30。947530873+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。608807786+08：00” }， { “Condition”：“Allocated”， “Status”：“True”， “LastTransitionTime”：“2021-06-17T18：08：30。952310811+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。618390582+08：00” }， { “Condition”：“Managed”， “Status”：“True”， “LastTransitionTime”：“2021-06-18T10：09：00。611588546+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。627946404+08：00” }， { “Condition”：“Scaled”， “Status”：“False”， “LastTransitionTime”：“2021-06-18T10：09：00。7172905+08：00”， “LastProbeTime”：“2021-06-18T14：35：30。74967891+08：00”， “Errors”：［ { “Action”：“ScaleCluster”， “Code”：“SystemError”， “Message”：“cls-13LJYthRjnrdOYMBug0I54kpXum ： destroy worker failed”， “Repeat”：534 } ］ }］

程式碼樣例：叢集維度狀態收集

2 面向開發者

對開發者而言，可觀測性包含監控和日誌兩部分，監控可以幫助開發者檢視系統的執行狀態，而日誌可以協助問題的排查和診斷。產品從基礎設施、容器服務、服務本身、客戶業務四個維度進行了監控和資料聚合，具體用到的元件如圖所示。

各級別監控、告警體系

基礎設施主要依託雲監控（Cloud Monitor）追蹤CPU、Memory等使用率；容器服務主要依賴普羅米修斯（Prometheus）監控部署服務的K8S叢集情況。對服務本身，我們在各個執行階段都接入了Trace用於故障定位；對最難處理的客戶業務部分，我們按透過SLS收集客戶使用情況，透過UserId和ProjectId進行資料聚合，並整理出普羅米修斯的DashBoard，可以快速分析某個使用者的使用情況。

除監控外，已接入雲監控告警、普羅米修斯告警和SLS告警，系統、業務分別設定不同告警優先順序，並整理了豐富的應急響應方案。

五其他

從懵懂到能夠獨立負責資源編排服務的設計、開發工作，阿里雲提供了寶貴的學習平臺。

原文連結：http://click.aliyun.com/m/1000286323/

本文為阿里雲原創內容，未經允許不得轉載。