18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

萬字長文淺談系統(tǒng)穩(wěn)定性建設(shè)

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2024-07-02 10:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 背景

京東的期中考試:618即將到來,各個團隊都在進行期中考試前的模擬考試:軍演壓測,故障演練,系統(tǒng)的梳理以檢測系統(tǒng)的穩(wěn)定性以應(yīng)對高可用,高性能,高并發(fā)。我們知道系統(tǒng)的穩(wěn)定性建設(shè)是貫穿整個研發(fā)流程:需求階段,研發(fā)階段,測試階段,上線階段,運維階段;整個流程中的所有參與人員:產(chǎn)品,研發(fā),測試,運維人員都應(yīng)關(guān)注系統(tǒng)的穩(wěn)定性。業(yè)務(wù)的發(fā)展及系統(tǒng)建設(shè)過程中,穩(wěn)定性就是那個1,其他的是1后面的0,沒有穩(wěn)定性,就好比將萬丈高樓建于土沙之上。本篇文章主要從后端研發(fā)的視角針對研發(fā)階段和上線階段談下穩(wěn)定性建設(shè),希望起到拋磚引玉的作用,由于本人的水平有限,文中難免有理解不到位或者不全面的地方,歡迎批評指正。

2. 研發(fā)階段

研發(fā)階段主要參與人員是研發(fā),主要產(chǎn)出物是技術(shù)方案設(shè)計文檔和代碼,一個是研發(fā)階段的開始,一個是研發(fā)階段的結(jié)束,我們要把控好技術(shù)文檔和代碼質(zhì)量,從而減少線下bug率及線上的故障;

2.1 技術(shù)方案

2.1.1 技術(shù)方案評審

技術(shù)文檔的評審需要有本團隊的架構(gòu)師和相關(guān)研發(fā),測試,產(chǎn)品,上下游系統(tǒng)的研發(fā)同學(xué)參與,這樣能夠最大限度的保證技術(shù)方案的實現(xiàn)和產(chǎn)品需求對齊,上下游系統(tǒng)同學(xué)也知道我們的實現(xiàn),采取更加合理的交互方式,測試同學(xué)也可以從測試視角給出一些風(fēng)險點建議,架構(gòu)師可以確保我們的實現(xiàn)和業(yè)界最佳實踐的差異,確保合理性,避免過度設(shè)計;我們所要做的是開放心態(tài)采取大家的意見,嚴控技術(shù)文檔的質(zhì)量;

技術(shù)文檔的評審可以采用提問的方式,會議開始前可以將技術(shù)文檔分享給大家,讓大家先閱讀10分鐘,所有同學(xué)開始提問,技術(shù)文檔設(shè)計人其實不用讀自己的技術(shù)文檔給大家介紹,只要將大家的問題回答完,并能夠思考下大家的建議,合理的采納后,其實技術(shù)文檔的質(zhì)量就有了很大的保證,有的同學(xué)在技術(shù)文檔評審時,比較反感大家的提問,總感覺在挑戰(zhàn)自己,有些問題回答不上來,其實可以換種思路:有些問題回答不上來是正常的,可以先將大家的建議采納了,會后再思考下合理性;大家對自己技術(shù)方案是建言獻策,是保證自己技術(shù)方案的質(zhì)量,避免在技術(shù)方案階段就存在重大的線上隱患。

2.1.2 技術(shù)方案關(guān)注點

當我們遇到一個問題的時候,首先要思考的這是一個新問題還是老問題,99.99%遇到的都是老問題,因為我們所從事的是工程技術(shù),不是科學(xué)探索;我們所要做的就是看下國內(nèi)外同行針對這個問題的解法,learn from best practices;所以技術(shù)方案的第一步是對標,學(xué)習(xí)最佳實踐,這樣能讓我們避免走彎路;

同時根據(jù)奧卡姆剃刀原理,我們力求技術(shù)方案簡單,避免過度設(shè)計,針對一個復(fù)雜的問題,我們的技術(shù)方案相對復(fù)雜些,簡單的問題技術(shù)方案相對簡單些,我們所要追求的是復(fù)雜的問題通過拆解劃分,用一個個簡單的技術(shù)方案解決掉。同時技術(shù)文檔不僅關(guān)注功能的實現(xiàn),更重要的是關(guān)注架構(gòu),性能,質(zhì)量,安全;即如何打造一個高可用系統(tǒng)。打造一個高可用的系統(tǒng)是進行系統(tǒng)穩(wěn)定性建設(shè)的前提,如果我們的系統(tǒng)都不能保證高可用,又談何系統(tǒng)穩(wěn)定系建設(shè)那,下面介紹下進行系統(tǒng)穩(wěn)定性建設(shè)我們在技術(shù)方案中常用的方法及關(guān)注點。

2.1.2.1 限流

限流一般是從服務(wù)提供者provider的視角提供的針對自我保護的能力,對于流量負載超過我們系統(tǒng)的處理能力,限流策略可以防止我們的系統(tǒng)被激增的流量打垮。京東內(nèi)部無論是同步交互的JSF, 還是異步交互的JMQ都提供了限流的能力,大家可以根據(jù)自己系統(tǒng)的情況進行設(shè)置;我們知道常見的限流算法包括:計數(shù)器算法,滑動時間窗口算法,漏斗算法,令牌桶算法,具體算法可以網(wǎng)上google下,下面是這些算法的優(yōu)缺點對比。

wKgZomaDZlWAVKb4AAKkj7mxlDM485.png

2.1.2.2 熔斷降級

熔斷和降級是兩件事情,但是他們一般是結(jié)合在一起使用的。熔斷是防止我們的系統(tǒng)被下游系統(tǒng)拖垮,比如下游系統(tǒng)接口性能嚴重變差,甚至下游系統(tǒng)掛了;這個時候會導(dǎo)致大量的線程堆積,不能釋放占用的CPU,內(nèi)存等資源,這種情況下不僅影響該接口的性能,還會影響其他接口的性能,嚴重的情況會將我們的系統(tǒng)拖垮,造成雪崩效應(yīng),通過打開熔斷器,流量不再請求到有問題的系統(tǒng),可以保護我們的系統(tǒng)不被拖垮。降級是一種有損操作,我們作為服務(wù)提供者,需要將這種損失盡可能降到最低,無論是返回友好的提示,還是返回可接受的降級數(shù)據(jù)。降級細分的話又分為人工降級,自動降級。

人工降級:人工降級一般采用降級開關(guān)來控制,公司內(nèi)部一般采用配置中心Ducc來做開關(guān)降級,開關(guān)的修改也是線上操作,這塊也需要做好監(jiān)控

自動降級:自動降級是采用自動化的中間件例如Hystrix,公司的小盾龍等;如果采用自動降級的話;我們必須要對降級的條件非常的明確,比如失敗的調(diào)用次數(shù)等;

2.1.2.3 超時

分布式系統(tǒng)中的難點之一:不可靠的網(wǎng)絡(luò),京東物流現(xiàn)有的微服務(wù)架構(gòu)下,服務(wù)之間都是通過JSF網(wǎng)絡(luò)交互進行同步通信,我們探測下游依賴服務(wù)是否可用的最快捷的方式是設(shè)置超時時間。超時的設(shè)置可以讓系統(tǒng)快速失敗,進行自我保護,避免無限等待下游依賴系統(tǒng),將系統(tǒng)的線程耗盡,系統(tǒng)拖垮。

超時時間如何設(shè)置也是一門學(xué)問,如何設(shè)置一個合理的超時時間也是一個逐步迭代的過程,比如下游新開發(fā)的接口,一般會基于壓測提供一個TP99的耗時,我們會基于此配置超時時間;老接口的話,會基于線上的TP99耗時來配置超時時間。

超時時間在設(shè)置的時候需要遵循漏斗原則,從上游系統(tǒng)到下游系統(tǒng)設(shè)置的超時時間要逐漸減少,如下圖所示。為什么要滿足漏斗原則,假設(shè)不滿足漏斗原則,比如服務(wù)A調(diào)取服務(wù)B的超時時間設(shè)置成500ms,而服務(wù)B調(diào)取服務(wù)C的超時時間設(shè)置成800ms,這個時候回導(dǎo)致服務(wù)A調(diào)取服務(wù)B大量的超時從而導(dǎo)致可用率降低,而此時服務(wù)B從自身角度看是可用的;

wKgaomaDZlaAbv0yAACe9L8G8OM398.png

2.1.2.4 重試

分布式系統(tǒng)中性能的影響主要是通信,無論是在分布式系統(tǒng)中還是垮團隊溝通,communication是最昂貴的;比如我們研發(fā)都知道需求的交付有一半以上甚至更多的時間花在跨團隊的溝通上,真正寫代碼的時間是很少的;分布式系統(tǒng)中我們查看調(diào)用鏈路,其實我們系統(tǒng)本身計算的耗時是很少的,主要來自于外部系統(tǒng)的網(wǎng)絡(luò)交互,無論是下游的業(yè)務(wù)系統(tǒng),還是中間件:Mysql, redis, es等等;

所以在和外部系統(tǒng)的一次請求交互中,我們系統(tǒng)是希望盡最大努力得到想要的結(jié)果,但往往事與愿違,由于不可靠網(wǎng)絡(luò)的原因,我們在和下游系統(tǒng)交互時,都會配置超時重試次數(shù),希望在可接受的SLA范圍內(nèi)一次請求拿到結(jié)果,但重試不是無限的重試,我們一般都是配置重試次數(shù)的限制,偶爾抖動的重試可以提高我們系統(tǒng)的可用率,如果下游服務(wù)故障掛掉,重試反而會增加下游系統(tǒng)的負載,從而增加故障的嚴重程度。在一次請求調(diào)用中,我們要知道對外提供的API,后面是有多少個service在提供服務(wù),如果調(diào)用鏈路比較長,服務(wù)之間rpc交互都設(shè)置了重試次數(shù),這個時候我們需要警惕重試風(fēng)暴。如下圖service D 出現(xiàn)問題,重試風(fēng)暴會加重service D的故障嚴重程度。對于API的重試,我們還要區(qū)分該接口是讀接口還是寫接口,如果是讀接口重試一般沒什么影響,寫接口重試一定要做好接口的冪等性。

wKgZomaDZleAaFfUAACJ3jRij30690.png

2.1.2.5 兼容

我們在對老系統(tǒng),老功能進行重構(gòu)迭代的時候,一定要做好兼容,否則上線后會出現(xiàn)重大的線上問題,公司內(nèi)外有大量因為沒有做好兼容性,而導(dǎo)致資損的情況。兼容分為:向前兼容性和向后兼容性,需要好好的區(qū)分他們,如下是他們的定義:

向前兼容性:向前兼容性指的是舊版本的軟件或硬件能夠與將來推出的新版本兼容的特性,簡而言之舊版本軟件或系統(tǒng)兼容新的數(shù)據(jù)和流量。

向后兼容性:向后兼容性則是指新版本的軟件或硬件能夠與之前版本的系統(tǒng)或組件兼容的特性,簡而言之新版本軟件或系統(tǒng)兼容老的數(shù)據(jù)和流量。

根據(jù)新老系統(tǒng)和新老數(shù)據(jù)我們可以將系統(tǒng)劃分為四個象限:第一象限:新系統(tǒng)和新數(shù)據(jù)是我們系統(tǒng)改造上線后的狀態(tài),第三象限:老系統(tǒng)和老數(shù)據(jù)是我們系統(tǒng)改造上線前的狀態(tài),第一象限和第三象限的問題我們在研發(fā)和測試階段一般都能發(fā)現(xiàn)排除掉,線上故障的高發(fā)期往往出現(xiàn)在第二和第四象限,第二象限是因為沒有做好向前兼容性,例如上線過程中,發(fā)現(xiàn)問題進行了代碼回滾,但是在上線過程中產(chǎn)生了新數(shù)據(jù),回滾后的老系統(tǒng)不能處理上線過程中新產(chǎn)生的數(shù)據(jù),導(dǎo)致線上故障。第四象限是因為沒有做好向后兼容性,上線后新系統(tǒng)影響了老流程。針對第二象限的問題,我們可以構(gòu)造新的數(shù)據(jù)去驗證老的系統(tǒng),針對第四象限的問題,我們可以通過流量的錄制回放解決,錄制線上的老流量,對新功能進行驗證。

wKgaomaDZlmARjmZAAGyWfz8m9Q637.png

2.1.2.6 隔離

隔離是將故障爆炸半徑最小化的有效手段,在技術(shù)方案設(shè)計中,我們通過不同層面的隔離來控制影響范圍:

2.1.2.6.1 系統(tǒng)層面隔離

我們知道系統(tǒng)的分類可以分為:在線的系統(tǒng),離線系統(tǒng)(批處理系統(tǒng)),近實時系統(tǒng)(流處理系統(tǒng)),如下是這些系統(tǒng)的定義:

在線系統(tǒng):服務(wù)端等待請求的到達,接收到請求后,服務(wù)盡可能快的處理,然后返回給客戶端一個響應(yīng),響應(yīng)時間通常是在線服務(wù)性能的主要衡量指標。我們生活中在手機使用的APP大部分都是在線系統(tǒng);

離線系統(tǒng):或稱批處理系統(tǒng),接收大量的輸入數(shù)據(jù),運行一個作業(yè)來處理數(shù)據(jù),并產(chǎn)出輸出數(shù)據(jù),作業(yè)往往需要定時,定期運行一段時間,比如從幾分鐘到幾天,所以用戶通常不會等待作業(yè)完成,吞吐量是離線系統(tǒng)的主要衡量指標。例如我們看到的報表數(shù)據(jù):日訂單量,月訂單量,日活躍用戶數(shù),月活躍用戶數(shù)都是批處理系統(tǒng)運算一段時間得到的;

近實時系統(tǒng):或者稱流處理系統(tǒng),其介于在線系統(tǒng)和離線系統(tǒng)之間,流處理系統(tǒng)一般會有觸發(fā)源:用戶的行為操作,數(shù)據(jù)庫的寫操作,傳感器等,觸發(fā)源作為消息會通過消息代理中間件:JMQ, KAFKA等進行傳遞,消費者消費到消息后再做其他的操作,例如構(gòu)建緩存,索引,通知用戶等;

以上三種系統(tǒng)是需要進行隔離建設(shè)的,因為他們的衡量指標及對資源的使用情況完全不一樣的,比如我們小組會將在線系統(tǒng)作為一個服務(wù)單獨部署:jdl-uep-main, 離線系統(tǒng)和近實時系統(tǒng)作為一個服務(wù)單獨部署:jdl-uep-worker;

2.1.2.6.2 環(huán)境的隔離

從研發(fā)到上線階段我們會使用不同的環(huán)境,比如業(yè)界常見的環(huán)境分為:開發(fā),測試,預(yù)發(fā)和線上環(huán)境;研發(fā)人員在開發(fā)環(huán)境進行開發(fā)和聯(lián)調(diào),測試人員在測試環(huán)境進行測試,運營和產(chǎn)品在預(yù)發(fā)環(huán)境進行UAT,最終交付的產(chǎn)品部署到線上環(huán)境提供給用戶使用。在研發(fā)流程中,我們部署時要遵循從應(yīng)用層到中間件層再到存儲層,都要在一個環(huán)境,嚴禁垮環(huán)境的調(diào)用,比如測試環(huán)境調(diào)用線上,預(yù)發(fā)環(huán)境調(diào)用線上等。

wKgZomaDZlqAeuvDAAC9rPptQUI732.png

2.1.2.6.3 數(shù)據(jù)的隔離

隨著業(yè)務(wù)的發(fā)展,我們對外提供的服務(wù)往往會支撐多業(yè)務(wù),多租戶,所以這個時候我們會按照業(yè)務(wù)進行數(shù)據(jù)隔離;比如我們組產(chǎn)生的物流訂單數(shù)據(jù)業(yè)務(wù)方就包含京東零售,其他電商平臺,ISV等,為了避免彼此的影響我們需要在存儲層對數(shù)據(jù)進行隔離,數(shù)據(jù)的隔離可以按照不同粒度,第一種是通過租戶id字段進行區(qū)分,所有的數(shù)據(jù)存儲在一張表中,另外一個是庫粒度的區(qū)分,不同的租戶單獨分配對應(yīng)的數(shù)據(jù)庫。

wKgaomaDZluAGKNoAAL4s_FoxwM220.png

數(shù)據(jù)的隔離除了按照業(yè)務(wù)進行隔離外,還有按照環(huán)境進行隔離的,比如我們的數(shù)據(jù)庫分為測試庫,預(yù)發(fā)庫,線上庫,全鏈路壓測時,我們?yōu)榱四M線上的環(huán)境,同時避免污染線上的數(shù)據(jù),往往會創(chuàng)建影子庫,影子表等。根據(jù)數(shù)據(jù)的訪問頻次進行隔離,我們將經(jīng)常訪問的數(shù)據(jù)稱為熱數(shù)據(jù),不經(jīng)常訪問的數(shù)據(jù)稱為冷數(shù)據(jù);將經(jīng)常訪問的數(shù)據(jù)緩存到緩存,提高系統(tǒng)的性能。不經(jīng)常訪問的數(shù)據(jù)持久化到數(shù)據(jù)庫或者將不使用的數(shù)據(jù)結(jié)轉(zhuǎn)歸檔到

2.1.2.6.4 核心,非核心隔離

我們知道應(yīng)用是分級的,京東內(nèi)部針對應(yīng)用的重要程度會將應(yīng)用分為0,1,2,3級應(yīng)用。業(yè)務(wù)的流程也分為黃金流程和非黃金流程。在業(yè)務(wù)流程中,針對不同級別的應(yīng)用交互,需要將核心和非核心的流程進行隔離。例如在交易業(yè)務(wù)過程中,會涉及到訂單系統(tǒng),支付系統(tǒng),通知系統(tǒng),那這個過程中核心系統(tǒng)是訂單系統(tǒng)和支付系統(tǒng),而通知相對來說重要性不是那么高,所以我們會投入更多的資源到訂單系統(tǒng)和支付系統(tǒng),優(yōu)先保證這兩個系統(tǒng)的穩(wěn)定性,通知系統(tǒng)可以采用異步的方式與其他兩個系統(tǒng)解耦隔離,避免對其他另外兩個系統(tǒng)的影響。

wKgZomaDZl2AMFrZAACKyR3_wZw224.png

2.1.2.6.5 讀寫隔離

應(yīng)用層面,領(lǐng)域驅(qū)動設(shè)計(DDD)中最著名的CQRS(Command Query Responsibility Segregation)將寫服務(wù)和讀服務(wù)進行隔離。寫服務(wù)主要處理來自客戶端的command寫命令,而讀服務(wù)處理來自客戶端的query讀請求,這樣從應(yīng)用層面進行讀寫隔離,不僅可以提高系統(tǒng)的可擴展性,同時也會提高系統(tǒng)的可維護性,應(yīng)用層面我們都采用微服務(wù)架構(gòu),應(yīng)用層都是無狀態(tài)服務(wù),可以擴容加機器隨意擴展,存儲層需要持久化,擴展就比較費勁。除了應(yīng)用層面的CQRS,在存儲層面,我們也會進行讀寫隔離,例如數(shù)據(jù)庫都會采用一主多從的架構(gòu),讀請求可以路由到從庫從而分擔主庫的壓力,提高系統(tǒng)的性能和吞吐量。所以應(yīng)用層面通過讀寫隔離主要解決可擴展問題,存儲層面主要解決性能和吞吐量的問題。

wKgaomaDZl2AM8XPAAXTkKZR9Xc831.png

?

2.1.2.6.6 線程池隔離

線程是昂貴的資源,為了提高線程的使用效率,避免創(chuàng)建和銷毀的消耗,我們采用了池化技術(shù),線程池來復(fù)用線程,但是在使用線程池的過程中,我們也做好線程池的隔離,避免多個API接口復(fù)用同一個線程。

wKgZomaDZl-AK3ZuAAEfdXN3qGY441.png

2.2 代碼Review

codeReview是研發(fā)階段的最后一個流程,對線下的bug率和線上質(zhì)量及穩(wěn)定性有著重要的作用,針對于代碼如何review,談一些自己的看法:

?形成團隊代碼風(fēng)格:首先一個團隊的代碼應(yīng)該形成該團隊的代碼風(fēng)格,這樣能夠提高codeReview的效率及協(xié)作的效率,作為新加入的成員,應(yīng)該遵循團隊的代碼風(fēng)格規(guī)范。

?Review的關(guān)注點:代碼review切記不要陷入細節(jié),主要以review代碼風(fēng)格為主,如果一個團隊形成統(tǒng)一的代碼風(fēng)格,我們通過review風(fēng)格就能將大部分問題發(fā)現(xiàn),在關(guān)注功能的同時,再關(guān)注下性能,安全。

?結(jié)對編程:在代碼編寫過程中,我們要培養(yǎng)結(jié)對編程的習(xí)慣,這樣針對某次需求,codeReview時,熟悉該模塊的同事把控下細節(jié),架構(gòu)師把控風(fēng)格。

?控制每次review代碼量:每次提交代碼進行review時,不要一次性提交review大量的代碼,要將review的內(nèi)容細分,比如一個方法的實現(xiàn),一個類等。

?開放心態(tài):review的過程其實是學(xué)習(xí)提升的過程,通過代碼review,虛心接收別人的意見,學(xué)習(xí)優(yōu)雅代碼的編寫方式,提高自己的代碼水平。

3 上線階段

我們可以看下公司的故障管理平臺白虎所記錄的故障:發(fā)生系統(tǒng)故障一般都是外部對系統(tǒng)做了改變,往往發(fā)生在上線階段:代碼的部署,數(shù)據(jù)庫的更改,配置中心的變動等;上線階段是故障的高發(fā)期;一個系統(tǒng)不可能不出線上問題,我們所要追求的是,降低線上的故障頻率,縮短故障恢復(fù)時間。針對上線過程出現(xiàn)問題,我們知道業(yè)界有著名的上線過程三板斧:可監(jiān)控,可灰度,可回滾。

3.1 上線三板斧

3.1.1 可監(jiān)控

上線的過程中,我們的系統(tǒng)要做到可監(jiān)控,如果沒有監(jiān)控,上線過程中我們對系統(tǒng)的狀態(tài)是一無所知,是很可怕的。監(jiān)控什么東西那,其實監(jiān)控的就是指標。這就涉及到指標的定義,指標我們分為業(yè)務(wù)指標和技術(shù)指標,技術(shù)指標又分為軟件和硬件。業(yè)務(wù)指標一般是我們定義的觀測業(yè)務(wù)變化情況的度量,例如訂單量,支付量等。技術(shù)層面的軟件指標:可用率,TP99, 調(diào)用量,技術(shù)層面的硬件指標:cpu 內(nèi)存 磁盤 網(wǎng)絡(luò)IO。目前我們二級部門在做OpsReview,主要review的是可用率,TP99,調(diào)用量這幾個指標,分別對應(yīng)系統(tǒng)的可用性,性能,并發(fā)。

做好這些指標的監(jiān)控后,我們接下來需要做的是針對這些指標做好告警,如果某個指標突破設(shè)定的閾值后,需要進行告警通知給我們,針對監(jiān)控告警指標閾值的設(shè)置,建議先嚴后松,即系統(tǒng)建設(shè)初始階段設(shè)置的嚴格些,避免遺漏告警,出現(xiàn)線上問題,后續(xù)隨著系統(tǒng)建設(shè)的迭代需要設(shè)置更合理的告警閾值,避免告警泛濫,造成狼來了的效應(yīng)??傊暇€發(fā)布過程的一段時間是事故和問題發(fā)生的高峰,這塊一定做好指標監(jiān)控,日志監(jiān)控,對報警要敏感。

wKgaomaDZmCABZloAAJ4EvTkqd0445.png

3.1.2 可灰度

上線過程中,我們要做到可灰度,通過灰度執(zhí)行變更以限制爆炸半徑,降低影響范圍,同時灰度過程要做好兼容。灰度分為不同維度的灰度:機器維度,機房維度,地域維度,業(yè)務(wù)維度:用戶,商家,倉,承運商等。

機器維度:我們用行云部署時,可以每個分組先部署一部分機器進行灰度,灰度一段時間比如:24小時沒什么問題后,再部署剩余的機器。

機房維度:微服務(wù)架構(gòu)下,我們的應(yīng)用會部署在不同的機房中,可以按照機房維度灰度,比如先部署發(fā)布代碼在某個機房分組下,觀察一段時間再按照比例擴大灰度機房范圍直至全量。例如先部署中云信的機房,灰度一段時間后,再逐步灰度有孚的機房。

地域維度:現(xiàn)在的部署架構(gòu)都是多機房互為災(zāi)備,異地多活,單元化部署,例如業(yè)界美團的外賣業(yè)務(wù)非常適合做異地多活,單元化部署,因為外賣業(yè)務(wù)的商戶,用戶,騎手天然具有聚合性,北京的用戶大概率不會在上海點外賣,這樣根據(jù)業(yè)務(wù)的屬性,在系統(tǒng)建設(shè)的時候,從應(yīng)用層到中間件層,再到存儲層可以單元化部署在上海地域的機房和北京地域的機房,功能發(fā)布的時候可以灰度某個地域,做到地域級別的容災(zāi)。

業(yè)務(wù)維度:在上線過程中,我們也可以根據(jù)業(yè)務(wù)屬性進行灰度,例如上線了某個功能或者產(chǎn)品,根據(jù)用戶維度灰度,某些用戶或者某些商戶才能使用該功能,產(chǎn)品。

3.1.3 可回滾

線上出現(xiàn)問題時,我們應(yīng)該優(yōu)先止損,其次才是分析根因。止損的最快方式就是回滾,回滾分為代碼回滾和數(shù)據(jù)回滾,代碼回滾即將我們代碼恢復(fù)到原有的邏輯,代碼回滾有兩種方式:開關(guān)控制和部署回滾。最快捷的方式是開關(guān)控制,一鍵開關(guān)打開或者關(guān)閉就可以實現(xiàn)回滾到原有的邏輯,操作成本最低,止損最快速。第二種方式就是部署回滾,通過發(fā)布平臺,例如行云將代碼回滾到上個穩(wěn)定運行的版本。有時候我們代碼回滾完,如果沒有做好向前兼容性,系統(tǒng)應(yīng)用依然有問題,例如上線過程中產(chǎn)生了新數(shù)據(jù),回滾完后,代碼不能處理新的數(shù)據(jù)。所以這個時候又涉及到數(shù)據(jù)的回滾,數(shù)據(jù)的回滾涉及到修數(shù):將產(chǎn)生的新數(shù)據(jù)無效掉,或者修改為正確的數(shù)據(jù)等,當數(shù)據(jù)量比較大時,數(shù)據(jù)的回滾一般耗時費力,所以建議做好向前兼容性,直接代碼回滾。

3.2 線上問題應(yīng)對

3.2.1 常見問題分類

針對線上的問題,我們第一步是識別出是什么問題,然后才能解決問題,針對線上各種各樣的問題我們可以進行聚合,歸并分類下,針對每種問題去參考業(yè)界的處理方法和團隊的內(nèi)的緊急預(yù)案,做到臨陣不亂。

wKgZomaDZmCAJ-fmAAHMPypCGHc654.png

3.2.2 問題生命周期

當出現(xiàn)問題時,我們也需要清楚一個線上問題的生命周期:從問題發(fā)生,到我們發(fā)現(xiàn)問題,進而進行響應(yīng)處理,觀測問題是否修復(fù),服務(wù)是否恢復(fù)正常,到最終針對該問題進行復(fù)盤,當發(fā)生系統(tǒng)發(fā)生問題時,我們越早發(fā)現(xiàn)問題,對業(yè)務(wù)的影響越小,整個流程如下圖所示。

wKgaomaDZmGAd93gAADjzksrjjQ232.png

3.2.3 如何預(yù)防問題

就像人的身體生病一樣,當問題發(fā)生已經(jīng)晚了,我們要投入更多時間和精力到如何預(yù)防中,就像扁鵲的大哥一樣治未病,防患于未然。根據(jù)破窗原理,一個問題出現(xiàn)了,如果放任不管,問題的嚴重性會越來越大,直到不可挽回。我們可以從研發(fā)的規(guī)范,研發(fā)的流程,變更流程這幾個方面進行預(yù)防。

wKgZomaDZmKAGIR7AAIXpHHToQg989.png

3.2.4 如何發(fā)現(xiàn)問題

對于一個系統(tǒng),如果外界不對其做功,根據(jù)熵增原理,其會越來越混亂,直到出現(xiàn)問題,外界對其做功,就涉及到改變,因為改變是人在操作,由于各種不可控的因素,也會導(dǎo)致各種線上問題,所以我們可以看到對于一個系統(tǒng)上線后不出現(xiàn)問題是不可能的,當出現(xiàn)問題時,我們第一步是如何快速的發(fā)現(xiàn)問題?對于問題發(fā)現(xiàn)的渠道,工作中接觸到的有如下幾種:自我意識,監(jiān)控告警,業(yè)務(wù)反饋;

自我意識:我們C2部門每周有一個重要會議OpsReview,各個C3團隊會對個團隊的核心接口的不規(guī)律跳點,毛刺進行可用率,性能,調(diào)用量的review,以通過這種主動的,自我意識行為發(fā)現(xiàn)潛在的線上問題。同時我們組每天早會的重要一項:UMP監(jiān)控全域看板的review,我們會對昨天核心接口的可用率,TP99,調(diào)用量,進行分析的,對于可用率降低,TP99有毛刺,不規(guī)范的流量調(diào)用會進行排查原因,盡早自我發(fā)現(xiàn)問題,同時也會對機器的CPU, 內(nèi)存使用率,Mysql, redis , es各種存儲進行review。

監(jiān)控告警:這是我們發(fā)現(xiàn)問題最常用的渠道,通過主動的監(jiān)控指標,被動的接收告警來發(fā)現(xiàn)問題,告警指標我們分為業(yè)務(wù)指標和技術(shù)指標,具體分類可詳見3.1.1可監(jiān)控部分

業(yè)務(wù)反饋:這種發(fā)現(xiàn)問題的方式是我們最不愿意看到的,如果等到業(yè)務(wù)反饋,說明線上問題已經(jīng)影響到用戶,我們常常因為監(jiān)控告警的缺失,漏報而導(dǎo)致落后于業(yè)務(wù)發(fā)現(xiàn)問題,所以我們最希望每個人,團隊都有這種自我意識,將線上問題提早發(fā)現(xiàn),防患于未然。

3.2.5 如何響應(yīng)問題

出現(xiàn)線上問題后,我們個人對問題的認知是非常有限的,并且這個時候人處于一種高度緊張的狀態(tài),所以這個時候一定要群里周知自己的leader,將情況如實表達,不要夸大和縮小問題的范圍和影響,同時將問題進行通告。整個問題的響應(yīng)過程包含以下幾步:

1.保留現(xiàn)場:問題發(fā)生的現(xiàn)場是我們排查問題的依據(jù),所以要將現(xiàn)場的日志,數(shù)據(jù)等信息保存好,比如內(nèi)存dump, 線程dump,避免機器重啟后這些信息的丟失。

2.提供信息:提供自己所知道的信息,協(xié)助排查,不要擴大和縮小問題

3.恢復(fù)服務(wù):當出現(xiàn)線上問題是,我們追求的是以最快的速度恢復(fù)服務(wù),快速止損,業(yè)界有快速止血,恢復(fù)服務(wù)的幾板斧:回滾:服務(wù)回滾,數(shù)據(jù)回滾,重啟,擴容,禁用節(jié)點,功能降級

4.雙重確認:服務(wù)恢復(fù)后,我們需要確認是否恢復(fù)了,可以通過觀察:業(yè)務(wù)指標是否正常,技術(shù)指標是否正常,數(shù)據(jù)是否正常,日志是否正常等來觀測問題的恢復(fù)情況

5.故障通告:確認問題沒有什么問題后,需要再應(yīng)急群中周知大家:業(yè)務(wù)人員,產(chǎn)品經(jīng)理,系統(tǒng)的上下游,測試人員,SRE等。并讓產(chǎn)品和業(yè)務(wù)進行確認,然后周知用戶。

3.2.6 如何定位問題

服務(wù)恢復(fù)后,我們可以回過頭來細致的分析下到底是什么原因?qū)е铝司€上的問題。定位問題也要講究方法論,這就涉及到定位問題三要素:知識,工具,方法。

知識:相對其他行業(yè),計算機行業(yè)應(yīng)該是知識更新迭代最快的行業(yè),所以我們需要不斷的去學(xué)習(xí),更新自己的知識庫,不給自己設(shè)限。例如你想解決FullGC問題,你必須對JVM進行系統(tǒng)的學(xué)習(xí),想解決慢sql,必須對Mysql進行系統(tǒng)的學(xué)習(xí),現(xiàn)在AI大模型這么火,我們也需要對prompt engineering, RAG , Agent, 多模態(tài)等進行學(xué)習(xí)了解。有了知識我們才能遇到問題時,知道是什么,為什么?

工具:工欲善其事,必先利其器,工程師要善于借助公司工具來提高解決問題的效率,熟練使用公司各種中間件工具,公司已經(jīng)有的中間件,優(yōu)先使用公司的中間件,公司內(nèi)一個中間件團隊維護的中間件工具要優(yōu)于業(yè)務(wù)研發(fā)小組內(nèi)維護的中間件工具,不要小組內(nèi)部,或者團隊內(nèi)部重復(fù)造輪子,并且小組內(nèi)人員的流動變更,容易造成中間件沒人維護。下圖是公司常用的中間件工具:

wKgaomaDZmOAe_ofAAKWRiJB0Bs553.png

方法:解決問題我們要講究方法,選擇正確的方法可以事半功倍,提高我們定位問題及解決問題的效率,下面是我們研發(fā)人員常見的排查問題的方法

wKgZomaDZmSAV2GaAAWJuWdZNKw455.png

3.2.7 如何修復(fù)問題

有了知識,工具和方法后,其實我們很快的就定位到問題了,定位到問題后,我們就要想辦法如何去把問題修復(fù)了,以下是問題修復(fù)的流程:

wKgZomaDZmWAXsIBAAD6Z3QVF1I140.png

3.2.8 如何復(fù)盤問題

問題發(fā)生后,我們需要從此次問題中分析根因,并汲取教訓(xùn)和經(jīng)驗,避免犯同樣的錯誤。這就涉及到問題的復(fù)盤,如何進行問題的復(fù)盤那,一般會經(jīng)過如下幾個步驟:回顧目標,評價結(jié)果,分析原因,總結(jié)經(jīng)驗。例如我們C2部門每周的opsReview會議上都會有線上問題的復(fù)盤:coe,如何進行coe復(fù)盤談一些自己的思考。

?參考業(yè)界的5WHY分析法剖析問題的根因

?5WHY分析法:5代表的是問題的深度,而不是問題的數(shù)量

?基于問題的答案繼續(xù)進行提問,5個問題是有關(guān)聯(lián)的,層層遞進的,找到問題的根因

wKgaomaDZmaAc1OEAACNPirxgVc256.png

4 參考資料

??https://itrevolution.com/articles/20-years-of-google-sre-10-key-lessons-for-reliability/?

??https://learn.microsoft.com/en-us/previous-versions/msp-n-p/jj591573(v=pandp.10)?redirectedfrom=MSDN?

??https://sre.google/books/

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    頻率穩(wěn)定性的技術(shù)解析

    頻率穩(wěn)定性?指信號源(包括振蕩器、時鐘源、射頻發(fā)射機等)在時間、環(huán)境或外部干擾下維持輸出頻率恒定的能力,其核心在于量化頻率的波動范圍及系統(tǒng)抗干擾性能。 一、基礎(chǔ)定義? 短期穩(wěn)定性? 時間跨度?:毫秒
    的頭像 發(fā)表于 04-10 15:18 ?1075次閱讀
    頻率<b class='flag-5'>穩(wěn)定性</b>的技術(shù)解析

    穩(wěn)定性建設(shè)之依賴設(shè)計

    。為了解決這個問題,強弱依賴治理成為了一種科學(xué)的手段。通過強弱依賴治理,我們可以持續(xù)穩(wěn)定地獲取應(yīng)用間的依賴關(guān)系、流量以及強弱等數(shù)據(jù)。這樣,我們可以 提前發(fā)現(xiàn)由于依賴問題可能導(dǎo)致的系統(tǒng)穩(wěn)定性故障 。 一、依賴概念
    的頭像 發(fā)表于 02-21 09:49 ?591次閱讀
    <b class='flag-5'>穩(wěn)定性</b><b class='flag-5'>建設(shè)</b>之依賴設(shè)計

    HarmonyOS官網(wǎng)上線“穩(wěn)定性”專欄 助力更穩(wěn)定流暢的鴻蒙原生應(yīng)用開發(fā)

    HWAsan檢測。而關(guān)于案例分析部分,則是以實際案例,來幫助我們開發(fā)者更好的理解并應(yīng)用不同場景下的問題排查方法。 除了上述解決應(yīng)用致命穩(wěn)定性問題的穩(wěn)定性檢測與分析章節(jié),該專欄還包含了如何持續(xù)建設(shè)
    發(fā)表于 02-17 17:17

    A/D變換器采樣速率和穩(wěn)定性的關(guān)系,是什么影響了轉(zhuǎn)換器的穩(wěn)定性?

    我在測量A/D轉(zhuǎn)換器時出現(xiàn)這樣一個問題。采樣率的提高,其A/D轉(zhuǎn)換器的穩(wěn)定性隨之降低。從我個人理解,采樣率的提高已經(jīng)在測量有效位數(shù)上將誤差算出來了,我只需要考慮在高采樣率時,有效分辨率的位數(shù)
    發(fā)表于 02-11 08:24

    旋轉(zhuǎn)測徑儀的底座如何保證穩(wěn)定性

    關(guān)鍵:旋轉(zhuǎn)測徑儀,底座材質(zhì),測徑儀底座結(jié)構(gòu),旋轉(zhuǎn)測徑儀穩(wěn)定性, 旋轉(zhuǎn)測徑儀的底座保證穩(wěn)定性是確保測量精度和儀器長期穩(wěn)定運行的關(guān)鍵。以下是一些常見的保證旋轉(zhuǎn)測徑儀底座
    發(fā)表于 01-09 14:04

    【6千字長文】車載芯片的技術(shù)沿革與趨勢分析

    【本文是讀者投稿。6千字長文,規(guī)格嚴謹。】01什么是芯片?什么是汽車芯片?芯片,通俗地說,就是一塊小硅片集成了許多微小的電子元件,如晶體管、電阻、電容等元件通過復(fù)雜的電路連接在一起,形成一個功能強大
    的頭像 發(fā)表于 12-31 22:37 ?1792次閱讀
    【6千<b class='flag-5'>字長文</b>】車載芯片的技術(shù)沿革與趨勢分析

    萬字長文,看懂激光基礎(chǔ)知識!

    深入介紹激光基礎(chǔ)知識,幫助您輕松理解激光領(lǐng)域的關(guān)鍵概念和原理。
    的頭像 發(fā)表于 12-20 09:49 ?1608次閱讀
    <b class='flag-5'>萬字長文</b>,看懂激光基礎(chǔ)知識!

    影響B(tài)UCK電路占空比穩(wěn)定性的因素

    開關(guān)周期內(nèi)導(dǎo)通的時間比例。占空比的穩(wěn)定性對于電路的性能至關(guān)重要,因為它直接影響到輸出電壓的穩(wěn)定性和紋波。以下是一些影響B(tài)UCK電路占空比穩(wěn)定性的因素: 輸入電壓變化: 輸入電壓的波動會影響占空比,因為占空比需要調(diào)整以維持恒定的輸
    的頭像 發(fā)表于 12-12 17:14 ?2518次閱讀

    庫存平臺穩(wěn)定性建設(shè)實踐

    作者:京東物流 尹昊喆 前言 本文總結(jié)庫存平臺穩(wěn)定性建設(shè)中遇到的問題以及解決方案。感謝【金鵬】、【孫靜】、【陳瑞】同學(xué)在本文撰寫中提供的內(nèi)容及幫助! 庫存平臺面臨的穩(wěn)定性挑戰(zhàn) 庫存平臺為貨品流通鏈路
    的頭像 發(fā)表于 12-11 09:50 ?791次閱讀
    庫存平臺<b class='flag-5'>穩(wěn)定性</b><b class='flag-5'>建設(shè)</b>實踐

    是德34460A用表的測量穩(wěn)定性提升

    是德科技(Keysight Technologies)的34460A數(shù)字用表以其高精度、多功能性和可靠性而聞名于儀器測試領(lǐng)域。然而,即使是高端儀器,其測量穩(wěn)定性也可能受到多種因素的影響,從而導(dǎo)致
    的頭像 發(fā)表于 12-05 10:06 ?795次閱讀
    是德34460A<b class='flag-5'>萬</b>用表的測量<b class='flag-5'>穩(wěn)定性</b>提升

    電阻器的熱穩(wěn)定性分析

    電阻器的熱穩(wěn)定性是指電阻器在溫度變化時,其電阻值保持恒定或變化極小的特性。以下是對電阻器熱穩(wěn)定性的分析: 一、電阻器熱穩(wěn)定性的重要性 電阻器是電子電路中的基本元件,其性能穩(wěn)定性直接影響
    的頭像 發(fā)表于 12-04 14:18 ?1237次閱讀

    如何測試晶振的穩(wěn)定性

    以下是一些常用的方法來測試晶振的穩(wěn)定性
    的頭像 發(fā)表于 11-29 16:41 ?1433次閱讀

    如何測試DDR內(nèi)存的穩(wěn)定性

    測試DDR內(nèi)存的穩(wěn)定性是確保計算機系統(tǒng)穩(wěn)定運行的重要步驟。以下是一些常用的測試DDR內(nèi)存穩(wěn)定性的方法: 一、使用專業(yè)測試軟件 MemTest86 : 功能:MemTest86是一款優(yōu)秀
    的頭像 發(fā)表于 11-29 15:01 ?3852次閱讀

    buck電路的穩(wěn)定性分析方法

    輸入信號的頻率足夠高時,負反饋環(huán)路能夠保持穩(wěn)定。為了分析反饋增益,可以使用傳遞函數(shù)來描述電路的動態(tài)行為。通過計算傳遞函數(shù)的增益和相位響應(yīng),可以評估電路的穩(wěn)定性。 二、相位裕度分析 相位裕度是系統(tǒng)
    的頭像 發(fā)表于 11-21 10:09 ?2136次閱讀

    質(zhì)量視角下的系統(tǒng)穩(wěn)定性保障--穩(wěn)定性保障常態(tài)化自動化實踐

    常態(tài)化穩(wěn)定性治理。在常態(tài)化治理過程中我們將識別問題等重復(fù)性有規(guī)律的工作實現(xiàn)自動化,技術(shù)人員更專注于解決問題。 二、穩(wěn)定性治理常態(tài)化 保障穩(wěn)定性治理常態(tài)化,部門組建了一支由研發(fā)團隊、測試團隊、架構(gòu)師組成的
    的頭像 發(fā)表于 11-19 11:19 ?1362次閱讀
    質(zhì)量視角下的<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>穩(wěn)定性</b>保障--<b class='flag-5'>穩(wěn)定性</b>保障常態(tài)化自動化實踐