18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

萬字長文淺談系統(tǒng)穩(wěn)定性建設(shè)

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2024-07-02 10:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 背景

京東的期中考試:618即將到來,各個(gè)團(tuán)隊(duì)都在進(jìn)行期中考試前的模擬考試:軍演壓測,故障演練,系統(tǒng)的梳理以檢測系統(tǒng)的穩(wěn)定性以應(yīng)對高可用,高性能,高并發(fā)。我們知道系統(tǒng)的穩(wěn)定性建設(shè)是貫穿整個(gè)研發(fā)流程:需求階段,研發(fā)階段,測試階段,上線階段,運(yùn)維階段;整個(gè)流程中的所有參與人員:產(chǎn)品,研發(fā),測試,運(yùn)維人員都應(yīng)關(guān)注系統(tǒng)的穩(wěn)定性。業(yè)務(wù)的發(fā)展及系統(tǒng)建設(shè)過程中,穩(wěn)定性就是那個(gè)1,其他的是1后面的0,沒有穩(wěn)定性,就好比將萬丈高樓建于土沙之上。本篇文章主要從后端研發(fā)的視角針對研發(fā)階段和上線階段談下穩(wěn)定性建設(shè),希望起到拋磚引玉的作用,由于本人的水平有限,文中難免有理解不到位或者不全面的地方,歡迎批評指正。

2. 研發(fā)階段

研發(fā)階段主要參與人員是研發(fā),主要產(chǎn)出物是技術(shù)方案設(shè)計(jì)文檔和代碼,一個(gè)是研發(fā)階段的開始,一個(gè)是研發(fā)階段的結(jié)束,我們要把控好技術(shù)文檔和代碼質(zhì)量,從而減少線下bug率及線上的故障;

2.1 技術(shù)方案

2.1.1 技術(shù)方案評審

技術(shù)文檔的評審需要有本團(tuán)隊(duì)的架構(gòu)師和相關(guān)研發(fā),測試,產(chǎn)品,上下游系統(tǒng)的研發(fā)同學(xué)參與,這樣能夠最大限度的保證技術(shù)方案的實(shí)現(xiàn)和產(chǎn)品需求對齊,上下游系統(tǒng)同學(xué)也知道我們的實(shí)現(xiàn),采取更加合理的交互方式,測試同學(xué)也可以從測試視角給出一些風(fēng)險(xiǎn)點(diǎn)建議,架構(gòu)師可以確保我們的實(shí)現(xiàn)和業(yè)界最佳實(shí)踐的差異,確保合理性,避免過度設(shè)計(jì);我們所要做的是開放心態(tài)采取大家的意見,嚴(yán)控技術(shù)文檔的質(zhì)量;

技術(shù)文檔的評審可以采用提問的方式,會議開始前可以將技術(shù)文檔分享給大家,讓大家先閱讀10分鐘,所有同學(xué)開始提問,技術(shù)文檔設(shè)計(jì)人其實(shí)不用讀自己的技術(shù)文檔給大家介紹,只要將大家的問題回答完,并能夠思考下大家的建議,合理的采納后,其實(shí)技術(shù)文檔的質(zhì)量就有了很大的保證,有的同學(xué)在技術(shù)文檔評審時(shí),比較反感大家的提問,總感覺在挑戰(zhàn)自己,有些問題回答不上來,其實(shí)可以換種思路:有些問題回答不上來是正常的,可以先將大家的建議采納了,會后再思考下合理性;大家對自己技術(shù)方案是建言獻(xiàn)策,是保證自己技術(shù)方案的質(zhì)量,避免在技術(shù)方案階段就存在重大的線上隱患。

2.1.2 技術(shù)方案關(guān)注點(diǎn)

當(dāng)我們遇到一個(gè)問題的時(shí)候,首先要思考的這是一個(gè)新問題還是老問題,99.99%遇到的都是老問題,因?yàn)槲覀兯鶑氖碌氖枪こ碳夹g(shù),不是科學(xué)探索;我們所要做的就是看下國內(nèi)外同行針對這個(gè)問題的解法,learn from best practices;所以技術(shù)方案的第一步是對標(biāo),學(xué)習(xí)最佳實(shí)踐,這樣能讓我們避免走彎路;

同時(shí)根據(jù)奧卡姆剃刀原理,我們力求技術(shù)方案簡單,避免過度設(shè)計(jì),針對一個(gè)復(fù)雜的問題,我們的技術(shù)方案相對復(fù)雜些,簡單的問題技術(shù)方案相對簡單些,我們所要追求的是復(fù)雜的問題通過拆解劃分,用一個(gè)個(gè)簡單的技術(shù)方案解決掉。同時(shí)技術(shù)文檔不僅關(guān)注功能的實(shí)現(xiàn),更重要的是關(guān)注架構(gòu),性能,質(zhì)量,安全;即如何打造一個(gè)高可用系統(tǒng)。打造一個(gè)高可用的系統(tǒng)是進(jìn)行系統(tǒng)穩(wěn)定性建設(shè)的前提,如果我們的系統(tǒng)都不能保證高可用,又談何系統(tǒng)穩(wěn)定系建設(shè)那,下面介紹下進(jìn)行系統(tǒng)穩(wěn)定性建設(shè)我們在技術(shù)方案中常用的方法及關(guān)注點(diǎn)。

2.1.2.1 限流

限流一般是從服務(wù)提供者provider的視角提供的針對自我保護(hù)的能力,對于流量負(fù)載超過我們系統(tǒng)的處理能力,限流策略可以防止我們的系統(tǒng)被激增的流量打垮。京東內(nèi)部無論是同步交互的JSF, 還是異步交互的JMQ都提供了限流的能力,大家可以根據(jù)自己系統(tǒng)的情況進(jìn)行設(shè)置;我們知道常見的限流算法包括:計(jì)數(shù)器算法,滑動(dòng)時(shí)間窗口算法,漏斗算法,令牌桶算法,具體算法可以網(wǎng)上google下,下面是這些算法的優(yōu)缺點(diǎn)對比。

wKgZomaDZlWAVKb4AAKkj7mxlDM485.png

2.1.2.2 熔斷降級

熔斷和降級是兩件事情,但是他們一般是結(jié)合在一起使用的。熔斷是防止我們的系統(tǒng)被下游系統(tǒng)拖垮,比如下游系統(tǒng)接口性能嚴(yán)重變差,甚至下游系統(tǒng)掛了;這個(gè)時(shí)候會導(dǎo)致大量的線程堆積,不能釋放占用的CPU,內(nèi)存等資源,這種情況下不僅影響該接口的性能,還會影響其他接口的性能,嚴(yán)重的情況會將我們的系統(tǒng)拖垮,造成雪崩效應(yīng),通過打開熔斷器,流量不再請求到有問題的系統(tǒng),可以保護(hù)我們的系統(tǒng)不被拖垮。降級是一種有損操作,我們作為服務(wù)提供者,需要將這種損失盡可能降到最低,無論是返回友好的提示,還是返回可接受的降級數(shù)據(jù)。降級細(xì)分的話又分為人工降級,自動(dòng)降級。

人工降級:人工降級一般采用降級開關(guān)來控制,公司內(nèi)部一般采用配置中心Ducc來做開關(guān)降級,開關(guān)的修改也是線上操作,這塊也需要做好監(jiān)控

自動(dòng)降級:自動(dòng)降級是采用自動(dòng)化的中間件例如Hystrix,公司的小盾龍等;如果采用自動(dòng)降級的話;我們必須要對降級的條件非常的明確,比如失敗的調(diào)用次數(shù)等;

2.1.2.3 超時(shí)

分布式系統(tǒng)中的難點(diǎn)之一:不可靠的網(wǎng)絡(luò),京東物流現(xiàn)有的微服務(wù)架構(gòu)下,服務(wù)之間都是通過JSF網(wǎng)絡(luò)交互進(jìn)行同步通信,我們探測下游依賴服務(wù)是否可用的最快捷的方式是設(shè)置超時(shí)時(shí)間。超時(shí)的設(shè)置可以讓系統(tǒng)快速失敗,進(jìn)行自我保護(hù),避免無限等待下游依賴系統(tǒng),將系統(tǒng)的線程耗盡,系統(tǒng)拖垮。

超時(shí)時(shí)間如何設(shè)置也是一門學(xué)問,如何設(shè)置一個(gè)合理的超時(shí)時(shí)間也是一個(gè)逐步迭代的過程,比如下游新開發(fā)的接口,一般會基于壓測提供一個(gè)TP99的耗時(shí),我們會基于此配置超時(shí)時(shí)間;老接口的話,會基于線上的TP99耗時(shí)來配置超時(shí)時(shí)間。

超時(shí)時(shí)間在設(shè)置的時(shí)候需要遵循漏斗原則,從上游系統(tǒng)到下游系統(tǒng)設(shè)置的超時(shí)時(shí)間要逐漸減少,如下圖所示。為什么要滿足漏斗原則,假設(shè)不滿足漏斗原則,比如服務(wù)A調(diào)取服務(wù)B的超時(shí)時(shí)間設(shè)置成500ms,而服務(wù)B調(diào)取服務(wù)C的超時(shí)時(shí)間設(shè)置成800ms,這個(gè)時(shí)候回導(dǎo)致服務(wù)A調(diào)取服務(wù)B大量的超時(shí)從而導(dǎo)致可用率降低,而此時(shí)服務(wù)B從自身角度看是可用的;

wKgaomaDZlaAbv0yAACe9L8G8OM398.png

2.1.2.4 重試

分布式系統(tǒng)中性能的影響主要是通信,無論是在分布式系統(tǒng)中還是垮團(tuán)隊(duì)溝通,communication是最昂貴的;比如我們研發(fā)都知道需求的交付有一半以上甚至更多的時(shí)間花在跨團(tuán)隊(duì)的溝通上,真正寫代碼的時(shí)間是很少的;分布式系統(tǒng)中我們查看調(diào)用鏈路,其實(shí)我們系統(tǒng)本身計(jì)算的耗時(shí)是很少的,主要來自于外部系統(tǒng)的網(wǎng)絡(luò)交互,無論是下游的業(yè)務(wù)系統(tǒng),還是中間件:Mysql, redis, es等等;

所以在和外部系統(tǒng)的一次請求交互中,我們系統(tǒng)是希望盡最大努力得到想要的結(jié)果,但往往事與愿違,由于不可靠網(wǎng)絡(luò)的原因,我們在和下游系統(tǒng)交互時(shí),都會配置超時(shí)重試次數(shù),希望在可接受的SLA范圍內(nèi)一次請求拿到結(jié)果,但重試不是無限的重試,我們一般都是配置重試次數(shù)的限制,偶爾抖動(dòng)的重試可以提高我們系統(tǒng)的可用率,如果下游服務(wù)故障掛掉,重試反而會增加下游系統(tǒng)的負(fù)載,從而增加故障的嚴(yán)重程度。在一次請求調(diào)用中,我們要知道對外提供的API,后面是有多少個(gè)service在提供服務(wù),如果調(diào)用鏈路比較長,服務(wù)之間rpc交互都設(shè)置了重試次數(shù),這個(gè)時(shí)候我們需要警惕重試風(fēng)暴。如下圖service D 出現(xiàn)問題,重試風(fēng)暴會加重service D的故障嚴(yán)重程度。對于API的重試,我們還要區(qū)分該接口是讀接口還是寫接口,如果是讀接口重試一般沒什么影響,寫接口重試一定要做好接口的冪等性。

wKgZomaDZleAaFfUAACJ3jRij30690.png

2.1.2.5 兼容

我們在對老系統(tǒng),老功能進(jìn)行重構(gòu)迭代的時(shí)候,一定要做好兼容,否則上線后會出現(xiàn)重大的線上問題,公司內(nèi)外有大量因?yàn)闆]有做好兼容性,而導(dǎo)致資損的情況。兼容分為:向前兼容性和向后兼容性,需要好好的區(qū)分他們,如下是他們的定義:

向前兼容性:向前兼容性指的是舊版本的軟件或硬件能夠與將來推出的新版本兼容的特性,簡而言之舊版本軟件或系統(tǒng)兼容新的數(shù)據(jù)和流量。

向后兼容性:向后兼容性則是指新版本的軟件或硬件能夠與之前版本的系統(tǒng)或組件兼容的特性,簡而言之新版本軟件或系統(tǒng)兼容老的數(shù)據(jù)和流量。

根據(jù)新老系統(tǒng)和新老數(shù)據(jù)我們可以將系統(tǒng)劃分為四個(gè)象限:第一象限:新系統(tǒng)和新數(shù)據(jù)是我們系統(tǒng)改造上線后的狀態(tài),第三象限:老系統(tǒng)和老數(shù)據(jù)是我們系統(tǒng)改造上線前的狀態(tài),第一象限和第三象限的問題我們在研發(fā)和測試階段一般都能發(fā)現(xiàn)排除掉,線上故障的高發(fā)期往往出現(xiàn)在第二和第四象限,第二象限是因?yàn)闆]有做好向前兼容性,例如上線過程中,發(fā)現(xiàn)問題進(jìn)行了代碼回滾,但是在上線過程中產(chǎn)生了新數(shù)據(jù),回滾后的老系統(tǒng)不能處理上線過程中新產(chǎn)生的數(shù)據(jù),導(dǎo)致線上故障。第四象限是因?yàn)闆]有做好向后兼容性,上線后新系統(tǒng)影響了老流程。針對第二象限的問題,我們可以構(gòu)造新的數(shù)據(jù)去驗(yàn)證老的系統(tǒng),針對第四象限的問題,我們可以通過流量的錄制回放解決,錄制線上的老流量,對新功能進(jìn)行驗(yàn)證。

wKgaomaDZlmARjmZAAGyWfz8m9Q637.png

2.1.2.6 隔離

隔離是將故障爆炸半徑最小化的有效手段,在技術(shù)方案設(shè)計(jì)中,我們通過不同層面的隔離來控制影響范圍:

2.1.2.6.1 系統(tǒng)層面隔離

我們知道系統(tǒng)的分類可以分為:在線的系統(tǒng),離線系統(tǒng)(批處理系統(tǒng)),近實(shí)時(shí)系統(tǒng)(流處理系統(tǒng)),如下是這些系統(tǒng)的定義:

在線系統(tǒng):服務(wù)端等待請求的到達(dá),接收到請求后,服務(wù)盡可能快的處理,然后返回給客戶端一個(gè)響應(yīng),響應(yīng)時(shí)間通常是在線服務(wù)性能的主要衡量指標(biāo)。我們生活中在手機(jī)使用的APP大部分都是在線系統(tǒng);

離線系統(tǒng):或稱批處理系統(tǒng),接收大量的輸入數(shù)據(jù),運(yùn)行一個(gè)作業(yè)來處理數(shù)據(jù),并產(chǎn)出輸出數(shù)據(jù),作業(yè)往往需要定時(shí),定期運(yùn)行一段時(shí)間,比如從幾分鐘到幾天,所以用戶通常不會等待作業(yè)完成,吞吐量是離線系統(tǒng)的主要衡量指標(biāo)。例如我們看到的報(bào)表數(shù)據(jù):日訂單量,月訂單量,日活躍用戶數(shù),月活躍用戶數(shù)都是批處理系統(tǒng)運(yùn)算一段時(shí)間得到的;

近實(shí)時(shí)系統(tǒng):或者稱流處理系統(tǒng),其介于在線系統(tǒng)和離線系統(tǒng)之間,流處理系統(tǒng)一般會有觸發(fā)源:用戶的行為操作,數(shù)據(jù)庫的寫操作,傳感器等,觸發(fā)源作為消息會通過消息代理中間件:JMQ, KAFKA等進(jìn)行傳遞,消費(fèi)者消費(fèi)到消息后再做其他的操作,例如構(gòu)建緩存,索引,通知用戶等;

以上三種系統(tǒng)是需要進(jìn)行隔離建設(shè)的,因?yàn)樗麄兊暮饬恐笜?biāo)及對資源的使用情況完全不一樣的,比如我們小組會將在線系統(tǒng)作為一個(gè)服務(wù)單獨(dú)部署:jdl-uep-main, 離線系統(tǒng)和近實(shí)時(shí)系統(tǒng)作為一個(gè)服務(wù)單獨(dú)部署:jdl-uep-worker;

2.1.2.6.2 環(huán)境的隔離

從研發(fā)到上線階段我們會使用不同的環(huán)境,比如業(yè)界常見的環(huán)境分為:開發(fā),測試,預(yù)發(fā)和線上環(huán)境;研發(fā)人員在開發(fā)環(huán)境進(jìn)行開發(fā)和聯(lián)調(diào),測試人員在測試環(huán)境進(jìn)行測試,運(yùn)營和產(chǎn)品在預(yù)發(fā)環(huán)境進(jìn)行UAT,最終交付的產(chǎn)品部署到線上環(huán)境提供給用戶使用。在研發(fā)流程中,我們部署時(shí)要遵循從應(yīng)用層到中間件層再到存儲層,都要在一個(gè)環(huán)境,嚴(yán)禁垮環(huán)境的調(diào)用,比如測試環(huán)境調(diào)用線上,預(yù)發(fā)環(huán)境調(diào)用線上等。

wKgZomaDZlqAeuvDAAC9rPptQUI732.png

2.1.2.6.3 數(shù)據(jù)的隔離

隨著業(yè)務(wù)的發(fā)展,我們對外提供的服務(wù)往往會支撐多業(yè)務(wù),多租戶,所以這個(gè)時(shí)候我們會按照業(yè)務(wù)進(jìn)行數(shù)據(jù)隔離;比如我們組產(chǎn)生的物流訂單數(shù)據(jù)業(yè)務(wù)方就包含京東零售,其他電商平臺,ISV等,為了避免彼此的影響我們需要在存儲層對數(shù)據(jù)進(jìn)行隔離,數(shù)據(jù)的隔離可以按照不同粒度,第一種是通過租戶id字段進(jìn)行區(qū)分,所有的數(shù)據(jù)存儲在一張表中,另外一個(gè)是庫粒度的區(qū)分,不同的租戶單獨(dú)分配對應(yīng)的數(shù)據(jù)庫。

wKgaomaDZluAGKNoAAL4s_FoxwM220.png

數(shù)據(jù)的隔離除了按照業(yè)務(wù)進(jìn)行隔離外,還有按照環(huán)境進(jìn)行隔離的,比如我們的數(shù)據(jù)庫分為測試庫,預(yù)發(fā)庫,線上庫,全鏈路壓測時(shí),我們?yōu)榱四M線上的環(huán)境,同時(shí)避免污染線上的數(shù)據(jù),往往會創(chuàng)建影子庫,影子表等。根據(jù)數(shù)據(jù)的訪問頻次進(jìn)行隔離,我們將經(jīng)常訪問的數(shù)據(jù)稱為熱數(shù)據(jù),不經(jīng)常訪問的數(shù)據(jù)稱為冷數(shù)據(jù);將經(jīng)常訪問的數(shù)據(jù)緩存到緩存,提高系統(tǒng)的性能。不經(jīng)常訪問的數(shù)據(jù)持久化到數(shù)據(jù)庫或者將不使用的數(shù)據(jù)結(jié)轉(zhuǎn)歸檔到

2.1.2.6.4 核心,非核心隔離

我們知道應(yīng)用是分級的,京東內(nèi)部針對應(yīng)用的重要程度會將應(yīng)用分為0,1,2,3級應(yīng)用。業(yè)務(wù)的流程也分為黃金流程和非黃金流程。在業(yè)務(wù)流程中,針對不同級別的應(yīng)用交互,需要將核心和非核心的流程進(jìn)行隔離。例如在交易業(yè)務(wù)過程中,會涉及到訂單系統(tǒng),支付系統(tǒng),通知系統(tǒng),那這個(gè)過程中核心系統(tǒng)是訂單系統(tǒng)和支付系統(tǒng),而通知相對來說重要性不是那么高,所以我們會投入更多的資源到訂單系統(tǒng)和支付系統(tǒng),優(yōu)先保證這兩個(gè)系統(tǒng)的穩(wěn)定性,通知系統(tǒng)可以采用異步的方式與其他兩個(gè)系統(tǒng)解耦隔離,避免對其他另外兩個(gè)系統(tǒng)的影響。

wKgZomaDZl2AMFrZAACKyR3_wZw224.png

2.1.2.6.5 讀寫隔離

應(yīng)用層面,領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)(DDD)中最著名的CQRS(Command Query Responsibility Segregation)將寫服務(wù)和讀服務(wù)進(jìn)行隔離。寫服務(wù)主要處理來自客戶端的command寫命令,而讀服務(wù)處理來自客戶端的query讀請求,這樣從應(yīng)用層面進(jìn)行讀寫隔離,不僅可以提高系統(tǒng)的可擴(kuò)展性,同時(shí)也會提高系統(tǒng)的可維護(hù)性,應(yīng)用層面我們都采用微服務(wù)架構(gòu),應(yīng)用層都是無狀態(tài)服務(wù),可以擴(kuò)容加機(jī)器隨意擴(kuò)展,存儲層需要持久化,擴(kuò)展就比較費(fèi)勁。除了應(yīng)用層面的CQRS,在存儲層面,我們也會進(jìn)行讀寫隔離,例如數(shù)據(jù)庫都會采用一主多從的架構(gòu),讀請求可以路由到從庫從而分擔(dān)主庫的壓力,提高系統(tǒng)的性能和吞吐量。所以應(yīng)用層面通過讀寫隔離主要解決可擴(kuò)展問題,存儲層面主要解決性能和吞吐量的問題。

wKgaomaDZl2AM8XPAAXTkKZR9Xc831.png

?

2.1.2.6.6 線程池隔離

線程是昂貴的資源,為了提高線程的使用效率,避免創(chuàng)建和銷毀的消耗,我們采用了池化技術(shù),線程池來復(fù)用線程,但是在使用線程池的過程中,我們也做好線程池的隔離,避免多個(gè)API接口復(fù)用同一個(gè)線程。

wKgZomaDZl-AK3ZuAAEfdXN3qGY441.png

2.2 代碼Review

codeReview是研發(fā)階段的最后一個(gè)流程,對線下的bug率和線上質(zhì)量及穩(wěn)定性有著重要的作用,針對于代碼如何review,談一些自己的看法:

?形成團(tuán)隊(duì)代碼風(fēng)格:首先一個(gè)團(tuán)隊(duì)的代碼應(yīng)該形成該團(tuán)隊(duì)的代碼風(fēng)格,這樣能夠提高codeReview的效率及協(xié)作的效率,作為新加入的成員,應(yīng)該遵循團(tuán)隊(duì)的代碼風(fēng)格規(guī)范。

?Review的關(guān)注點(diǎn):代碼review切記不要陷入細(xì)節(jié),主要以review代碼風(fēng)格為主,如果一個(gè)團(tuán)隊(duì)形成統(tǒng)一的代碼風(fēng)格,我們通過review風(fēng)格就能將大部分問題發(fā)現(xiàn),在關(guān)注功能的同時(shí),再關(guān)注下性能,安全。

?結(jié)對編程:在代碼編寫過程中,我們要培養(yǎng)結(jié)對編程的習(xí)慣,這樣針對某次需求,codeReview時(shí),熟悉該模塊的同事把控下細(xì)節(jié),架構(gòu)師把控風(fēng)格。

?控制每次review代碼量:每次提交代碼進(jìn)行review時(shí),不要一次性提交review大量的代碼,要將review的內(nèi)容細(xì)分,比如一個(gè)方法的實(shí)現(xiàn),一個(gè)類等。

?開放心態(tài):review的過程其實(shí)是學(xué)習(xí)提升的過程,通過代碼review,虛心接收別人的意見,學(xué)習(xí)優(yōu)雅代碼的編寫方式,提高自己的代碼水平。

3 上線階段

我們可以看下公司的故障管理平臺白虎所記錄的故障:發(fā)生系統(tǒng)故障一般都是外部對系統(tǒng)做了改變,往往發(fā)生在上線階段:代碼的部署,數(shù)據(jù)庫的更改,配置中心的變動(dòng)等;上線階段是故障的高發(fā)期;一個(gè)系統(tǒng)不可能不出線上問題,我們所要追求的是,降低線上的故障頻率,縮短故障恢復(fù)時(shí)間。針對上線過程出現(xiàn)問題,我們知道業(yè)界有著名的上線過程三板斧:可監(jiān)控,可灰度,可回滾。

3.1 上線三板斧

3.1.1 可監(jiān)控

上線的過程中,我們的系統(tǒng)要做到可監(jiān)控,如果沒有監(jiān)控,上線過程中我們對系統(tǒng)的狀態(tài)是一無所知,是很可怕的。監(jiān)控什么東西那,其實(shí)監(jiān)控的就是指標(biāo)。這就涉及到指標(biāo)的定義,指標(biāo)我們分為業(yè)務(wù)指標(biāo)和技術(shù)指標(biāo),技術(shù)指標(biāo)又分為軟件和硬件。業(yè)務(wù)指標(biāo)一般是我們定義的觀測業(yè)務(wù)變化情況的度量,例如訂單量,支付量等。技術(shù)層面的軟件指標(biāo):可用率,TP99, 調(diào)用量,技術(shù)層面的硬件指標(biāo):cpu 內(nèi)存 磁盤 網(wǎng)絡(luò)IO。目前我們二級部門在做OpsReview,主要review的是可用率,TP99,調(diào)用量這幾個(gè)指標(biāo),分別對應(yīng)系統(tǒng)的可用性,性能,并發(fā)。

做好這些指標(biāo)的監(jiān)控后,我們接下來需要做的是針對這些指標(biāo)做好告警,如果某個(gè)指標(biāo)突破設(shè)定的閾值后,需要進(jìn)行告警通知給我們,針對監(jiān)控告警指標(biāo)閾值的設(shè)置,建議先嚴(yán)后松,即系統(tǒng)建設(shè)初始階段設(shè)置的嚴(yán)格些,避免遺漏告警,出現(xiàn)線上問題,后續(xù)隨著系統(tǒng)建設(shè)的迭代需要設(shè)置更合理的告警閾值,避免告警泛濫,造成狼來了的效應(yīng)??傊暇€發(fā)布過程的一段時(shí)間是事故和問題發(fā)生的高峰,這塊一定做好指標(biāo)監(jiān)控,日志監(jiān)控,對報(bào)警要敏感。

wKgaomaDZmCABZloAAJ4EvTkqd0445.png

3.1.2 可灰度

上線過程中,我們要做到可灰度,通過灰度執(zhí)行變更以限制爆炸半徑,降低影響范圍,同時(shí)灰度過程要做好兼容?;叶确譃椴煌S度的灰度:機(jī)器維度,機(jī)房維度,地域維度,業(yè)務(wù)維度:用戶,商家,倉,承運(yùn)商等。

機(jī)器維度:我們用行云部署時(shí),可以每個(gè)分組先部署一部分機(jī)器進(jìn)行灰度,灰度一段時(shí)間比如:24小時(shí)沒什么問題后,再部署剩余的機(jī)器。

機(jī)房維度:微服務(wù)架構(gòu)下,我們的應(yīng)用會部署在不同的機(jī)房中,可以按照機(jī)房維度灰度,比如先部署發(fā)布代碼在某個(gè)機(jī)房分組下,觀察一段時(shí)間再按照比例擴(kuò)大灰度機(jī)房范圍直至全量。例如先部署中云信的機(jī)房,灰度一段時(shí)間后,再逐步灰度有孚的機(jī)房。

地域維度:現(xiàn)在的部署架構(gòu)都是多機(jī)房互為災(zāi)備,異地多活,單元化部署,例如業(yè)界美團(tuán)的外賣業(yè)務(wù)非常適合做異地多活,單元化部署,因?yàn)橥赓u業(yè)務(wù)的商戶,用戶,騎手天然具有聚合性,北京的用戶大概率不會在上海點(diǎn)外賣,這樣根據(jù)業(yè)務(wù)的屬性,在系統(tǒng)建設(shè)的時(shí)候,從應(yīng)用層到中間件層,再到存儲層可以單元化部署在上海地域的機(jī)房和北京地域的機(jī)房,功能發(fā)布的時(shí)候可以灰度某個(gè)地域,做到地域級別的容災(zāi)。

業(yè)務(wù)維度:在上線過程中,我們也可以根據(jù)業(yè)務(wù)屬性進(jìn)行灰度,例如上線了某個(gè)功能或者產(chǎn)品,根據(jù)用戶維度灰度,某些用戶或者某些商戶才能使用該功能,產(chǎn)品。

3.1.3 可回滾

線上出現(xiàn)問題時(shí),我們應(yīng)該優(yōu)先止損,其次才是分析根因。止損的最快方式就是回滾,回滾分為代碼回滾和數(shù)據(jù)回滾,代碼回滾即將我們代碼恢復(fù)到原有的邏輯,代碼回滾有兩種方式:開關(guān)控制和部署回滾。最快捷的方式是開關(guān)控制,一鍵開關(guān)打開或者關(guān)閉就可以實(shí)現(xiàn)回滾到原有的邏輯,操作成本最低,止損最快速。第二種方式就是部署回滾,通過發(fā)布平臺,例如行云將代碼回滾到上個(gè)穩(wěn)定運(yùn)行的版本。有時(shí)候我們代碼回滾完,如果沒有做好向前兼容性,系統(tǒng)應(yīng)用依然有問題,例如上線過程中產(chǎn)生了新數(shù)據(jù),回滾完后,代碼不能處理新的數(shù)據(jù)。所以這個(gè)時(shí)候又涉及到數(shù)據(jù)的回滾,數(shù)據(jù)的回滾涉及到修數(shù):將產(chǎn)生的新數(shù)據(jù)無效掉,或者修改為正確的數(shù)據(jù)等,當(dāng)數(shù)據(jù)量比較大時(shí),數(shù)據(jù)的回滾一般耗時(shí)費(fèi)力,所以建議做好向前兼容性,直接代碼回滾。

3.2 線上問題應(yīng)對

3.2.1 常見問題分類

針對線上的問題,我們第一步是識別出是什么問題,然后才能解決問題,針對線上各種各樣的問題我們可以進(jìn)行聚合,歸并分類下,針對每種問題去參考業(yè)界的處理方法和團(tuán)隊(duì)的內(nèi)的緊急預(yù)案,做到臨陣不亂。

wKgZomaDZmCAJ-fmAAHMPypCGHc654.png

3.2.2 問題生命周期

當(dāng)出現(xiàn)問題時(shí),我們也需要清楚一個(gè)線上問題的生命周期:從問題發(fā)生,到我們發(fā)現(xiàn)問題,進(jìn)而進(jìn)行響應(yīng)處理,觀測問題是否修復(fù),服務(wù)是否恢復(fù)正常,到最終針對該問題進(jìn)行復(fù)盤,當(dāng)發(fā)生系統(tǒng)發(fā)生問題時(shí),我們越早發(fā)現(xiàn)問題,對業(yè)務(wù)的影響越小,整個(gè)流程如下圖所示。

wKgaomaDZmGAd93gAADjzksrjjQ232.png

3.2.3 如何預(yù)防問題

就像人的身體生病一樣,當(dāng)問題發(fā)生已經(jīng)晚了,我們要投入更多時(shí)間和精力到如何預(yù)防中,就像扁鵲的大哥一樣治未病,防患于未然。根據(jù)破窗原理,一個(gè)問題出現(xiàn)了,如果放任不管,問題的嚴(yán)重性會越來越大,直到不可挽回。我們可以從研發(fā)的規(guī)范,研發(fā)的流程,變更流程這幾個(gè)方面進(jìn)行預(yù)防。

wKgZomaDZmKAGIR7AAIXpHHToQg989.png

3.2.4 如何發(fā)現(xiàn)問題

對于一個(gè)系統(tǒng),如果外界不對其做功,根據(jù)熵增原理,其會越來越混亂,直到出現(xiàn)問題,外界對其做功,就涉及到改變,因?yàn)楦淖兪侨嗽诓僮?,由于各種不可控的因素,也會導(dǎo)致各種線上問題,所以我們可以看到對于一個(gè)系統(tǒng)上線后不出現(xiàn)問題是不可能的,當(dāng)出現(xiàn)問題時(shí),我們第一步是如何快速的發(fā)現(xiàn)問題?對于問題發(fā)現(xiàn)的渠道,工作中接觸到的有如下幾種:自我意識,監(jiān)控告警,業(yè)務(wù)反饋;

自我意識:我們C2部門每周有一個(gè)重要會議OpsReview,各個(gè)C3團(tuán)隊(duì)會對個(gè)團(tuán)隊(duì)的核心接口的不規(guī)律跳點(diǎn),毛刺進(jìn)行可用率,性能,調(diào)用量的review,以通過這種主動(dòng)的,自我意識行為發(fā)現(xiàn)潛在的線上問題。同時(shí)我們組每天早會的重要一項(xiàng):UMP監(jiān)控全域看板的review,我們會對昨天核心接口的可用率,TP99,調(diào)用量,進(jìn)行分析的,對于可用率降低,TP99有毛刺,不規(guī)范的流量調(diào)用會進(jìn)行排查原因,盡早自我發(fā)現(xiàn)問題,同時(shí)也會對機(jī)器的CPU, 內(nèi)存使用率,Mysql, redis , es各種存儲進(jìn)行review。

監(jiān)控告警:這是我們發(fā)現(xiàn)問題最常用的渠道,通過主動(dòng)的監(jiān)控指標(biāo),被動(dòng)的接收告警來發(fā)現(xiàn)問題,告警指標(biāo)我們分為業(yè)務(wù)指標(biāo)和技術(shù)指標(biāo),具體分類可詳見3.1.1可監(jiān)控部分

業(yè)務(wù)反饋:這種發(fā)現(xiàn)問題的方式是我們最不愿意看到的,如果等到業(yè)務(wù)反饋,說明線上問題已經(jīng)影響到用戶,我們常常因?yàn)楸O(jiān)控告警的缺失,漏報(bào)而導(dǎo)致落后于業(yè)務(wù)發(fā)現(xiàn)問題,所以我們最希望每個(gè)人,團(tuán)隊(duì)都有這種自我意識,將線上問題提早發(fā)現(xiàn),防患于未然。

3.2.5 如何響應(yīng)問題

出現(xiàn)線上問題后,我們個(gè)人對問題的認(rèn)知是非常有限的,并且這個(gè)時(shí)候人處于一種高度緊張的狀態(tài),所以這個(gè)時(shí)候一定要群里周知自己的leader,將情況如實(shí)表達(dá),不要夸大和縮小問題的范圍和影響,同時(shí)將問題進(jìn)行通告。整個(gè)問題的響應(yīng)過程包含以下幾步:

1.保留現(xiàn)場:問題發(fā)生的現(xiàn)場是我們排查問題的依據(jù),所以要將現(xiàn)場的日志,數(shù)據(jù)等信息保存好,比如內(nèi)存dump, 線程dump,避免機(jī)器重啟后這些信息的丟失。

2.提供信息:提供自己所知道的信息,協(xié)助排查,不要擴(kuò)大和縮小問題

3.恢復(fù)服務(wù):當(dāng)出現(xiàn)線上問題是,我們追求的是以最快的速度恢復(fù)服務(wù),快速止損,業(yè)界有快速止血,恢復(fù)服務(wù)的幾板斧:回滾:服務(wù)回滾,數(shù)據(jù)回滾,重啟,擴(kuò)容,禁用節(jié)點(diǎn),功能降級

4.雙重確認(rèn):服務(wù)恢復(fù)后,我們需要確認(rèn)是否恢復(fù)了,可以通過觀察:業(yè)務(wù)指標(biāo)是否正常,技術(shù)指標(biāo)是否正常,數(shù)據(jù)是否正常,日志是否正常等來觀測問題的恢復(fù)情況

5.故障通告:確認(rèn)問題沒有什么問題后,需要再應(yīng)急群中周知大家:業(yè)務(wù)人員,產(chǎn)品經(jīng)理,系統(tǒng)的上下游,測試人員,SRE等。并讓產(chǎn)品和業(yè)務(wù)進(jìn)行確認(rèn),然后周知用戶。

3.2.6 如何定位問題

服務(wù)恢復(fù)后,我們可以回過頭來細(xì)致的分析下到底是什么原因?qū)е铝司€上的問題。定位問題也要講究方法論,這就涉及到定位問題三要素:知識,工具,方法。

知識:相對其他行業(yè),計(jì)算機(jī)行業(yè)應(yīng)該是知識更新迭代最快的行業(yè),所以我們需要不斷的去學(xué)習(xí),更新自己的知識庫,不給自己設(shè)限。例如你想解決FullGC問題,你必須對JVM進(jìn)行系統(tǒng)的學(xué)習(xí),想解決慢sql,必須對Mysql進(jìn)行系統(tǒng)的學(xué)習(xí),現(xiàn)在AI大模型這么火,我們也需要對prompt engineering, RAG , Agent, 多模態(tài)等進(jìn)行學(xué)習(xí)了解。有了知識我們才能遇到問題時(shí),知道是什么,為什么?

工具:工欲善其事,必先利其器,工程師要善于借助公司工具來提高解決問題的效率,熟練使用公司各種中間件工具,公司已經(jīng)有的中間件,優(yōu)先使用公司的中間件,公司內(nèi)一個(gè)中間件團(tuán)隊(duì)維護(hù)的中間件工具要優(yōu)于業(yè)務(wù)研發(fā)小組內(nèi)維護(hù)的中間件工具,不要小組內(nèi)部,或者團(tuán)隊(duì)內(nèi)部重復(fù)造輪子,并且小組內(nèi)人員的流動(dòng)變更,容易造成中間件沒人維護(hù)。下圖是公司常用的中間件工具:

wKgaomaDZmOAe_ofAAKWRiJB0Bs553.png

方法:解決問題我們要講究方法,選擇正確的方法可以事半功倍,提高我們定位問題及解決問題的效率,下面是我們研發(fā)人員常見的排查問題的方法

wKgZomaDZmSAV2GaAAWJuWdZNKw455.png

3.2.7 如何修復(fù)問題

有了知識,工具和方法后,其實(shí)我們很快的就定位到問題了,定位到問題后,我們就要想辦法如何去把問題修復(fù)了,以下是問題修復(fù)的流程:

wKgZomaDZmWAXsIBAAD6Z3QVF1I140.png

3.2.8 如何復(fù)盤問題

問題發(fā)生后,我們需要從此次問題中分析根因,并汲取教訓(xùn)和經(jīng)驗(yàn),避免犯同樣的錯(cuò)誤。這就涉及到問題的復(fù)盤,如何進(jìn)行問題的復(fù)盤那,一般會經(jīng)過如下幾個(gè)步驟:回顧目標(biāo),評價(jià)結(jié)果,分析原因,總結(jié)經(jīng)驗(yàn)。例如我們C2部門每周的opsReview會議上都會有線上問題的復(fù)盤:coe,如何進(jìn)行coe復(fù)盤談一些自己的思考。

?參考業(yè)界的5WHY分析法剖析問題的根因

?5WHY分析法:5代表的是問題的深度,而不是問題的數(shù)量

?基于問題的答案繼續(xù)進(jìn)行提問,5個(gè)問題是有關(guān)聯(lián)的,層層遞進(jìn)的,找到問題的根因

wKgaomaDZmaAc1OEAACNPirxgVc256.png

4 參考資料

??https://itrevolution.com/articles/20-years-of-google-sre-10-key-lessons-for-reliability/?

??https://learn.microsoft.com/en-us/previous-versions/msp-n-p/jj591573(v=pandp.10)?redirectedfrom=MSDN?

??https://sre.google/books/

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    頻率穩(wěn)定性的技術(shù)解析

    頻率穩(wěn)定性?指信號源(包括振蕩器、時(shí)鐘源、射頻發(fā)射機(jī)等)在時(shí)間、環(huán)境或外部干擾下維持輸出頻率恒定的能力,其核心在于量化頻率的波動(dòng)范圍及系統(tǒng)抗干擾性能。 一、基礎(chǔ)定義? 短期穩(wěn)定性? 時(shí)間跨度?:毫秒
    的頭像 發(fā)表于 04-10 15:18 ?1099次閱讀
    頻率<b class='flag-5'>穩(wěn)定性</b>的技術(shù)解析

    穩(wěn)定性建設(shè)之依賴設(shè)計(jì)

    。為了解決這個(gè)問題,強(qiáng)弱依賴治理成為了一種科學(xué)的手段。通過強(qiáng)弱依賴治理,我們可以持續(xù)穩(wěn)定地獲取應(yīng)用間的依賴關(guān)系、流量以及強(qiáng)弱等數(shù)據(jù)。這樣,我們可以 提前發(fā)現(xiàn)由于依賴問題可能導(dǎo)致的系統(tǒng)穩(wěn)定性故障 。 一、依賴概念
    的頭像 發(fā)表于 02-21 09:49 ?594次閱讀
    <b class='flag-5'>穩(wěn)定性</b><b class='flag-5'>建設(shè)</b>之依賴設(shè)計(jì)

    HarmonyOS官網(wǎng)上線“穩(wěn)定性”專欄 助力更穩(wěn)定流暢的鴻蒙原生應(yīng)用開發(fā)

    HWAsan檢測。而關(guān)于案例分析部分,則是以實(shí)際案例,來幫助我們開發(fā)者更好的理解并應(yīng)用不同場景下的問題排查方法。 除了上述解決應(yīng)用致命穩(wěn)定性問題的穩(wěn)定性檢測與分析章節(jié),該專欄還包含了如何持續(xù)建設(shè)
    發(fā)表于 02-17 17:17

    A/D變換器采樣速率和穩(wěn)定性的關(guān)系,是什么影響了轉(zhuǎn)換器的穩(wěn)定性?

    我在測量A/D轉(zhuǎn)換器時(shí)出現(xiàn)這樣一個(gè)問題。采樣率的提高,其A/D轉(zhuǎn)換器的穩(wěn)定性隨之降低。從我個(gè)人理解,采樣率的提高已經(jīng)在測量有效位數(shù)上將誤差算出來了,我只需要考慮在高采樣率時(shí),有效分辨率的位數(shù)
    發(fā)表于 02-11 08:24

    旋轉(zhuǎn)測徑儀的底座如何保證穩(wěn)定性

    關(guān)鍵:旋轉(zhuǎn)測徑儀,底座材質(zhì),測徑儀底座結(jié)構(gòu),旋轉(zhuǎn)測徑儀穩(wěn)定性, 旋轉(zhuǎn)測徑儀的底座保證穩(wěn)定性是確保測量精度和儀器長期穩(wěn)定運(yùn)行的關(guān)鍵。以下是一些常見的保證旋轉(zhuǎn)測徑儀底座
    發(fā)表于 01-09 14:04

    【6千字長文】車載芯片的技術(shù)沿革與趨勢分析

    【本文是讀者投稿。6千字長文,規(guī)格嚴(yán)謹(jǐn)?!?1什么是芯片?什么是汽車芯片?芯片,通俗地說,就是一塊小硅片集成了許多微小的電子元件,如晶體管、電阻、電容等元件通過復(fù)雜的電路連接在一起,形成一個(gè)功能強(qiáng)大
    的頭像 發(fā)表于 12-31 22:37 ?1796次閱讀
    【6千<b class='flag-5'>字長文</b>】車載芯片的技術(shù)沿革與趨勢分析

    萬字長文,看懂激光基礎(chǔ)知識!

    深入介紹激光基礎(chǔ)知識,幫助您輕松理解激光領(lǐng)域的關(guān)鍵概念和原理。
    的頭像 發(fā)表于 12-20 09:49 ?1621次閱讀
    <b class='flag-5'>萬字長文</b>,看懂激光基礎(chǔ)知識!

    影響B(tài)UCK電路占空比穩(wěn)定性的因素

    開關(guān)周期內(nèi)導(dǎo)通的時(shí)間比例。占空比的穩(wěn)定性對于電路的性能至關(guān)重要,因?yàn)樗苯佑绊懙捷敵鲭妷旱?b class='flag-5'>穩(wěn)定性和紋波。以下是一些影響B(tài)UCK電路占空比穩(wěn)定性的因素: 輸入電壓變化: 輸入電壓的波動(dòng)會影響占空比,因?yàn)檎伎毡刃枰{(diào)整以維持恒定的輸
    的頭像 發(fā)表于 12-12 17:14 ?2530次閱讀

    庫存平臺穩(wěn)定性建設(shè)實(shí)踐

    作者:京東物流 尹昊喆 前言 本文總結(jié)庫存平臺穩(wěn)定性建設(shè)中遇到的問題以及解決方案。感謝【金鵬】、【孫靜】、【陳瑞】同學(xué)在本文撰寫中提供的內(nèi)容及幫助! 庫存平臺面臨的穩(wěn)定性挑戰(zhàn) 庫存平臺為貨品流通鏈路
    的頭像 發(fā)表于 12-11 09:50 ?799次閱讀
    庫存平臺<b class='flag-5'>穩(wěn)定性</b><b class='flag-5'>建設(shè)</b>實(shí)踐

    是德34460A用表的測量穩(wěn)定性提升

    是德科技(Keysight Technologies)的34460A數(shù)字用表以其高精度、多功能性和可靠性而聞名于儀器測試領(lǐng)域。然而,即使是高端儀器,其測量穩(wěn)定性也可能受到多種因素的影響,從而導(dǎo)致
    的頭像 發(fā)表于 12-05 10:06 ?803次閱讀
    是德34460A<b class='flag-5'>萬</b>用表的測量<b class='flag-5'>穩(wěn)定性</b>提升

    電阻器的熱穩(wěn)定性分析

    電阻器的熱穩(wěn)定性是指電阻器在溫度變化時(shí),其電阻值保持恒定或變化極小的特性。以下是對電阻器熱穩(wěn)定性的分析: 一、電阻器熱穩(wěn)定性的重要性 電阻器是電子電路中的基本元件,其性能穩(wěn)定性直接影響
    的頭像 發(fā)表于 12-04 14:18 ?1241次閱讀

    如何測試晶振的穩(wěn)定性

    以下是一些常用的方法來測試晶振的穩(wěn)定性。
    的頭像 發(fā)表于 11-29 16:41 ?1437次閱讀

    如何測試DDR內(nèi)存的穩(wěn)定性

    測試DDR內(nèi)存的穩(wěn)定性是確保計(jì)算機(jī)系統(tǒng)穩(wěn)定運(yùn)行的重要步驟。以下是一些常用的測試DDR內(nèi)存穩(wěn)定性的方法: 一、使用專業(yè)測試軟件 MemTest86 : 功能:MemTest86是一款優(yōu)秀
    的頭像 發(fā)表于 11-29 15:01 ?3862次閱讀

    buck電路的穩(wěn)定性分析方法

    輸入信號的頻率足夠高時(shí),負(fù)反饋環(huán)路能夠保持穩(wěn)定。為了分析反饋增益,可以使用傳遞函數(shù)來描述電路的動(dòng)態(tài)行為。通過計(jì)算傳遞函數(shù)的增益和相位響應(yīng),可以評估電路的穩(wěn)定性。 二、相位裕度分析 相位裕度是系統(tǒng)
    的頭像 發(fā)表于 11-21 10:09 ?2147次閱讀

    質(zhì)量視角下的系統(tǒng)穩(wěn)定性保障--穩(wěn)定性保障常態(tài)化自動(dòng)化實(shí)踐

    常態(tài)化穩(wěn)定性治理。在常態(tài)化治理過程中我們將識別問題等重復(fù)性有規(guī)律的工作實(shí)現(xiàn)自動(dòng)化,技術(shù)人員更專注于解決問題。 二、穩(wěn)定性治理常態(tài)化 保障穩(wěn)定性治理常態(tài)化,部門組建了一支由研發(fā)團(tuán)隊(duì)、測試團(tuán)隊(duì)、架構(gòu)師組成的
    的頭像 發(fā)表于 11-19 11:19 ?1363次閱讀
    質(zhì)量視角下的<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>穩(wěn)定性</b>保障--<b class='flag-5'>穩(wěn)定性</b>保障常態(tài)化自動(dòng)化實(shí)踐