經(jīng)過緊急技術(shù)復(fù)盤,,故障原因如下:
當(dāng)天下午,工程師團(tuán)隊(duì)在上線一個(gè)自動(dòng)化運(yùn)維新功能中,,執(zhí)行了一項(xiàng)變更驗(yàn)證操作,。這一功能在測(cè)試環(huán)境驗(yàn)證中并未發(fā)生問題,上線到自動(dòng)化運(yùn)維系統(tǒng)后,,觸發(fā)了一個(gè)未知代碼bug,。錯(cuò)誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通,。后續(xù)人工介入后,,工程師團(tuán)隊(duì)快速定位問題進(jìn)行了恢復(fù)。
受影響范圍包括阿里云官網(wǎng)控制臺(tái),,以及MQ,、NAS,、OSS等產(chǎn)品功能,。對(duì)于這次故障,沒有借口,,我們不能也不該出現(xiàn)這樣的失誤,!我們將認(rèn)真復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,敬畏每一行代碼,,敬畏每一份托付,。
阿里云計(jì)算有限公司
2018年6月27日