經(jīng)過緊急技術(shù)復(fù)盤,,故障原因如下:
當(dāng)天下午,,工程師團(tuán)隊(duì)在上線一個(gè)自動(dòng)化運(yùn)維新功能中,,執(zhí)行了一項(xiàng)變更驗(yàn)證操作。這一功能在測(cè)試環(huán)境驗(yàn)證中并未發(fā)生問題,,上線到自動(dòng)化運(yùn)維系統(tǒng)后,,觸發(fā)了一個(gè)未知代碼bug。錯(cuò)誤代碼禁用了部分內(nèi)部IP,,導(dǎo)致部分產(chǎn)品訪問鏈路不通。后續(xù)人工介入后,,工程師團(tuán)隊(duì)快速定位問題進(jìn)行了恢復(fù),。
受影響范圍包括阿里云官網(wǎng)控制臺(tái),以及MQ,、NAS,、OSS等產(chǎn)品功能。對(duì)于這次故障,,沒有借口,,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,,敬畏每一行代碼,,敬畏每一份托付。
阿里云計(jì)算有限公司
2018年6月27日