經(jīng)過緊急技術(shù)復(fù)盤,,故障原因如下:
當(dāng)天下午,工程師團(tuán)隊在上線一個自動化運(yùn)維新功能中,,執(zhí)行了一項變更驗證操作,。這一功能在測試環(huán)境驗證中并未發(fā)生問題,,上線到自動化運(yùn)維系統(tǒng)后,,觸發(fā)了一個未知代碼bug,。錯誤代碼禁用了部分內(nèi)部IP,,導(dǎo)致部分產(chǎn)品訪問鏈路不通,。后續(xù)人工介入后,,工程師團(tuán)隊快速定位問題進(jìn)行了恢復(fù)。
受影響范圍包括阿里云官網(wǎng)控制臺,,以及MQ,、NAS、OSS等產(chǎn)品功能,。對于這次故障,,沒有借口,我們不能也不該出現(xiàn)這樣的失誤,!我們將認(rèn)真復(fù)盤改進(jìn)自動化運(yùn)維技術(shù)和發(fā)布驗證流程,,敬畏每一行代碼,敬畏每一份托付,。
阿里云計算有限公司
2018年6月27日