經(jīng)過緊急技術(shù)復(fù)盤,,故障原因如下:
當(dāng)天下午,,工程師團隊在上線一個自動化運維新功能中,執(zhí)行了一項變更驗證操作,。這一功能在測試環(huán)境驗證中并未發(fā)生問題,上線到自動化運維系統(tǒng)后,,觸發(fā)了一個未知代碼bug,。錯誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通,。后續(xù)人工介入后,,工程師團隊快速定位問題進行了恢復(fù)。
受影響范圍包括阿里云官網(wǎng)控制臺,,以及MQ,、NAS、OSS等產(chǎn)品功能,。對于這次故障,,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤改進自動化運維技術(shù)和發(fā)布驗證流程,,敬畏每一行代碼,,敬畏每一份托付。
阿里云計算有限公司
2018年6月27日