github 故障公告鏈接:https://github.com/cnblogs/coder-service/issues/106
<https://github.com/cnblogs/coder-service/issues/106>
后續(xù)故障公告:升級阿里云 RDS SQL Server 實例故障經(jīng)過
<https://www.cnblogs.com/cmt/p/11465289.html>
非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿里云 RDS 數(shù)據(jù)庫服務(wù)器突然出現(xiàn) CPU 100%
問題,造成全站無法正常訪問,由此您帶來了很大的麻煩,請您諒解。
故障經(jīng)過是這樣的。19:34 這個時間點本來是一個訪問低峰,數(shù)據(jù)庫壓力比訪問高峰時低很多,但數(shù)據(jù)庫服務(wù)器卻異想天開、吃飽了撐著地讓自己的 CPU
滿負(fù)荷工作(到現(xiàn)在我們都沒想通,難道是服務(wù)器晚飯吃多了想幫助消化?)。開始我們以為是某個應(yīng)用引起的,一個一個應(yīng)用排查與重啟, 但 CPU
不為所動,依然百分百。接著,我們一邊向阿里云提交工單求助,一邊通過阿里云 RDS
控制臺進(jìn)行主備切換,雖然控制臺顯示切換成功后,但“實例可用性”中主備庫信息無任何變化,實際主備庫切換并沒有成功,絕招也失靈。請阿里云幫忙手動進(jìn)行主備切換,但阿里云操作后反饋由于數(shù)據(jù)庫訪問壓力大,手動也切換不過去,建議我們重啟實例。最終,我們決定重啟實例,重啟實例后一切恢復(fù)正常。是的,就是用最笨的方法——重啟——解決了問題,在故障期間我們采取的所有措施都是徒勞,讓人哭笑不得。
望著今晚被狂風(fēng)暴雨突襲后一片狼藉的園子,心中說不出的難受和愧疚。真的很抱歉,我們一直在努力建設(shè)園子,但今天的故障又告訴我們,沒那么容易,我們的努力還不夠,我們別無選擇,唯有更加努力。
【更新】
00:22 開始將阿里云 RDS 實例從 SQL Server 2008 R2 升級至 2016
6:20? 數(shù)據(jù)庫升級完成
升級后大量數(shù)據(jù)庫查詢超時,正在緊急處理中。
9:20 升級后大量 SQL 需要編譯,RDS 實例的 CPU 一直居高不下,由于阿里云 RDS
控制臺中數(shù)據(jù)庫實例一直處于“主備庫切換中”狀態(tài)中,即使想升級 CPU ,現(xiàn)在也無法進(jìn)行。
9:50 從早上 8:50 開始阿里云 DBA 就開始重建備庫,“主備庫切換中”狀態(tài)要等備庫重建完成才能解除,升級服務(wù)器配置也要等備庫重建完成。
10:29 備庫重建完成,“主備庫切換中”狀態(tài)解除。
10:50 準(zhǔn)備升級 RDS 配置,但阿里云升級配置頁面的計價出現(xiàn)問題,即使配置保持不變,也要1萬多元的費用。
11:05 進(jìn)行了主備切換。
11:10 主備切換完成后,目前恢復(fù)了正常。
熱門工具 換一換