昨天 22:00~22:30 左右與 23:30~00:30 左右,有1臺(tái)服役多年的阿里云負(fù)載均衡突然失靈,造成通過這臺(tái)負(fù)載均衡訪問博客站點(diǎn)的用戶遭遇
502, 503, 504 ,由此給您帶來麻煩,請(qǐng)您諒解。
問題非常奇怪,從表現(xiàn)看,似乎負(fù)載均衡與后端服務(wù)器之間的內(nèi)網(wǎng)通信出現(xiàn)了問題。有時(shí)健康檢查成功,但轉(zhuǎn)發(fā)請(qǐng)求到后端服務(wù)器會(huì)失??;后端服務(wù)器明明正常,有時(shí)健康檢查卻失敗;最糟糕的時(shí)候,所有后端服務(wù)器都健康檢查失敗。而其他使用同樣后端服務(wù)器的負(fù)載均衡都沒出現(xiàn)這個(gè)問題,最終通過下線這臺(tái)負(fù)載均衡解決了問題。
這臺(tái)負(fù)載均衡是我們 2013 年剛上阿里云時(shí)購買的,服役多年,之前從未出現(xiàn)這個(gè)問題,現(xiàn)在看來只能被迫讓它退役了。
昨天上午發(fā)現(xiàn),我們用于部署除博客站點(diǎn)之外所有其他應(yīng)用的 docker swarm 集群中所有服務(wù)器 CPU 100% 。
這個(gè) CPU 100% 與通常的 CPU 100% 有很大的不一樣,雖然是 100% ,但不影響應(yīng)用的正常運(yùn)行。今年3月份也遇到到同樣的問題,當(dāng)時(shí)通過
top 命令查看是 sy (system cpu time spent in kernel space) 占用了很多 CPU ,后來通過重啟集群中的所有
worker 節(jié)點(diǎn)服務(wù)器并重新部署應(yīng)用解決的。
今天早上我們也采取了重啟節(jié)點(diǎn)服務(wù)器的方法,重啟后服務(wù)器 CPU 恢復(fù)了正常。但在操作過程中,閃存應(yīng)用容器出現(xiàn)了問題,造成 15
分鐘左右閃存站點(diǎn)訪問不正常,由此給您帶來麻煩,請(qǐng)您諒解。
最近,博客站點(diǎn)遭遇多次 DDoS 攻擊,最高一次攻擊流量達(dá)到了近 80G
。一攻擊就會(huì)被阿里云屏蔽30分鐘,雖然我們采取了應(yīng)急措施,但全部生效要10分鐘左右,所以每次受攻擊影響的用戶可能要10分鐘左右才能恢復(fù)正常訪問,由此給您帶來您諒解,請(qǐng)您諒解。
在這個(gè)多事之秋,網(wǎng)站出現(xiàn)了很多次故障,給大家?guī)砹撕艽蟮穆闊?,懇?qǐng)大家的諒解。
這個(gè)多事之秋,對(duì)我們也是一種考驗(yàn),我們會(huì)吸取教訓(xùn),進(jìn)一步提升自己,在接下來更加努力地和大家共建更加朝氣蓬勃的園子。
熱門工具 換一換