本文是《中智觀察》“企業數字服務供需市場”數智服務之發展趨勢篇,盤點2021那些令雲服務商痛心疾首的宕機,AWS、IBM多次上榜,驗證了那句老話,人紅(雲服務商市占率高)容易是非多(宕機),讀者可能産生另外一個猜想,沒有是非就正常嗎,本文可能給你一個明明白白!
——海比研究院
2021年12月30日
初期成本低、彈性擴展、安全、穩定可靠,這是十余年以來,雲服務越來越受歡迎的主要原因。
其中,對講究實時在線、實時響應的ToB服務而言,雲服務的可靠性是對企業最迷人的吸引力。能提供99.99%甚至99.999%可靠性的雲服務,幫助企業每年減少了太多宕機時間,間接賺取了更多收益。
以99.999%可靠性爲例,其代表著企業每年只有5分鍾的停機時間,而99.99%可靠性意味著企業每年停機時間爲1小時。相關數據顯示,企業IT系統停機1小時的平均成本爲26萬美元,而停機5分鍾,平均成本僅爲2600美元。
盡管雲服務商已經盡力將雲服務的可靠性做到99.99%甚至99.999%,但仍然有宕機的可能性。而承載全球各地企業海量業務的雲服務商一旦宕機,其導致的後果不堪想象。
雲服務商的宕機,既是企業所擔心的,畢竟自身的業務受到影響;更是雲服務商們自己痛心疾首的事。因爲宕機,雲服務商們提供服務的可靠性將遭到質疑,影響新客戶的簽約,也影響老客戶的續約。
回顧即將劃上句號的2021年,在全球範圍內,令雲服務商們痛心疾首的宕機事件,也在多家雲服務商身上發生了多次。
一、AWS:不太平的12月3次宕機
一組有趣的數據顯示:2010年至2019年間,AWS平均每年宕機次數達2.4次。而僅僅在2021年的最後一個月,AWS便發生了3次宕機。
12月第一次宕機發生美國東部時間7日,位于弗吉尼亞州北部(US-EAST-1)區域,本次宕機從上午10點45分持續到下午2點22分,包括迪斯尼+、奈飛、Robinhood、Roku等大量熱門網站和應用都發生嚴重的網絡中斷。同時,亞馬遜自身的AlexaAI助理、Kindle電子書、亞馬遜音樂、Ring安全攝像頭等業務也受到影響。
12月10日,AWS公布了本次宕機的原因:用于擴展主AWS網絡中托管的某個AWS服務的容量的自動活動觸發了來自內部網絡內大量客戶端的意外行爲導致連接活動激增,使內部網絡和主AWS網絡之間的聯網設備不堪重負,從而導致這些網絡之間的通信延遲。這些延遲增加了在網絡之間通信的服務延遲和錯誤,從而導致更多的連接嘗試和重試,最終引發持續的堵塞和性能問題。
12月第二次宕機發生在16日太平洋標准時間上午7點43分左右,本次宕機波及US-WEST-1和US-WEST-2兩個區域,包括Twitch、Zoom、PSN、XboxLive、Doordash、QuickbooksOnline和Hulu等在線服務均受到影響。
AWS隨後公布了故障原因:由于主網絡中某自動化軟件原因,錯誤得將一些流量轉移到主幹網,結果影響了一些互聯網應用的連接。
12月第三次宕機發生在23日美國東部時間7點30分左右,位于弗吉尼亞州北部的US-East-Region1中斷影響了許多服務,包括Slack、EpicGames、加密貨幣交易所CoinbaseGlobal、遊戲公司Fortnite、約會應用程序Grindr和交付公司Instacart。對于此次中斷,AWS初步調查稱是數據中心供電的問題。
二、Azure:Windows虛擬機全球性故障
今年10月23日,AzureVirtualMachines發生了一起長達6小時的中斷,使得包括美洲、歐洲、中東及非洲到亞太地區在內全球用戶無法啓動基于Windows的新系統。
據悉,故障發生了05:12UTC(世界標准時間)到11:45UTC 之間,使用Windows虛擬機的Azure客戶子集在執行服務管理操作時面臨問題,包括啓動、創建、更新、刪除,新虛擬機的部署和更新也失敗了。
基于Linux的虛擬機和現有運行的Windows虛擬機沒有受到該問題影響。此外,在創建資源時,對Windows虛擬機有依賴的服務也可能遇到類似故障。
事後,微軟公布的中斷原因爲:在服務管理操作期間的調用故障,原因是所需的工件版本在查詢期間未按預期返回。
此外,在今年3月16日,Azure也發生了一次中斷。其ActiveDirectory出現故障,用戶無法登錄到Microsoft365、MicrosoftTeams、ExchangeOnline、Forms、XboxLive和Yammer。同時,這起中斷也影響了微軟旗下多個網站,如用戶無法登陸其技術社區。
後續微軟證實,本次故障是由于AzureActive Directory配置問題所致,使得用戶們無法完成身份驗證以登錄到Microsoft365、Exchange、Online、MicrosoftTeams或其他依賴AAD的服務。
三、‖IBMCloud:5天2次宕機
今年5月22到26日,藍色巨人在短短5天裏接連發生兩次嚴重中斷事件,其中5月25日的中斷爲一級嚴重問題(SeverityOne),這是IBM來描述關鍵業務系統無法正常運行的評級。
據悉,該中斷發生了5月25日UTC14點54分,華盛頓特區、大阪、倫敦、達拉斯、悉尼、東京和法蘭克福等地雲服務統統受到影響。
具體到受影響的服務,包括CloudantNoSQL DB、CodeEngine、ContinuousDelivery-Toolchain、DNSServices、EventStreams、HyperProtect Crypto Services、HyperProtect Virtual Server、HyperProtect DBaaS、IBMCloud Shell、IBMWatson Machine Learning、MobileFoundation以及IBMMQ。從UTC20點10分開始,服務陸續恢複。
除此之外,在今年6月10日,IBMCloud也發生了一起全球性的中斷。此次中斷涉及IBMAoC托管存儲服務,進而影響了IBM位于阿姆斯特丹、金奈、達拉斯、法蘭克福、香港、倫敦、墨爾本、墨西哥、米蘭、蒙特利爾、奧斯陸、聖何塞、聖保羅、首爾、悉尼、東京、多倫多、華盛頓特區、巴黎和新加坡等多地的用戶。
四、GoogleCloud:新區域上線便癱瘓
GoogleCloud今年也發生了兩次宕機,其中一次爲今年11月16日:谷歌雲表示,網絡配置中的潛在錯誤影響了GoogleCloud Networking、GoogleCloud Functions、GoogleCloud Run、GoogleApp Engine、GoogleApp Engine Flex、Apigee和Firebase,進而引起中斷,Spotify、Discord、Etsy、PokémonGo等客戶受到影響。
具體而言:GoogleCloud Networking :用戶無法更改網站上的負載平衡,導致出現404錯誤頁面;GoogleCloud Functions :使用GoogleCloud Load Balancing (GCLB) 的用戶站點顯示404錯誤;GoogleCloud Run :美國中部的流量下降了25%,使用GCLB的用戶站點顯示404錯誤。GoogleApp Engine :美國中部和西歐的流量下降80%,使用GCLB的客戶網站出現404錯誤;GoogleApp Engine Flex :使用GCLB的客戶站點上出現404錯誤以及部署該工具的問題;Apigee:使用GCLB向用戶發出請求時出現404錯誤;GoogleFirebase :使用GCLB的用戶站點上出現404錯誤。
今年8月24日,GoogleCloud在澳大利亞墨爾本上線一個月的新區域發生了中斷,該區域用戶無法正常使用虛擬機、負載均衡系統、存儲等服務。
五、國內:一片祥和
或許是國內雲服務商的技術太好,也或許是公關能力更強,國內的雲服務商在2021年並未出現過于嚴重的宕機事件,一方面表現在宕機次數少,另一方面表現在宕機引起的後果並未太多嚴重。分別來看:
阿裏雲在12月7日早上部分CDN域名解析發生了異常。同時當天,由阿裏雲支撐的淘寶也發生了短暫崩潰事件。而在今年3月,淘寶同樣也崩潰過一次。
騰訊雲12月24日北京二區發生了部分雲服務故障,後續,騰訊雲表示是因爲電力系統問題;除此之外,由騰訊雲支撐的QQ、王者榮耀、微信在10月、11月均出現了短暫崩潰事件;8月31日,由于運營商網絡原因,騰訊雲故障7分鍾。
華爲雲自2020年4月10日出現大規模崩潰後,在2021年對宕機相當謹慎,並未傳出其宕機的事,在7月份B站的一次崩潰被傳出是因爲華爲雲的服務原因,後續華爲雲迅速辟謠與自己無關。
京東雲2021年對外服務並未出現宕機事件,但由于支撐自家京東商城,所以還是會短暫出現中斷事件。
國內其他雲服務商暫未發現其在2021年發生宕機事件,如有遺漏,歡迎評論區留言~
科技媒體·企業演化科學·戰略托管綜合體
本文作者系海比研究院·木易