每天資訊IT的故障-2021年東京奧運會網站和應用程式暫時中斷?

菜單

IT的故障-2021年東京奧運會網站和應用程式暫時中斷?

奧運會期間很多事情都可能出錯。斷腿、食物中毒,當然還有流行病,可能會破壞運動員和組織者多年來精心策劃的奧運會。這是奧運會上另一個常見但經常被忽視的干擾源:IT 故障。為奧運會提供動力並使全球觀眾都能看到的 IT 基礎設施中斷比您想象的要頻繁。多虧了世界一流的 SRE 的工作,這些問題才得以解決,才對觀眾和運動員造成嚴重影響。

IT的故障-2021年東京奧運會網站和應用程式暫時中斷?

奧運數字化:

1996 年的教訓

1996 年亞特蘭大奧運會在現代計算史上發生得相對較早。當時沒有人聽說過智慧手機,而電子郵件對許多人來說仍然是新鮮事物。儘管如此,奧委會和合作夥伴企業還是抓住了這次活動的機會,以強調數字技術提供的新機遇。據《紐約時報》報道,主辦方“承諾舉辦有史以來技術最先進的奧運會”。不幸的是,現實並沒有完全兌現承諾。電話系統偶爾出現故障,廣播流中斷,至少在一種情況下,組織者為記錄活動結果而建立的華麗電子系統記錄了不準確的分數。據“泰晤士報”報道,其中一個奧林匹克體育場內也出現了暫時停電,儘管“問題是由一名技術人員拉錯了開關”而不是 IT 故障引起的。

最終,這些事件都沒有變成引人注目的中斷。但他們確實讓奧運會組織者第一次親身體驗了 IT 團隊在交付全球規模的數字賽事時需要設法解決的各種問題,為新千年的完全數字化比賽鋪平了道路。

IT的故障-2021年東京奧運會網站和應用程式暫時中斷?

雅典的零星服務

到 2004 年雅典奧運會時,IT 系統已經有了很大改進,但還沒有完善。雖然沒有關於這些運動會與網際網路相關的重大中斷的報告,這發生在該運動會正在成為一個主要的體育觀看平臺的時候,但運動員和觀眾確實報告了電話服務的嚴重問題。據當時的媒體報道,一些與會者在長達十個小時的時間內無法撥打電話。

問題似乎源於本地電話基礎設施的簡單耗盡。儘管希臘的電信供應商在奧運會前投資了大量的基礎設施擴建,但結果證明他們並不能滿足所有的需求。SRE 的要點非常簡單:在執行容量規劃時,假設最壞的情況。設計系統以處理兩倍於您實際預期的需求,並計劃您的某些基礎設施偶爾會離線。

惡意軟體襲擊韓國

如果您對網路攻擊一無所知,那就是它們在過去十年中變得越來越普遍和具有破壞性。這一事實反映在 2018 年韓國冬季奧運會上,一場惡意軟體攻擊在開幕式進行時導致核心 IT 系統離線。奧運會網站下線,網際網路廣播中斷,一些觀眾因為無法列印門票而無法參加儀式。值得稱讚的是,負責監督奧運會的工程師在賽事前進行了消防演習以準備網路攻擊,在幾個小時內解決了服務問題。他們還阻止了事件升級為停電,據報道,這是襲擊者的目標。

儘管一開始幾乎不瞭解名為 Olympic Destroyer 的惡意軟體的工作原理,但 Olympic IT 團隊還是能夠做到這一點。直到攻擊發生幾天後,分析人員才開始解開蠕蟲的起源,該蠕蟲似乎是故意設計的,目的是讓安全研究人員在試圖分析程式碼並確定其來源時大驚小怪。

IT的故障-2021年東京奧運會網站和應用程式暫時中斷?

SRE 的教訓:

準備是金。您永遠無法確切地知道什麼會影響您的系統,而且在許多情況下,直到您完全陷入停電之後,您才能確定根本原因。儘管如此,透過執行試執行和制定正確的劇本,即使在應對令人費解的複雜性攻擊時,您也可以有效地做出反應。擁有正確的事件管理工具也可以大大縮短解決時間。

DNS 中斷影響了比賽

從 IT 角度來看,儘管大流行造成的挑戰推遲了奧運會,但目前在東京舉行的奧運會進展順利。儘管如此,在奧運會開始之際, 奧運會網站和應用程式的暫時中斷引發了人們對事情不會進行得如此順利的早期擔憂。該事件還影響了多家主要零售商的網站,其起因是 Akamai 的 DNS 網路問題,該公司將其歸因於軟體更新不當。Akamai 沒有透露更多細節,但從事情的角度來看,這是一起 SRE 101 型別的事件。據推測,軟體版本中某處的錯誤避開了測試例程並將其投入生產。好訊息是 Akamai 在大約一個小時內解決了該事件。他們是否執行了回滾或將流量重定向到備份基礎設施?我們可能永遠不會知道,但很明顯的是,他們制定了一個計劃來快速響應 IT 中斷的最常見來源之一:錯誤的應用程式更新。由於他們的準備,大多數奧運觀眾甚至都不知道發生了停電。

結論

:儘管過去 20 年的大多數奧運會都見證了其 IT 基礎架構的一些中斷,但負責管理奧運會可靠性的團隊值得稱讚。迄今為止,還沒有發生停止表演的停電事件。當您處理世界上最大、最受關注的體育賽事背後的系統時,這是一個非常好的可靠性記分卡。

IT的故障-2021年東京奧運會網站和應用程式暫時中斷?