CrowdStrike更新疏失釀全球當機潮，凸顯網路韌性重要

微軟系統全球大當機！CrowdStrike更新疏失釀災難，企業網路韌性拉警報

CrowdStrike 在週四晚間發布的內容更新設定錯誤，無意中觸發了全球 Microsoft Windows 系統的當機停擺，導致許多全球最重要的服務斷線無法使用。

CrowdStrike 試圖更新其 Falcon 感測器用於執行即時威脅檢測和終端保護的內容，該感測器透過監控系統活動來辨識可疑行為以防止網路攻擊。內容更新包含旨在微調惡意活動檢測的邏輯，並基於 CrowdStrike 即時、持續收集的最新威脅情報。

「這不是程式碼更新，而是內容更新。這意味著有一個單一檔案驅動了我們尋找惡意行為者的額外邏輯。這個邏輯被推送出去，只在 Microsoft 環境中造成了問題，」CrowdStrike 執行長兼創始人喬治·柯茲（George Kurtz）今天早些時候在 CNBC 的採訪中說。

全球性的立即影響

這次停擺首先在澳大利亞被發現，Windows 機器崩潰並顯示「藍底白字」當機（BSOD）。錯誤的更新觸發了全球範圍的 Windows 停擺，影響了數十個機場、航空公司、銀行機構和服務公司，這些公司都依賴基於 Windows 的系統來運營業務。全球有數十萬旅客滯留在機場。根據《華爾街日報》報導的 FlightAware 數據，截至週五下午，約有 2600 個美國航班被取消，全球有超過 4200 個航班被取消。

IT 停擺的影響也蔓延到 Microsoft Azure 雲端平台。Azure 客戶抱怨說，他們「在使用 CrowdStrike Falcon 代理的 Windows 機器上遇到無響應和啟動失敗，影響了本地和各種雲端平台。」Azure Health Status 顯示，停擺仍然影響著美洲、歐洲、亞太地區以及中東和非洲四個地區的 Azure 虛擬機器。

由於許多雲端系統的配置需要針對每個客戶進行個別更新，因此IT團隊將面臨一個漫長的週末和艱難的七月。建議IT團隊暫時休息一下，如果可能的話，將任何大型專案推遲到錯誤配置得到解決為止。

延伸閱讀：微軟遭遇大規模「藍底白字」當機災情、甚至導致機場航運暫停，傳為 CrowdStrike 防毒軟體更新惹禍

停擺需要成為行動的號召，以提高網路韌性

企業的網路韌性越高，預測、抵禦和從各種不利條件（包括攻擊、入侵和洩露）中恢復的能力就越強。作為高層管理人員，越來越多地在董事會中，讓網路韌性正確成為其角色的核心部分，這通常是 CISO 的責任。

「最後，每個企業在修補節奏方面都面臨挑戰。今天是 CrowdStrike 的糟糕日子，對很多人來說也變成了糟糕日子。Crowdstrike 要求其終端客戶進行修復工作，這就造成了更多的回應時間和修復時間，」Reco 的 CISO 以及 Expanso、Andesite 和 EnkryptAI 的顧問梅里特·貝爾（Merritt Baer）說。

Trustwave 的 CISO柯里·丹尼爾斯（Kory Daniels）最近表示：「董事會已經開始問這個問題：是否需要有一個正式頭銜的首席韌性長？」更多的董事會正在將網路韌性加到他們更廣泛的風險管理項目團隊中。正如 United Healthcare breaches 所表明的那樣，造成整個供應鏈混亂的高調勒索軟體攻擊是任何企業都難以承受的代價最高的攻擊之一。

由錯誤配置引起的停擺凸顯了對一種獨特形式的網路韌性的需求，這種韌性需要積極追求，使其成為公司 DNA 的核心部分。錯誤配置的更新將繼續導致全球性的停擺。這與由錯綜複雜的整合系統定義的永遠在線的即時世界相伴而生。「規模很大，但來源也是如此——例如，Snowflake 是由於 SaaS 的錯誤配置，而 SolarWinds 則是俄羅斯支持的供應鏈攻擊。這是老式的安全痛苦，」貝爾說。

本週的全球停擺就像一個國家的網路安全薄弱或不存在時，一個民族國家的攻擊會是什麼樣子。要了解國家網路韌性和網路防禦的利害關係，請查看最近發布的《2024 年美國情報界年度威脅評估》。

針對錯誤配置的網路韌性需要快速辨識和定義問題，定義修復方案（理想情況下可以自動化），並與每個受影響的客戶和人員進行過度溝通。要使內部網路韌性正確，需要得到準確、易於所有人訪問且盡可能即時的報告支持。目標是讓每個參與更新的人都有機會擁有結果，並知道回歸測試和跨合作夥伴平台的測試已經完成。

「今天早些時候，CrowdStrike 的 Falcon 服務遭遇了一次不幸的全球性停擺，影響了許多在 Windows 系統上使用該軟體的客戶。CrowdStrike 事件響應團隊迅速確定根本原因並快速通知客戶的行動值得稱讚，其執行長的部落格是誠實和清晰的，」JFrog 的現場 CISO保羅·大衛（ Paul Davis）說。

柯茲繼續在社群媒體平台 X 和 LinkedIn 上發布更新。在下面最新的 X 貼文中，他承諾提供停擺發生的根本原因分析。

「在安全領域，必須時刻為意外做好準備，並為那些突發事件制定應變計劃。沒有完美的軟體這種東西。畢竟，軟體是由人類構建的，而犯錯是人之常情。重要的是你多快找出問題並趕快恢復，」大衛說。

恢復你的系統

今天早些時候，CrowdStrike 在其網站上發布了恢復受停擺影響的系統以及查找受錯誤配置更新影響的系統或主機的說明。

您需要先以安全模式啟動任何受影響的機器。此步驟是必要的，因為需要更新的 Falcon Sensor 軟體嵌入在 Windows 作業系統的子目錄中。啟動到安全模式對於存取此子目錄並執行必要的更新至關重要。

如果受影響的 PC 使用 BitLocker 或其他全磁碟加密（FDE）軟體，您將需要每台機器的恢復密鑰。CrowdStrike 在其部落格文章中建議了恢復受影響機器的以下步驟：

網路韌性是客戶信任的代名詞

「安全供應商需要了解，他們掌握著客戶的成果。我想像 Crowdstrike 未來不會以同樣的方式推送更新，」Baer說。全球性的停擺繼續擾亂數十萬人的生活，並迫使企業停滯不前。從依賴基於雲的系統與客戶聯繫的設計師到擁有數千名無法登錄的同事的大型企業，今天的經歷清楚地表明，網路韌性不僅僅是一項安全措施。它需要成為客戶體驗的基石。

贏得並保持客戶的信任取決於使企業盡可能具有網路韌性。停擺是一個引人注目的事件，每個企業都需要將其視為一個關鍵事件，以評估他們對類似事件的準備程度。

鑑於全球系統之間複雜的整合和聯繫，未來將會出現中斷停擺。每個企業都必須對網路韌性負責，並選擇現在而不是以後在網路韌性方面表現出色。

延伸閱讀：Facebook災難級斷線導致全球哀鴻遍野，背後到底發生了什麼事？
延伸閱讀：資安再嚴也敵不了一把尖嘴鉗！巴黎數千人斷網，竟是因為網路關鍵節點線纜遭人惡意剪斷
資料來源

加入T客邦Facebook粉絲團