Bayangkan jika Anda bisa mematikan sistem IT rumah sakit, maskapai penerbangan, dan bank hanya dengan satu file. Itulah yang terjadi pada 19 Juli 2024 kemarin. Tidak bisa mengambil uang tunai, atau naik pesawat. Semuanya kacau, layar biru kematian (BSOD) ada di mana-mana.
Awal Mula Insiden
Kemarin, berita di seluruh dunia melaporkan tentang gangguan sistem komputer yang mempengaruhi banyak perusahaan dan entitas. Mungkin jauh lebih banyak daripada yang pernah Anda bayangkan.
Hampir semua organisasi dan perusahaan besar di seluruh dunia mengalami masalah teknis, mulai dari rumah sakit hingga platform teknologi raksasa. Situs Downdetector memperlihatkan daftar panjang organisasi yang mengalami masalah teknis itu.
Awalnya, gangguan ini dikaitkan dengan sistem Microsoft Windows, karena BSOD terlihat di seluruh dunia. Namun, segera setelah itu, diketahui bahwa penyebabnya adalah perangkat lunak spesifik yang terpasang di komputer yang terdampak.
Bagi Anda pengguna setia Microsof Windows, pasti sudah tidak asing lagi. BSOD (Blue Screen of Death) adalah ciri khas dari sistem operasi Microsoft Windows. BSOD pertama kali muncul pada Windows versi 3.1, yang dirilis pada tahun 1992.
Penyebab Utama
CrowdStrike, sebuah perusahaan keamanan siber terkemuka yang melindungi komputer lebih dari setengah perusahaan Fortune 500, mengumumkan bahwa masalah ini disebabkan oleh update yang tidak valid dari Falcon Sensor.
CrowdStrike menyediakan security suite untuk perusahaan, dan Falcon Sensor adalah perangkat lunak yang menggabungkan antivirus, firewall, perlindungan USB, dan deteksi ancaman.
Update otomatis yang mereka keluarkan pada pukul 4.09 CET ternyata mengandung bug, dan menyebabkan sistem operasi Windows masuk ke loop BSOD.
Tampaknya, seseorang di CrowdStrike telah melakukan kesalahan fatal, dan memperbaikinya dalam waktu 1,5 jam (versi fixed dikeluarkan pada pukul 5.27 CET). Namun, waktu tersebut sudah cukup bagi banyak perangkat melakukan download secara otomatis, dan menggunakan versi yang bermasalah, yang kemudian memicu gangguan besar-besaran.
Insiden ini hanya mempengaruhi perangkat yang menjalankan Microsoft Windows, karena Falcon Sensor dari CrowdStrike dirancang untuk beroperasi pada sistem Windows. Sistem operasi lain, seperti macOS, Linux, dan lain-lain, menggunakan arsitektur yang berbeda dan tidak kompatibel dengan perangkat lunak ini. Oleh karena itu, mereka tidak terpengaruh oleh pembaruan yang rusak tersebut.
Dampak dan Solusi
Dampak dari masalah ini sangat luas dan global. Laporan gangguan datang dari seluruh penjuru dunia, menunjukkan bahwa masalah ini tidak hanya berdampak pada perusahaan besar, tetapi juga pada infrastruktur penting seperti rumah sakit, airport, dan layanan publik lain.
Bayangkan sebuah perusahaan dengan 10.000 karyawan yang menggunakan komputer yang dilindungi oleh CrowdStrike. Memperbaiki semua komputer tersebut secara manual, akan membutuhkan waktu dan sumber daya yang sangat besar. Beberapa pengguna bahkan melaporkan kesulitan yang lebih parah pada perangkat dan server yang dienkripsi.
Masalah ini diperkirakan tidak akan terselesaikan dalam waktu singkat. Beberapa ahli memperkirakan bahwa dibutuhkan waktu berminggu-minggu untuk memulihkan semua sistem yang terdampak.
Beberapa pihak bahkan menyebut ini sebagai outage terbesar dalam sejarah.
Kesalahan Fatal dalam Pengembangan Software
Kemungkinan besar penyebab masalah ini adalah, file yang bermasalah menyebabkan segfault, yaitu kesalahan yang terjadi ketika program mencoba mengakses memori yang tidak valid. Hal ini bisa disebabkan oleh kesalahan dalam penggunaan bahasa pemrograman seperti C atau C++, atau masalah dalam proses pembuatan file tersebut.
Menariknya, seorang pelanggan CrowdStrike telah melaporkan masalah serupa dua minggu sebelumnya. Pelanggan tersebut mengeluhkan bahwa software CrowdStrike “menyuntikkan” sesuatu ke dalam proses yang menyebabkan crash. Namun, laporan tersebut tampaknya tidak ditanggapi oleh CrowdStrike.
Cara Memperbaiki Bug CrowdStrike
Memperbaiki sistem yang terpengaruh cukup sederhana, karena hanya perlu rename atau menghapus bad file dari folder sistem operasi komputer atau perangkat Anda.
Berikut adalah langkah-langkah untuk mengembalikan sistem Windows Anda kembali normal:
1. Boot Windows dalam Safe Mode:
- Restart komputer dan tekan terus tombol “F8” (untuk versi Windows yang lebih baru, tahan tombol Shift dan pilih “Restart,” lalu pilih Safe Mode dari Advanced Startup Options).
- Pilih “Safe Mode” dan tekan Enter.
2. Navigasi ke Direktori CrowdStrike:
- Setelah masuk ke Safe Mode, buka Windows Explorer.
- Ketik di address bar:
C:Windows\System32\drivers\CrowdStrike
dan tekan Enter.
3. Rename Nama File “C-00000291–00000000–00000032.sys”:
- Temukan file “C-00000291*.sys” di direktori tersebut.
- Klik kanan file dan pilih “Rename”.
- Ubah nama file menjadi “C-00000291–00000000–00000032.renamed” dan tekan Enter.
- Btw, Anda bisa juga menghapusnya.
4. Restart Komputer dalam Normal Mode:
- Setelah menyelesaikan semua langkah, restart komputer. Sistem akan boot ke normal mode.
Untuk server yang menggunakan VM, atau di Azure Cloud, prosedurnya mirip tetapi melibatkan melepaskan dan memasang kembali drive. Meskipun tidak sulit, ini bisa sangat membosankan jika harus dilakukan pada ratusan perangkat.
1. Stop VM dan Lepaskan Disknya:
- Buka page virtual machine di portal Azure.
- Klik “Stop” untuk menghentikan VM.
- Setelah VM dihentikan, buka opsi “Disks” di menu kiri dan lepaskan OS disk.
2. Pasang Disk ke VM Lain:
- Buat VM baru atau gunakan yang sudah ada. Pastikan Anda punya akses administrator ke VM ini.
- Pasang disk bermasalah ke VM baru melalui opsi “Add Disk” di bagian “Disks”.
3. Konfigurasi Disk di VM Baru:
- Sambungkan ke VM baru melalui RDP. Buka Disk Management (tekan tombol Windows + X dan pilih “Disk Management”).
- Kenali dan pasang disk yang ditambahkan, lalu beri huruf drive.
4. Set Safe Boot Option menggunakan Bcdedit:
- Buka Command Prompt sebagai administrator.
- Arahkan ke direktori Windows dari disk yang ditambahkan. Misalnya, jika disk dipasang sebagai D:\
cd /d D:\\Windows\\System32
- Jalankan perintah berikut untuk mengatur mode safe boot:
bcdedit /store D:\\boot\\bcd /set {default} safeboot minimal
5. Pasang Kembali Disk dan Mulai VM:
- Lepaskan disk dari Disk Management dengan aman.
- Kembali ke portal Azure dan pasang kembali disk ke VM asli.
- Start VM.
6. Kembali ke Normal Mode:
- Setelah perbaikan selesai dalam safe mode, Anda dapat kembali ke normal mode dengan menggunakan bcdedit untuk menonaktifkan safe boot:
bcdedit /deletevalue {default} safeboot
Untuk mempercepat proses penggantian nama file CrowdStrike, Anda juga dapat menggunakan script PowerShell berikut:
Rename-Item -Path "C:\\Windows\\System32\\drivers\\\\\\\\CrowdStrike\\C-00000291-00000000-00000032.sys" -NewName "C-00000291-00000000-00000032.renamed"
Pencegahan di Masa Depan
Insiden ini menjadi pengingat yang keras akan kerentanan sistem yang memiliki single point of failure. Tidak hanya perusahaan yang menggunakan sistem terpusat, tetapi juga pelanggan mereka secara langsung dapat terpengaruh.
Hal ini juga sebagai pengingat tentang risiko menggunakan sistem operasi yang terbatas pada satu OS saja. Juga tentang pentingnya redundansi dalam sistem yang kritis.
Perusahaan harus memiliki rencana cadangan untuk mengatasi kegagalan perangkat lunak atau perangkat keras yang tidak terduga.
Selain itu, penting juga untuk melakukan pengujian yang ketat pada update perangkat lunak sebelum diluncurkan secara luas.
Untuk mencegah insiden serupa di masa depan, berikut beberapa langkah yang bisa diambil:
- Backup Sistem: Selalu lakukan backup sistem sebelum melakukan pembaruan.
- Update yang Teratur: Pastikan semua driver dan perangkat lunak selalu diperbarui.
- Lingkungan Staging: Uji update di lingkungan staging sebelum diterapkan di sistem produksi.
- Versi Stabil: Untuk sistem kritis, tetap gunakan beberapa versi di sebelumnya untuk memastikan stabilitas.
- Protokol Keamanan yang Ketat: Terapkan protokol keamanan yang ketat dan pantau setiap pembaruan yang diterima.
Takeaway
Insiden BSOD 2024 ini menunjukkan betapa rentannya sistem kita terhadap kegagalan pada satu titik. Pengalaman ini akan menjadi pelajaran berharga bagi para admin dan tim keamanan di seluruh dunia untuk meningkatkan kesiapan dan prosedur penanganan insiden.
Semoga masalah ini dapat diselesaikan secepat mungkin dan tidak terulang di masa mendatang.
Terimakasih sudah membaca, semoga bermanfaat