Dunia maya dikejutkan dengan laporan raksasa internet Cloudflare. Layanan resolver DNS mereka, 1.1.1.1, baru-baru ini tidak dapat diakses atau mengalami gangguan untuk sebagian penggunanya. Penyebabnya? Kombinasi pembajakan Border Gateway Protocol (BGP) dan kebocoran rute.
Insiden yang terjadi pada minggu lalu ini memengaruhi 300 jaringan di 70 negara. Meskipun demikian, Cloudflare mengklaim dampaknya "cukup rendah" dan bahkan tidak disadari oleh pengguna di beberapa negara.
Mengulik Detail Insiden
Menurut laporan Cloudflare, pada 18:51 UTC tanggal 27 Juni, Eletronet S.A. (AS267613) mulai mengumumkan alamat IP 1.1.1.1/32 ke jaringan lain dan penyedia upstream mereka.
Pengumuman yang salah ini diterima oleh beberapa jaringan, termasuk penyedia Tier 1, yang menganggapnya sebagai rute Remote Triggered Blackhole (RTBH). Pembajakan terjadi karena routing BGP memprioritaskan rute yang paling spesifik. Pengumuman AS267613 tentang 1.1.1.1/32 lebih spesifik daripada pengumuman Cloudflare 1.1.1.0/24, sehingga jaringan salah merutekan lalu lintas ke AS267613.
Akibatnya, lalu lintas yang ditujukan ke resolver DNS 1.1.1.1 milik Cloudflare malah di-blackhole/ditolak, sehingga layanan menjadi tidak tersedia bagi sebagian pengguna.
Kebocoran Rute Memperparah Keadaan
Hanya satu menit kemudian, pada 18:52 UTC, Nova Rede de Telecomunicações Ltda (AS262504) secara keliru membocorkan 1.1.1.0/24 ke hulu ke AS1031, yang kemudian menyebarluaskannya lebih jauh, sehingga memengaruhi routing global.
Kebocoran ini mengubah jalur routing BGP normal, menyebabkan lalu lintas yang ditujukan ke 1.1.1.1 salah diarahkan, memperburuk masalah pembajakan dan menyebabkan masalah keterjangkauan dan latensi tambahan.
Cloudflare mengidentifikasi masalah tersebut sekitar pukul 20:00 UTC dan berhasil mengatasi pembajakan kira-kira dua jam kemudian. Kebocoran rute baru bisa diatasi pada 02:28 UTC.
Upaya Pemulihan
Langkah pertama yang dilakukan Cloudflare adalah menghubungi jaringan yang terlibat dalam insiden tersebut. Selain itu, mereka juga menonaktifkan sesi peering dengan semua jaringan yang bermasalah untuk mengurangi dampak dan mencegah penyebaran rute yang salah lebih lanjut.
Cloudflare menjelaskan bahwa pengumuman yang salah tidak memengaruhi routing jaringan internal mereka karena mereka telah menggunakan Resource Public Key Infrastructure (RPKI). RPKI secara otomatis menolak rute yang tidak valid.
Solusi Jangka Panjang dari Cloudflare
Dalam laporan postmortem mereka, Cloudflare memaparkan beberapa solusi jangka panjang, yaitu:
- Meningkatkan Sistem Deteksi Kebocoran Rute: Ini dilakukan dengan memasukkan lebih banyak sumber data dan mengintegrasikan data poin real-time.
- Mendorong Adopsi Resource Public Key Infrastructure (RPKI) untuk Route Origin Validation (ROV): RPKI memungkinkan validasi asal rute untuk memastikan pengumuman BGP berasal dari sumber yang sah.
- Mempromosikan Penerapan Prinsip Mutually Agreed Norms for Routing Security (MANRS): Prinsip ini mencakup penolakan terhadap panjang prefiks yang tidak valid dan penerapan mekanisme filtering yang kuat.
- Mendorong Jaringan untuk Menolak Prefiks IPv4 Lebih Panjang dari /24 di Default-Free Zone (DFZ): DFZ adalah area di internet tempat pengumuman prefiks tertentu dilarang.
- Menganjurkan Penggunaan Objek ASPA: Objek ini (saat ini sedang dirancang oleh IETF) digunakan untuk memvalidasi jalur AS dalam pengumuman BGP.
- Menjelajahi Potensi Implementasi RFC9234 dan Discard Origin Authorization (DOA): Ini adalah spesifikasi teknis yang sedang dikembangkan untuk meningkatkan keamanan routing BGP.
Insiden ini menjadi pengingat pentingnya keamanan dalam infrastruktur internet. Dengan mengadopsi solusi jangka panjang yang diusulkan oleh Cloudflare, kita dapat bersama-sama membangun internet yang lebih aman dan tangguh.