
Sebuah "anggaran kesalahan" menggambarkan jumlah waktu suatu sistem dapat offline sebelum memiliki konsekuensi nyata bagi bisnis Anda. Anggaran kesalahan digunakan bersama dengan perjanjian tingkat layanan (SLA) dan tujuan tingkat layanan (SLO) untuk menginformasikan organisasi ketika ketidaktersediaan sistem telah berujung pada pelanggaran kontrak.
Memasukkan anggaran kesalahan ke dalam strategi keandalan aplikasi Anda memberikan pendekatan metodis untuk menyeimbangkan pengambilan risiko dengan stabilitas. Anggaran kesalahan mengakui bahwa pemadaman sesekali, penerapan kereta, dan kesalahan sederhana tidak dapat dihindari. Peran mereka adalah memberi tahu Anda berapa banyak dari insiden ini yang dapat Anda tanggung. Anggaran kesalahan yang tersedia juga menentukan apakah tugas Anda berikutnya adalah membangun fitur baru atau menangani perbaikan bug lain.
Apa yang dimaksud dengan Anggaran Kesalahan?
A anggaran kesalahan layanan hanyalah ukuran waktu maksimum yang dapat dicapai dalam keadaan gagal tanpa menimbulkan kontrak, keuangan, atau sanksi peraturan. Anggaran kesalahan yang tersedia berasal dari angka waktu aktif yang Anda komit dalam SLA yang Anda kirim ke pelanggan. Anda bisa lebih ketat dengan mendasarkan anggaran kesalahan Anda pada SLO sebagai gantinya.
SLA – Waktu aktif yang Anda komit secara publik, seperti 99,95%. Sebagian besar organisasi yang menggunakan SLA akan diwajibkan secara kontrak untuk memberi kompensasi kepada pelanggan jika waktu aktif aktual layanan turun di bawah angka ini. SLO – Waktu aktif yang Anda tuju secara internal, seperti 99,99%. Ini berarti angka waktu aktif antara 99,95% dan 99,99% tidak diinginkan dan memberikan indikasi bahwa peningkatan keandalan diperlukan. Namun, itu tidak membuat Anda bertanggung jawab untuk memberi kompensasi kepada pelanggan. Anggaran kesalahan – Perhitungan jumlah waktu henti yang diizinkan oleh SLA atau SLO.
Anda dapat menghitung anggaran kesalahan menggunakan perkalian sederhana. Sebagai contoh, SLA yang menyatakan layanan Anda akan memiliki ketersediaan 99,99% selama setahun memberi Anda anggaran kesalahan total 52 menit dan 35 detik. Pemadaman yang berlangsung selama 30 menit tidak akan secara langsung memengaruhi bisnis Anda. Salah satu yang berlangsung satu jam akan melebihi anggaran kesalahan dan memerlukan kompensasi untuk pelanggan.
Berikut adalah beberapa contoh lainnya:
SLA %Anggaran Kesalahan Tahunan Anggaran Kesalahan Bulanan99,99%52 menit, 35 detik4 menit, 23 detik99,95%4 jam, 23 menit21 menit, 54 detik99,90%8 jam, 46 menit43 menit, 49 detik
Anggaran kesalahan dapat diturunkan dari semua jenis SLA, bukan hanya waktu aktif. Jumlah permintaan yang berhasil, pengukuran kinerja, dan metrik pemanfaatan sumber daya sering digunakan sebagai SLA dan SLO juga. SLA yang menyatakan 99% permintaan akan berhasil ditangani setiap hari akan membuat anggaran kesalahannya membengkak jika 10.000 permintaan telah dibuat dan kurang dari 9.900 di antaranya berhasil.
Error Budgets and Engineers
Error budgets bukan hanya cara yang lebih mudah untuk menyelesaikannya saat SLA Anda telah dilanggar. Mereka juga digunakan untuk menetapkan prioritas tim pengembangan Anda. Anggaran kesalahan adalah mekanisme kontrol yang menentukan jenis pekerjaan yang akan difokuskan.
Ketika anggaran kesalahan Anda penuh, pengembang dapat bekerja tanpa batasan. Mereka dapat menangani fitur baru, membuat perubahan menyeluruh pada sistem, dan menerapkan migrasi berisiko ke lingkungan produksi. Tindakan ini berpotensi menimbulkan bug dan perilaku tidak stabil, yang menghabiskan anggaran kesalahan. Anggaran kesalahan "dihabiskan" melalui inovasi ini.
Ketika anggaran kesalahan yang tersedia mencapai ambang batas yang disepakati, pengembang harus mengambil tindakan untuk menghentikannya jatuh lebih jauh. Upaya rekayasa harus berputar ke arah perbaikan bug dan pengoptimalan yang akan meningkatkan keandalan dan menstabilkan layanan. Ini mengurangi risiko bahwa masalah lain akan terjadi dan menghabiskan anggaran kesalahan sepenuhnya.
Penting untuk diketahui bahwa anggaran kesalahan seharusnya digunakan, hingga ambang peringatan. Mereka mempromosikan otonomi pengembang dengan memungkinkan para insinyur mengambil risiko dan berinovasi atas inisiatif mereka sendiri. Anggaran kesalahan secara bersamaan menyediakan pagar pengaman yang mencegah pengembang untuk terpaku pada gerakan maju dengan mengorbankan keandalan layanan. Anggaran kesalahan yang menguras melindungi bisnis dengan menginstruksikan pengembang ketika mereka perlu memfokuskan kembali pada stabilitas.
Apa Yang Terjadi Ketika Anggaran Kesalahan Dibelanjakan?
A anggaran kesalahan yang dihabiskan sepenuhnya dapat terjadi karena Anda telah melewati periode inovasi tinggi atau Anda pernah mengalaminya serangkaian pemadaman yang lama. Ada banyak rangkaian peristiwa yang dapat menyebabkan anggaran kesalahan habis; yang penting adalah bagaimana Anda merespons ketika itu terjadi.
Kehabisan anggaran kesalahan tidak boleh dianggap enteng. Anda tidak memiliki daya beli yang tersisa sehingga Anda tidak perlu berinvestasi dalam inovasi lebih lanjut. Anggaran kesalahan dapat disamakan dengan batas kredit dari pelanggan Anda: pengeluaran di luar batas Anda akan memperburuk situasi dan dapat sangat merusak pandangan merek Anda. Hal ini perlu segera dilakukan ketika anggaran habis. Blokir penerapan baru agar tidak mencapai produksi, realokasi pengembang yang sedang membangun fitur baru, dan evaluasi cara tercepat untuk memulihkan layanan. Anggaran kesalahan Anda akan pulih secara alami seiring waktu berlalu setelah insiden tersebut diselesaikan.
Anda harus menyelesaikan retrospektif atas resolusi untuk menganalisis apa yang terjadi. Mungkin ada peluang untuk meningkatkan keandalan dengan mengubah alat atau meningkatkan proses Anda. Menegakkan tinjauan kode yang lebih ketat, menjalankan rangkaian pengujian Anda secara otomatis di saluran CI, dan menggunakan analisis statis untuk menemukan gotcha umum adalah tiga cara efektif untuk meningkatkan kualitas kode dengan cepat. aplikasi Anda tidak stabil dan perlu lebih tangguh. Aliran insiden pelanggaran SLA yang terus-menerus akan menciptakan persepsi yang buruk tentang produk Anda. Pengguna mengharapkan perangkat lunak tersedia dengan andal saat mereka membutuhkannya. Kepercayaan pelanggan akan terganggu jika hal ini tidak terjadi, yang dapat menyebabkan Anda kalah dari pesaing.
Meskipun melebihi anggaran kesalahan dapat terjadi karena berbagai alasan, melakukannya berulang kali dapat mengisyaratkan masalah yang lebih besar di organisasi Anda. Anda mungkin mencoba bergerak terlalu cepat dengan peta jalan yang terlalu ambisius. Hal ini dapat memberikan tekanan yang tidak semestinya pada insinyur dan menciptakan lingkungan yang kondusif untuk kesalahan. Anggaran
Error mungkin terasa seperti penghalang di organisasi yang bergerak cepat secara alami. Mengingat niat di balik anggaran kesalahan akan membantu menjaga semua orang tetap berada di dalamnya. Mereka adalah bentuk manajemen risiko yang menyediakan metrik yang dapat ditindaklanjuti untuk menentukan prioritas teknik. Anggaran kesalahan ada untuk melindungi bisnis Anda dari dampak negatif insiden dengan memberi tahu Anda kapan harus mundur dan memperlambat. Mencoba mengesampingkan atau mengabaikannya dapat membahayakan masa depan layanan Anda.
Solusi perangkat lunak yang paling sukses menggabungkan inovasi berkelanjutan dengan stabilitas yang dapat diandalkan. Banyak tim pengembang berjuang untuk berhasil menyeimbangkan dua masalah yang saling bertentangan ini. Pengembang sering kali secara alami melihat ke depan sedangkan pengguna menginginkan solusi yang sudah dikenal yang dapat mereka andalkan. Anggaran
Error adalah mekanisme yang efektif untuk menyelesaikan dilema ini. Mereka memungkinkan pengembang untuk berinovasi secara bebas dalam batasan tetap yang menjaga keandalan layanan. Anggaran kesalahan melindungi bisnis dari dampak pelanggaran SLA dengan menginstruksikan insinyur untuk kembali fokus pada stabilitas seiring dengan peningkatan waktu henti.
Anda dapat menerapkan anggaran kesalahan dengan menetapkan SLA atau SLO, lalu menghitung jumlah ketidaktersediaan yang diizinkan. Anda juga harus melacak durasi insiden baru sehingga Anda tahu kapan anggaran kesalahan Anda digunakan. Platform manajemen insiden seperti Opsgenie, Pagerduty, dan Blameless dapat secara otomatis menangkap informasi ini dan memberikan peringatan waktu nyata untuk peristiwa penipisan anggaran kesalahan. Dengan menggunakan anggaran kesalahan, Anda dapat membuat aplikasi yang lebih andal yang secara konsisten memenuhi harapan pengguna. Anggaran kesalahan menyediakan data untuk menginformasikan keputusan teknik dan menyeimbangkan inovasi dengan operasi yang stabil. Ini menciptakan konsistensi yang hilang di banyak layanan yang ada saat ini.
Itulah berita seputar
Cara Menggunakan Anggaran Kesalahan untuk Melindungi Keandalan Layanan, semoga bermanfaat.
Disadur dari HowToGeek.com.