Antri untuk diperkenalkan dalam siklus kernel Linux 6.9 mendatang adalah FRU Memory Poison Manager “FMPM” yang dikembangkan oleh AMD yang nantinya dapat diadaptasi untuk platform non-AMD lainnya. FRU Memory Poison Manager berfungsi untuk menyimpan informasi seputar memori buruk/rusak yang diketahui saat reboot.
Seperti disebutkan sebelumnya, AMD telah mengerjakan dukungan pensiun baris dan perubahan lain untuk mengatasi memori yang salah khususnya untuk seri Instinct MI300 dengan memori HBM3. Meskipun dukungan penghentian baris memungkinkan penghentian penggunaan baris DRAM tersebut secara bertahap setelah ambang batas kesalahan tercapai, pada akhirnya hal ini dapat menyebabkan situasi terulang kembali pada reboot bersih. Dengan FRU Memory Poison Manager yang akan datang, ini akan memungkinkan informasi tersebut secara opsional disimpan di sekitar memori buruk saat reboot.
Untuk memori yang terus-menerus rusak, tujuannya adalah agar FRU Memory Poison Manager segera dihentikan pada boot baru daripada menjalani proses menangani kesalahan dan menangani kesalahannya di kemudian hari. Driver AMD FMPM untuk persistensi ini dimasukkan melalui subsistem RAS sebelum siklus Linux 6.9. Sakelar Kconfig “RAS_FMPM” yang baru memungkinkan pembuatan driver ini untuk menyimpan/memulihkan informasi kesalahan memori saat reboot. Informasi ini diarsipkan dalam ACPI ERST, Tabel Serialisasi Catatan Kesalahan.
Kebijakan khusus
Platform akan memungkinkan pengaturan perilaku seputar penghentian memori yang bermasalah pada waktu boot. Penggabungan ke cabang “edac-for-next” RAS.git sebelum jendela penggabungan Linux 6.9 merangkum driver FRU Memory Poison Manager:
“Kesalahan memori adalah kejadian yang diharapkan terjadi pada sistem dengan kepadatan memori tinggi. Secara umum, kesalahan dalam sejumlah kecil lokasi fisik unik dapat diterima, berdasarkan kebijakan pabrikan dan/atau admin. Selama waktu berjalan, memori dengan kesalahan mungkin dihentikan sehingga tidak ada lagi.” tidak lagi digunakan oleh sistem. Hal ini dilakukan dalam mm melalui peracunan halaman, dan efeknya akan tetap ada hingga sistem dimulai ulang.
Jika lokasi memori terus-menerus rusak, maka penanganan kesalahan waktu berjalan yang sama mungkin terjadi pada siklus boot ulang berikutnya, yang menyebabkan penghentian pekerjaan karena memori buruk yang sudah diketahui tersebut. Hal ini dapat dicegah jika informasi dari boot sebelumnya tidak hilang.
Beberapa kartu tambahan dengan memori yang dikelola driver memiliki penyimpanan persisten terpasang. Driver mereka menyimpan informasi kesalahan memori ke penyimpanan persisten selama run time. Informasi tersebut kemudian dipulihkan setelah reset, dan memori buruk yang diketahui akan dihentikan sebelum perangkat keras digunakan. Log berjalan dari lokasi memori buruk disimpan di beberapa pengaturan ulang.
Solusi serupa juga diinginkan untuk CPU. Namun, solusi ini harus memanfaatkan komponen standar industri sebanyak mungkin, bukan driver platform yang dibuat khusus.
Dibutuhkan dua komponen: format rekaman dan antarmuka penyimpanan persisten.
Menerapkan modul baru untuk mengelola format rekaman pada penyimpanan persisten. Gunakan persyaratan untuk sistem berbasis AMD MI300 untuk memulai. Detail khusus vendor dan platform dapat diringkas kemudian sesuai kebutuhan.” Banyak pekerjaan MI300 yang terus berlanjut hingga ke kernel arus utama yang juga akan bermanfaat bagi generasi Instinct di masa depan.
Itulah berita seputar AMD Memperkenalkan FRU Memory Poison Manager Di Linux 6.9, semoga bermanfaat. Disadur dari Phoronix.com.