Untuk siklus kernel Linux 6.9 mendatang terdapat sejumlah tambahan AMD Instinct MI300 pada driver EDAC (Error Detection And Correction) dan RAS (Reliability, Availability and Serviceability).
Pekerjaan ini termasuk mengadaptasi driver AMD EDAC untuk menggunakan AMD Address Translation Library, dukungan MI300 untuk perpustakaan ATL tersebut, penambahan MI300 RAS lainnya, dan kemudian fitur baru untuk perangkat keras MI300 adalah dukungan pensiun baris.
Dukungan pensiun baris MI300 dalam driver amd64_edac dirangkum dalam patch itu untuk menangani memori bandwidth tinggi (HBM) yang rusak/kesalahan pada MI300:
“Sistem AMD MI300 memiliki Memori Bandwidth Tinggi on-die. Memori ini memiliki tingkat kesalahan yang relatif lebih tinggi, dan tidak dapat diganti secara individual seperti DIMM.
Kesalahan ECC yang tidak dapat diperbaiki dilaporkan satu per satu sebagai kesalahan yang Ditangguhkan menggunakan interupsi kesalahan AMD Deferred. Setiap kesalahan yang dilaporkan berkaitan dengan satu kesalahan perangkat keras.
Kesalahan ECC yang dapat diperbaiki dilaporkan secara berkelompok melalui Ambang Batas MCA. Pengguna dapat mengonfigurasi batas ambang batas berdasarkan kebijakan mereka. Setiap kesalahan yang dapat diperbaiki yang dilaporkan mewakili satu kejadian dari batas ambang batas yang tercapai.
Panduan saat ini dari desainer AMD adalah bahwa memori yang terpengaruh oleh kesalahan ECC dalam baris DRAM harus dihentikan. Tindakan harus diambil pada setiap kesalahan ECC yang dilaporkan.
Tambahkan fungsi pembantu untuk menerapkan kebijakan ini pada sistem MI300.
Fungsionalitas ini dan fungsi serupa juga dapat ditangani dengan baik dalam modul umum yang terpisah. Sementara itu, lakukan ini di AMD64 EDAC untuk kesederhanaan." Komentar kode dalam patch dukungan pensiun baris tersebut menegaskan kembali niat untuk menghentikan semua memori dalam baris DRAM tersebut karena kesalahan:
"Ketika kesalahan DRAM ECC terjadi pada sistem MI300, disarankan untuk menghentikan semua memori dalam baris DRAM tersebut. Ini berlaku untuk memori dengan bank DRAM." Pekerjaan AMD MI300 terbaru dapat ditemukan di Linux 6.9 sekarang setelah patch tersebut adalah bagian dari cabang Git "edac-for-next" RAS.git.
Itulah berita seputar Linux 6.9 Menambahkan Dukungan Pensiun AMD MI300 Row Untuk Memori HBM Bermasalah, semoga bermanfaat. Disadur dari Phoronix.com.Artikel Diperbarui pada: February 18, 2024
Kontributor: Syauqi Wiryahasana
Model: Haifa Manik Intani