Runtime inferensi AI DeepSparse Neural Magic terus mengejar “kinerja kelas GPU pada CPU” dan dengan rilis DeepSparse 1.5 yang baru memberikan kinerja yang lebih cepat untuk inferensi CPU.
DeepSparse menawarkan kinerja inferensi berbasis CPU terkemuka dan saya telah memanfaatkannya dengan sangat baik pada CPU Intel dan AMD dan umumnya menggunakannya di antara gudang benchmark CPU saya. Saya senang melihat dengan DeepSparse 1.5 bahkan ada lebih banyak peningkatan kinerja. Catatan rilis DeepSparse 1.5 menyebutkan peningkatan kinerja berikut:
– Latensi inferensi untuk CNN terkuantisasi jarang yang tidak terstruktur telah ditingkatkan hingga 2x.
– Throughput inferensi dan latensi untuk CNN padat telah ditingkatkan hingga 20%.
– Throughput inferensi dan latensi untuk trafo padat telah ditingkatkan hingga 30%.
– Operator berikut sekarang didukung untuk kinerja:
Neg, Unsqueeze dengan input non-konstan
MatMulInteger dengan dua input non-konstan
GEMM dengan bobot konstan dan input 4D atau 5DDeepSparse 1.5 juga menambahkan pipa evaluasi ONNX untuk OpenPiPaf, pipa segmentasi YOLOv8, dukungan untuk menggunakan hwloc untuk menentukan topologi CPU guna meningkatkan kinerja di dalam kluster Kubernetes, dan berbagai penyempurnaan lainnya. Sisi negatifnya, DeepSparse 1.5 sepertinya masih belum mendukung Python 3.11.
Downloads (jika tidak menggunakan pip) dan detail lebih lanjut tentang rilis DeepSparse 1.5 Neural Magic melalui GitHub.
Itulah berita seputar DeepSparse 1.5 Dirilis Untuk Inferensi AI Lebih Cepat Pada CPU, semoga bermanfaat. Disadur dari Phoronix.com.