Llamafile telah menjadi proyek yang cukup menarik dari grup Ocho Mozilla di era AI. Llamafile memudahkan menjalankan dan mendistribusikan model bahasa besar (LLM) yang mandiri dalam satu file. Llamafile dibuat dari Llama.cpp dan memudahkan pengiriman seluruh LLM sebagai satu file dengan dukungan eksekusi CPU dan GPU. Llamafile 0.8 kini hadir untuk ikut serta dalam kesenangan LLaMA3 serta memberikan dukungan model lain dan meningkatkan kinerja CPU.
Llamafile 0.8 adalah rilis menarik dengan tambahan dukungan untuk LLaMA3, Grok, dan Mixtral 8x22b.
Model Mixture of Experts (MoE) seperti Mixtral dan Grok kini juga 2~5x lebih cepat untuk dieksekusi pada CPU setelah memfaktorkan ulang kode CPU tinyBLAS. Ada juga performa F16 sekitar 20% lebih cepat di Raspberry Pi 5, performa F16 sekitar 30% lebih cepat di Intel Skylake, dan performa F16 sekitar 60% lebih cepat di Apple M2.
Llamafile 0.8 juga menghadirkan peningkatan deteksi fitur CPU dan peningkatan lainnya:
– Dukungan untuk LLaMA3 sekarang tersedia
– Dukungan untuk Grok telah diperkenalkan
– Dukungan untuk Mixtral 8x22b telah diperkenalkan
– Dukungan untuk model Command-R telah diperkenalkan
– Model MoE (misalnya Mixtral, Grok) kini bekerja 2-5x lebih cepat pada CPU
– F16 sekarang 20% lebih cepat di Raspberry Pi 5 (Eval prompt TinyLLaMA 1.1b ditingkatkan 62 -> 75 tok/detik)
– F16 sekarang 30% lebih cepat di Skylake (eval prompt TinyLLaMA 1.1b ditingkatkan 171 -> 219 tok/detik)
– F16 kini 60% lebih cepat di Apple M2 (Eval prompt Mistral 7b ditingkatkan 79 -> 128 tok/detik)
– Tambahkan kemampuan untuk mengganti template obrolan di web gui saat membuat file llama
– Meningkatkan penurunan harga dan penyorotan sintaksis di server
– Deteksi fitur CPU telah ditingkatkan Unduhan Llamafile 0.8 melalui GitHub. Saya akan segera mengerjakan benchmark Llamafile baru.
Itulah berita seputar Llamafile 0.8 Dirilis Dengan Dukungan LLaMA3 & Grok, Performa F16 Lebih Cepat, semoga bermanfaat. Disadur dari Phoronix.com.