
Dalam makalah baru yang diterbitkan bulan ini, peneliti Apple mengungkapkan bahwa mereka telah mengembangkan metode baru untuk melatih model bahasa besar menggunakan informasi teks dan visual. Menurut peneliti Apple, ini merupakan cara untuk mendapatkan hasil yang canggih.
Seperti yang pertama kali ditemukan oleh VentureBeat, ide penelitian ini adalah untuk menunjukkan “betapa hati-hati menggabungkan berbagai jenis data pelatihan dan arsitektur model dapat menghasilkan kinerja tercanggih pada berbagai tolok ukur AI.”
Makalah ini diterbitkan minggu lalu dan diberi judul “MM1: Metode, Analisis & Wawasan dari Pra-pelatihan LLM Multimodal.” Peneliti Apple menjelaskan dalam abstrak makalah:
Dalam karya ini, kami membahas pembuatan Model Bahasa Besar Multimodal (MLLM) yang berkinerja baik. Secara khusus, kami mempelajari pentingnya berbagai komponen arsitektur dan pilihan data. Melalui ablasi yang cermat dan komprehensif pada encoder gambar, konektor bahasa visi, dan berbagai pilihan data pra-pelatihan, kami mengidentifikasi beberapa pembelajaran desain yang penting.
Misalnya, kami mendemonstrasikan bahwa untuk pra-pelatihan multimodal skala besar yang menggunakan perpaduan yang cermat antara teks gambar, teks gambar yang disisipkan, dan data hanya teks sangat penting untuk mencapai state-of-the-art (SOTA) sedikit -menembak hasil di berbagai tolok ukur, dibandingkan dengan hasil pra-pelatihan lain yang dipublikasikan.
MM1 dideskripsikan sebagai “keluarga model multimodal” yang canggih dan memiliki “sifat menarik seperti pembelajaran dalam konteks yang ditingkatkan, dan penalaran multi-gambar, memungkinkan rangkaian pemikiran beberapa gambar dorongan.”
Kemampuan pembelajaran dalam konteks model MM1 sangat mengesankan:
MM1 dapat melakukan prediksi dalam konteks berkat pra-pelatihan multimodal berskala besar. Hal ini memungkinkan MM1 untuk (a) menghitung objek dan mengikuti pemformatan khusus, (b) merujuk ke bagian gambar dan melakukan OCR, (c) menunjukkan akal sehat dan pengetahuan kata tentang objek sehari-hari, dan (d) melakukan fungsi matematika dasar. Gambar berasal dari set validasi COCO 2014.
Para peneliti menyimpulkan bahwa rangkaian model ini “menghasilkan kinerja kompetitif pada berbagai tolok ukur, sekaligus memungkinkan penalaran multi-gambar dan dorongan beberapa gambar.”
Baca selengkapnya:
Pekerjaan Apple AI berlanjut: Mengedit foto menggunakan perintah teksApple Keyframer menghasilkan animasi AI dari gambar diam dan teks promptFitur AI baru iOS 18: Semua yang kami ketahui sejauh ini
Itulah konten tentang Peneliti Apple mengungkapkan terobosan AI baru untuk melatih LLM pada gambar dan teks, semoga bermanfaat.