
Siri baru-baru ini mencoba mendeskripsikan gambar yang diterima di Pesan saat menggunakan CarPlay atau fitur pengumuman pemberitahuan. Pada umumnya Siri, fitur ini tidak konsisten dan memberikan hasil yang beragam.
Namun demikian, Apple terus maju dengan janji AI. Dalam makalah penelitian yang baru diterbitkan, pakar AI Apple menggambarkan sebuah sistem di mana Siri dapat melakukan lebih dari sekadar mencoba mengenali apa yang ada dalam gambar. Bagian terbaik? Ia berpendapat salah satu modelnya melakukan benchmark ini lebih baik daripada ChatGPT 4.0.
Dalam makalahnya (ReALM: Resolusi Referensi Sebagai Pemodelan Bahasa), Apple menjelaskan sesuatu yang dapat memberikan peningkatan kegunaan pada asisten suara yang dilengkapi model bahasa besar. ReALM memperhitungkan apa yang ada di layar Anda dan tugas apa yang aktif. Berikut cuplikan dari makalah yang menjelaskan pekerjaan tersebut:
1. Entitas di Layar: Ini adalah entitas yang saat ini ditampilkan di layar pengguna
2. Entitas Percakapan: Ini adalah entitas yang relevan dengan percakapan. Entitas ini mungkin berasal dari giliran pengguna sebelumnya (misalnya, saat pengguna mengucapkan “Telepon Ibu”, kontak untuk Ibu adalah entitas relevan yang dimaksud), atau dari asisten virtual (misalnya, saat agen menyediakan pengguna daftar tempat atau alarm untuk dipilih).
3. Entitas Latar Belakang: Ini adalah entitas relevan yang berasal dari proses latar belakang yang mungkin belum tentu merupakan bagian langsung dari apa yang dilihat pengguna di layar atau interaksi mereka dengan agen virtual; misalnya, alarm yang mulai berdering atau musik yang diputar di latar belakang.
Jika berfungsi dengan baik, sepertinya itu resep untuk Siri yang lebih cerdas dan berguna. Apple juga terdengar percaya diri dengan kemampuannya menyelesaikan tugas tersebut dengan kecepatan yang mengesankan. Tolok ukur dibandingkan dengan ChatGPT 3.5 dan ChatGPT 4.0 OpenAI:
Sebagai dasar lainnya, kami menjalankan GPT-3.5 (Brown dkk., 2020; Ouyang dkk., 2022) dan GPT-4 (Achiam dkk., 2023) varian ChatGPT, tersedia pada 24 Januari 2024, dengan pembelajaran dalam konteks. Seperti dalam penyiapan kami, kami bertujuan agar kedua varian memprediksi daftar entitas dari kumpulan yang tersedia. Dalam kasus GPT-3.5, yang hanya menerima teks, masukan kami terdiri dari prompt saja; namun, dalam kasus GPT-4, yang juga memiliki kemampuan untuk mengontekstualisasikan gambar, kami menyediakan tangkapan layar kepada sistem untuk tugas resolusi referensi di layar, yang menurut kami membantu meningkatkan kinerja secara signifikan.
Jadi, bagaimana kinerja model Apple?
Kami mendemonstrasikan peningkatan besar pada sistem yang ada dengan fungsi serupa di berbagai jenis referensi, dengan model terkecil kami memperoleh keuntungan absolut lebih dari 5% untuk referensi di layar. Kami juga melakukan benchmark terhadap GPT-3.5 dan GPT-4, dengan model terkecil kami mencapai performa yang sebanding dengan GPT-4, dan model kami yang lebih besar secara substansial mengunggulinya.
Secara signifikan mengunggulinya, katamu? Makalah ini sebagian menyimpulkan sebagai berikut:
Kami menunjukkan bahwa ReaLM mengungguli pendekatan-pendekatan sebelumnya, dan memiliki kinerja yang kurang lebih sama baiknya dengan LLM tercanggih saat ini, GPT-4, meskipun terdiri dari parameter yang jauh lebih sedikit, bahkan untuk referensi di layar meskipun murni dalam domain tekstual. Performanya juga mengungguli GPT-4 untuk ucapan pengguna khusus domain, sehingga menjadikan ReaLM pilihan ideal untuk sistem resolusi referensi praktis yang dapat ada di perangkat tanpa mengurangi performa.
Di perangkat tanpa mengurangi kinerja tampaknya merupakan kunci bagi Apple. Semoga pengembangan platform beberapa tahun ke depan akan menarik, dimulai dengan iOS 18 dan WWDC 2024 pada 10 Juni.
Itulah konten tentang Peneliti AI Apple membanggakan model pada perangkat yang “secara signifikan mengungguli” GPT-4, semoga bermanfaat.