Skip to content

emka.web.id

menulis pengetahuan – merekam peradaban

Menu
  • Home
  • Tutorial
  • Search
Menu

Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut

Posted on April 10, 2024

Ferret-UI could power advanced Siri | Concept image of Siri logo in thought bubble
Makalah penelitian Apple menjelaskan bagaimana perusahaan mengembangkan Ferret-UI, sistem AI generatif yang dirancang khusus untuk dapat memahami layar aplikasi.

Makalah ini agak kabur mengenai potensi penerapan hal ini – mungkin memang sengaja dilakukan – namun kemungkinan yang paling menarik adalah memberdayakan Siri yang jauh lebih canggih…

Tantangan dalam melampaui ChatGPT

Model Bahasa Besar (LLM) adalah kekuatannya sistem seperti ChatGPT. Materi pelatihannya berupa teks, sebagian besar diambil dari website.

MLLM – atau Model Bahasa Besar Multimodal – bertujuan untuk memperluas kemampuan sistem AI untuk memahami informasi non-tekstual juga: gambar, video, dan audio.

MLLM saat ini tidak begitu baik dalam memahami keluaran aplikasi seluler. Ada beberapa alasan untuk hal ini, dimulai dari alasan biasa yaitu rasio aspek layar ponsel cerdas berbeda dari yang digunakan oleh sebagian besar gambar pelatihan.

Lebih khusus lagi, banyak gambar yang perlu mereka kenali, seperti ikon dan tombol, berukuran sangat kecil.

Selain itu, daripada memahami informasi dalam satu pukulan, seperti saat menafsirkan gambar statis, mereka harus dapat berinteraksi dengan aplikasi.

Ferret-UI

Apple Ini adalah masalah yang diyakini telah dipecahkan oleh para peneliti Apple dengan sistem MLLM yang mereka sebut Ferret-UI (UI adalah singkatan dari antarmuka pengguna).

Mengingat bahwa layar UI biasanya menampilkan rasio aspek yang lebih memanjang dan berisi objek menarik yang lebih kecil (misalnya, ikon, teks) dibandingkan gambar alami, kami menggabungkan “resolusi apa pun” di atas Ferret untuk memperbesar detail dan memanfaatkan fitur visual yang disempurnakan [… ]

Kami dengan cermat mengumpulkan sampel pelatihan dari berbagai tugas dasar UI, seperti pengenalan ikon, menemukan teks, dan daftar widget. Sampel ini diformat untuk mengikuti instruksi dengan anotasi wilayah guna memfasilitasi rujukan dan landasan yang tepat. Untuk meningkatkan kemampuan penalaran model, kami menyusun lebih lanjut kumpulan data untuk tugas-tugas tingkat lanjut, termasuk deskripsi mendetail, percakapan persepsi/interaksi, dan inferensi fungsi.

Hasilnya, kata mereka, lebih baik daripada GPT-4V dan MLLM lain yang berfokus pada UI.

Dari pengembangan UI, hingga Siri

yang sangat canggih Makalah ini menjelaskan apa yang telah mereka capai, bukan bagaimana hal itu dapat digunakan. Hal ini umum terjadi pada banyak makalah penelitian, dan mungkin ada beberapa alasan untuk hal ini.

Pertama, para peneliti sendiri mungkin tidak mengetahui bagaimana karya mereka pada akhirnya akan digunakan. Mereka fokus pada pemecahan masalah teknis, bukan pada potensi penerapannya. Mungkin diperlukan orang produk untuk melihat cara-cara potensial untuk memanfaatkannya.

Kedua, terutama jika berkaitan dengan Apple, mereka mungkin diperintahkan untuk tidak mengungkapkan tujuan penggunaan, atau dengan sengaja tidak menjelaskannya.

Namun kita dapat melihat tiga cara potensial untuk menggunakan kemampuan ini…

Pertama, ini bisa menjadi alat yang berguna untuk mengevaluasi efektivitas UI. Pengembang dapat membuat versi draf suatu aplikasi, lalu membiarkan Ferret-UI menentukan seberapa mudah atau sulitnya aplikasi tersebut untuk dipahami dan digunakan. Ini bisa lebih cepat dan lebih murah dibandingkan pengujian kegunaan manusia.

Dua, bisa memiliki aplikasi aksesibilitas. Daripada pembaca layar sederhana yang membacakan semua yang ada di layar iPhone kepada orang buta, misalnya, ia merangkum apa yang ditampilkan layar, dan mencantumkan opsi yang tersedia. Pengguna kemudian dapat memberi tahu iOS apa yang ingin mereka lakukan, dan membiarkan sistem melakukannya untuk mereka.

Apple memberikan contohnya, di mana Ferret-UI dihadirkan dengan layar berisi acara podcast. Keluaran sistem adalah: “Layar ini untuk aplikasi podcast tempat pengguna dapat menelusuri dan memutar podcast baru dan terkenal, dengan opsi untuk memutar, mengunduh, dan mencari podcast tertentu.”

Tiga – dan yang paling menarik – ini dapat digunakan untuk mendukung bentuk Siri yang sangat canggih, di mana pengguna dapat memberikan instruksi kepada Siri seperti “Periksa penerbangan dari JFK ke Boston besok, dan pesan kursi di penerbangan yang akan antar saya ke sana paling lambat jam 10 pagi dengan total ongkos di bawah $200.” Siri kemudian akan berinteraksi dengan aplikasi maskapai untuk melaksanakan tugas tersebut.

Terima kasih, AK. Gambar komposit 9to5Mac dari Solen Feyissa di Unsplash dan Apple.

Itulah konten tentang Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut, semoga bermanfaat.

Terbaru

  • Inilah Cara Membuat File Koneksi RDP Secara Manual Biar Akses Remote Kalian Nggak Error Lagi
  • Inilah Cara Clear RDP Cache dan Registry MRU Biar Remote Desktop Kalian Kembali Segar
  • Cara Restore File Association .rdp Agar Remote Desktop Bisa Terbuka Otomatis Lagi
  • Apa itu Probabilistic Methods dalam Klasifikasi Data?
  • Apa itu Klasifikasi Data dengan Metode Feature Selection?
  • Inilah Panduan Lengkap Jalur Afirmasi Disabilitas SPMB Kota Malang 2026, Simak Syarat dan Jadwalnya!
  • Inilah Cara Lengkap Daftar UM Undip 2026: Panduan Teknis, Jadwal, dan Syarat Biar Nggak Salah Langkah!
  • Inilah Daftar Kampus Swasta Terbaik di Indonesia 2026 Versi Webometrics dan QS WUR, Nggak Kalah Sama Negeri!
  • Inilah Cara Daftar PPKB UI 2026, Kesempatan Emas Masuk Kampus Jaket Kuning Tanpa Tes!
  • Inilah Tampilan Baru Aplikasi Cek Bansos Kemensos 2026, Cara Cek Status dan Nominal Bantuan yang Cair!
  • Inilah Aturan PIN SPMB Jatim 2026, Bisa Dipakai Berapa Kali Sih?
  • Apa itu Common Techniques in Data Classification?
  • Inilah Cara Mengatasi Error Loading File Default.rdp Saat Menggunakan Remote Desktop
  • Anak Anies, Mutiara Baswedan Sukses Lulus S2 di Harvard University Sambil Momong Anak, Inspiratif Pol!
  • Inilah Kenapa Nama Cut Salwa Viral di TikTok dan X, Bikin Netizen Penasaran Banget!
  • Inilah Panduan Lengkap Fakultas Vokasi UNY Kampus Wates 2026: Jurusan, Biaya Kuliah, dan Bedanya dengan Gunungkidul
  • Inilah Arti FOMO yang Sebenarnya dan Cara Biar Jenengan Nggak Gampang Ikut-ikutan Tren Viral
  • Inilah Perbedaan Red Flag dan Green Flag Serta Cara Mengenalinya dalam Hubungan
  • Inilah Cara Menghitung Nilai Gabungan Rapor dan TKA SPMB 2026 Supaya Peluang Lolos Makin Besar
  • Inilah Sisi Gelap Dunia Kotak-Kotak, Mengenal Creepypasta Minecraft yang Bikin Pemain Merinding Seharian
  • Inilah Caranya Plotting Bidang Tanah Mandiri Lewat Aplikasi Sentuh Tanahku Supaya Data Jenengan Makin Akurat
  • Inilah Debut Yua Mikami di Drama Netflix Sins of Kujo, Perannya Bikin Banyak Orang Kaget!
  • Inilah Alasan Kenapa Video Viral Rok Hijau di Dapur Jadi Trending Topik dan Bikin Geger Netizen
  • Inilah Arti Rizz yang Viral di Media Sosial dan Rahasia Punya Karisma Alami Tanpa Perlu Banyak Gaya
  • Inilah Cara Menghapus Game Steam Sampai Bersih Biar Penyimpanan Lega dan Library Tetap Rapi
  • Inilah Cara Melacak iPhone Hilang Biar Bisa Motret Muka Pencurinya Secara Otomatis
  • Iki Loh Mitos Jam Posting Instagram yang Sering Bikin Bingung
  • Inilah Arti Withdrawn dalam Saham dan Cara Melakukannya Biar Nggak Bingung Pas Trading
  • Inilah Cara Melihat Nilai UTBK SNBT 2026 dan Tutorial Download Sertifikat Resminya
  • Inilah Kenapa Kalian Harus Pilih View TikTok Gratis Tanpa Login Biar Akun Tetap Aman dan Cepat FYP
  • How to Secure Sudo in Linux (Secure Sudo Logging & Timeout)
  • Make Fedora Login Safe with Authselect and Faillock
  • How Measure Linux Security Use OpenSCAP Lynis and Systemd
  • SELinux Make Nginx Break and How to Fix It Easy
  • How See Hidden SELinux Errors When Your Server Is Broken
  • How to Automate Your Entire SEO Strategy Using a Swarm of 100 Free AI Agents Working in Parallel
  • How to create professional presentations easily using NotebookLM’s AI power for school projects and beyond
  • How to Master SEO Automation with Google Gemini 3.1 Flash-Lite in Google AI Studio
  • How to create viral AI video ads and complete brand assets using the Claude and Higgsfield MCP integration
  • How to Transform Your Mac Into a Supercharged AI Assistant with Perplexity Personal Computer
RSS Error: WP HTTP Error: A valid URL was not provided.

©2026 emka.web.id | Design: Newspaperly WordPress Theme