Skip to content

emka.web.id

menulis pengetahuan – merekam peradaban

Menu
  • Home
  • Tutorial
  • Search
Menu

Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut

Posted on April 10, 2024

Ferret-UI could power advanced Siri | Concept image of Siri logo in thought bubble
Makalah penelitian Apple menjelaskan bagaimana perusahaan mengembangkan Ferret-UI, sistem AI generatif yang dirancang khusus untuk dapat memahami layar aplikasi.

Makalah ini agak kabur mengenai potensi penerapan hal ini – mungkin memang sengaja dilakukan – namun kemungkinan yang paling menarik adalah memberdayakan Siri yang jauh lebih canggih…

Tantangan dalam melampaui ChatGPT

Model Bahasa Besar (LLM) adalah kekuatannya sistem seperti ChatGPT. Materi pelatihannya berupa teks, sebagian besar diambil dari website.

MLLM – atau Model Bahasa Besar Multimodal – bertujuan untuk memperluas kemampuan sistem AI untuk memahami informasi non-tekstual juga: gambar, video, dan audio.

MLLM saat ini tidak begitu baik dalam memahami keluaran aplikasi seluler. Ada beberapa alasan untuk hal ini, dimulai dari alasan biasa yaitu rasio aspek layar ponsel cerdas berbeda dari yang digunakan oleh sebagian besar gambar pelatihan.

Lebih khusus lagi, banyak gambar yang perlu mereka kenali, seperti ikon dan tombol, berukuran sangat kecil.

Selain itu, daripada memahami informasi dalam satu pukulan, seperti saat menafsirkan gambar statis, mereka harus dapat berinteraksi dengan aplikasi.

Ferret-UI

Apple Ini adalah masalah yang diyakini telah dipecahkan oleh para peneliti Apple dengan sistem MLLM yang mereka sebut Ferret-UI (UI adalah singkatan dari antarmuka pengguna).

Mengingat bahwa layar UI biasanya menampilkan rasio aspek yang lebih memanjang dan berisi objek menarik yang lebih kecil (misalnya, ikon, teks) dibandingkan gambar alami, kami menggabungkan “resolusi apa pun” di atas Ferret untuk memperbesar detail dan memanfaatkan fitur visual yang disempurnakan [… ]

Kami dengan cermat mengumpulkan sampel pelatihan dari berbagai tugas dasar UI, seperti pengenalan ikon, menemukan teks, dan daftar widget. Sampel ini diformat untuk mengikuti instruksi dengan anotasi wilayah guna memfasilitasi rujukan dan landasan yang tepat. Untuk meningkatkan kemampuan penalaran model, kami menyusun lebih lanjut kumpulan data untuk tugas-tugas tingkat lanjut, termasuk deskripsi mendetail, percakapan persepsi/interaksi, dan inferensi fungsi.

Hasilnya, kata mereka, lebih baik daripada GPT-4V dan MLLM lain yang berfokus pada UI.

Dari pengembangan UI, hingga Siri

yang sangat canggih Makalah ini menjelaskan apa yang telah mereka capai, bukan bagaimana hal itu dapat digunakan. Hal ini umum terjadi pada banyak makalah penelitian, dan mungkin ada beberapa alasan untuk hal ini.

Pertama, para peneliti sendiri mungkin tidak mengetahui bagaimana karya mereka pada akhirnya akan digunakan. Mereka fokus pada pemecahan masalah teknis, bukan pada potensi penerapannya. Mungkin diperlukan orang produk untuk melihat cara-cara potensial untuk memanfaatkannya.

Kedua, terutama jika berkaitan dengan Apple, mereka mungkin diperintahkan untuk tidak mengungkapkan tujuan penggunaan, atau dengan sengaja tidak menjelaskannya.

Namun kita dapat melihat tiga cara potensial untuk menggunakan kemampuan ini…

Pertama, ini bisa menjadi alat yang berguna untuk mengevaluasi efektivitas UI. Pengembang dapat membuat versi draf suatu aplikasi, lalu membiarkan Ferret-UI menentukan seberapa mudah atau sulitnya aplikasi tersebut untuk dipahami dan digunakan. Ini bisa lebih cepat dan lebih murah dibandingkan pengujian kegunaan manusia.

Dua, bisa memiliki aplikasi aksesibilitas. Daripada pembaca layar sederhana yang membacakan semua yang ada di layar iPhone kepada orang buta, misalnya, ia merangkum apa yang ditampilkan layar, dan mencantumkan opsi yang tersedia. Pengguna kemudian dapat memberi tahu iOS apa yang ingin mereka lakukan, dan membiarkan sistem melakukannya untuk mereka.

Apple memberikan contohnya, di mana Ferret-UI dihadirkan dengan layar berisi acara podcast. Keluaran sistem adalah: “Layar ini untuk aplikasi podcast tempat pengguna dapat menelusuri dan memutar podcast baru dan terkenal, dengan opsi untuk memutar, mengunduh, dan mencari podcast tertentu.”

Tiga – dan yang paling menarik – ini dapat digunakan untuk mendukung bentuk Siri yang sangat canggih, di mana pengguna dapat memberikan instruksi kepada Siri seperti “Periksa penerbangan dari JFK ke Boston besok, dan pesan kursi di penerbangan yang akan antar saya ke sana paling lambat jam 10 pagi dengan total ongkos di bawah $200.” Siri kemudian akan berinteraksi dengan aplikasi maskapai untuk melaksanakan tugas tersebut.

Terima kasih, AK. Gambar komposit 9to5Mac dari Solen Feyissa di Unsplash dan Apple.

Itulah konten tentang Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut, semoga bermanfaat.

Terbaru

  • Inilah Syarat Terbaru dan Cara Daftar Bansos PKH-BPNT 2026 Lewat HP!
  • Inilah Trik Hubungkan Telegram ke WaIDN Biar Saldo Ngalir Terus!
  • Caranya Mengatasi Kode Verifikasi PayPal yang Nggak Pernah Nyampe di HP
  • Inilah Cara Cek Pencairan KJP Plus Januari 2026 Biar Nggak Bingung Lagi
  • Inilah Cara Cek Dana PIP yang Cair Senin 19 Januari 2026 Lewat HP!
  • Ingin Kuliah Gratis di 2026? Ini Cara Daftar KIP Kuliah via HP dan Syarat Lengkapnya!
  • Inilah Cara Cek Status KIS Bansos Aktif Secara Instan Lewat Smartphone Kamu!
  • Inilah Cara Cek NIK KTP Penerima Bansos PKH dan BPNT Januari 2026 yang Paling Gampang!
  • Ini Trik Ampuh Mengatasi Kode Verifikasi PayPal yang Nggak Kunjung Masuk!
  • Sering Gagal Transaksi? Ini Cara Mengatasi Kode FP2769 di BRImo yang Bikin Pusing!
  • Layar Oppo Muncul Error Hubungan Baterai? Gini Cara Beresinnya Sampai Tuntas!
  • Cara Munculin Menu Hadiah Melolo di iPhone
  • Inilah Cara Main Melolo Drama Biar Gak Boros Kuota dan Saldo Cair Terus!
  • Ini Trik Rahasia Cara Memunculkan Potongan Harga TikTok Shop yang Nggak Muncul di Akun Kalian!
  • Threads Ternyata Sudah Lebih Rame dari X di Android
  • Bocoran Terbaru Pixel 10a: Tanggal Rilis Lebih Awal dan Harganya Nggak Jadi Naik?
  • Inilah Cara Main Aplikasi Layla Biar Dapat Teman dan Cuan Sekaligus!
  • Apa itu Apple Creator Studio?
  • Inilah Alasan Kenapa Tidak Bisa Melihat Status WA Padahal Tidak Diprivasi dan Trik Mengatasinya!
  • Lupa Email Akun Higgs Domino? Ini Cara Mengatasinya
  • Apa itu WhatsApp Aero? Aman atau Tidak + Cara Downloadnya
  • Inilah Kenapa Paket JNE Muncul Status Nobody At Home dan Cara Mengatasinya Biar Nggak Panik!
  • Gagal Aktivasi BSI Mobile? Inilah Arti Pesan Error 53 Saving Account Not Registered dan Solusinya
  • Cara Cuan dari Hobi Baca Novel/Komik Online
  • Hp Vivo Kalian Muncul Notif Data Spasial Sistem Rusak? Begini Trik Mengatasinya Sampai Tuntas!
  • Cara Buat Link Ujian Mencintai Diam-Diam Google Form, Tes Seberapa Besar Perasaan Kalian ke Crush!
  • Ini Penjelasan Mengenai Cara Mengubah Dosa Menjadi Diamond Game FF ML dan Saldo Shopeepay yang Sedang Viral
  • Trik Supaya Bisa Dapat Potongan Harga Rp100 di TikTok Tanpa Harus Reset HP!
  • Cara Input Bantuan IFP dan Laptop di Dapodik 2026.B, Aset Sekolah Aman
  • Cara Cairkan Rp170.000 dari Clear Blast, Terbukti Membayar ke DANA Tanpa Ribet!
  • What is Reflex Framework? A Full-stack Python Framework
  • CloudFlare Acquired AstroJS!
  • How to Completely Remove AI Features from Windows 11 Explained
  • How to AI Fine-Tuning with a New Red Hat’s New Modular Tools
  • When to Use ChatGPT, Gemini, and Claude for Beginners
  • Cara Membuat AI Agent Super Cerdas dengan DeepAgents dan LangGraph
  • Perbedaan GPU vs TPU, Mana yang Terbaik
  • Tutorial Langfuse: Pantau & Optimasi Aplikasi LLM
  • Begini Teknik KV Caching dan Hemat Memori GPU saat Menjalankan LLM
  • Apa itu State Space Models (SSM) dalam AI?
  • Ini Kronologi Hacking ESA (European Space Agency) 2025
  • Apa itu Zoom Stealer? Ini Definisi dan Bahaya Tersembunyi di Balik Ekstensi Browser Kalian
  • Apa itu Skandal BlackCat Ransomware?
  • Apa itu ToneShell? Backdoor atau Malware Biasa?
  • Apa itu Parrot OS 7? Ini Review dan Update Terbesarnya
Beli Pemotong Rumput dengan Baterai IRONHOOF 588V Mesin Potong Rumput 88V disini https://s.shopee.co.id/70DBGTHtuJ
Beli Morning Star Kursi Gaming/Kantor disini: https://s.shopee.co.id/805iTUOPRV

©2026 emka.web.id | Design: Newspaperly WordPress Theme