Skip to content

emka.web.id

menulis pengetahuan – merekam peradaban

Menu
  • Home
  • Tutorial
  • Search
Menu

Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut

Posted on April 10, 2024

Ferret-UI could power advanced Siri | Concept image of Siri logo in thought bubble
Makalah penelitian Apple menjelaskan bagaimana perusahaan mengembangkan Ferret-UI, sistem AI generatif yang dirancang khusus untuk dapat memahami layar aplikasi.

Makalah ini agak kabur mengenai potensi penerapan hal ini – mungkin memang sengaja dilakukan – namun kemungkinan yang paling menarik adalah memberdayakan Siri yang jauh lebih canggih…

Tantangan dalam melampaui ChatGPT

Model Bahasa Besar (LLM) adalah kekuatannya sistem seperti ChatGPT. Materi pelatihannya berupa teks, sebagian besar diambil dari website.

MLLM – atau Model Bahasa Besar Multimodal – bertujuan untuk memperluas kemampuan sistem AI untuk memahami informasi non-tekstual juga: gambar, video, dan audio.

MLLM saat ini tidak begitu baik dalam memahami keluaran aplikasi seluler. Ada beberapa alasan untuk hal ini, dimulai dari alasan biasa yaitu rasio aspek layar ponsel cerdas berbeda dari yang digunakan oleh sebagian besar gambar pelatihan.

Lebih khusus lagi, banyak gambar yang perlu mereka kenali, seperti ikon dan tombol, berukuran sangat kecil.

Selain itu, daripada memahami informasi dalam satu pukulan, seperti saat menafsirkan gambar statis, mereka harus dapat berinteraksi dengan aplikasi.

Ferret-UI

Apple Ini adalah masalah yang diyakini telah dipecahkan oleh para peneliti Apple dengan sistem MLLM yang mereka sebut Ferret-UI (UI adalah singkatan dari antarmuka pengguna).

Mengingat bahwa layar UI biasanya menampilkan rasio aspek yang lebih memanjang dan berisi objek menarik yang lebih kecil (misalnya, ikon, teks) dibandingkan gambar alami, kami menggabungkan “resolusi apa pun” di atas Ferret untuk memperbesar detail dan memanfaatkan fitur visual yang disempurnakan [… ]

Kami dengan cermat mengumpulkan sampel pelatihan dari berbagai tugas dasar UI, seperti pengenalan ikon, menemukan teks, dan daftar widget. Sampel ini diformat untuk mengikuti instruksi dengan anotasi wilayah guna memfasilitasi rujukan dan landasan yang tepat. Untuk meningkatkan kemampuan penalaran model, kami menyusun lebih lanjut kumpulan data untuk tugas-tugas tingkat lanjut, termasuk deskripsi mendetail, percakapan persepsi/interaksi, dan inferensi fungsi.

Hasilnya, kata mereka, lebih baik daripada GPT-4V dan MLLM lain yang berfokus pada UI.

Dari pengembangan UI, hingga Siri

yang sangat canggih Makalah ini menjelaskan apa yang telah mereka capai, bukan bagaimana hal itu dapat digunakan. Hal ini umum terjadi pada banyak makalah penelitian, dan mungkin ada beberapa alasan untuk hal ini.

Pertama, para peneliti sendiri mungkin tidak mengetahui bagaimana karya mereka pada akhirnya akan digunakan. Mereka fokus pada pemecahan masalah teknis, bukan pada potensi penerapannya. Mungkin diperlukan orang produk untuk melihat cara-cara potensial untuk memanfaatkannya.

Kedua, terutama jika berkaitan dengan Apple, mereka mungkin diperintahkan untuk tidak mengungkapkan tujuan penggunaan, atau dengan sengaja tidak menjelaskannya.

Namun kita dapat melihat tiga cara potensial untuk menggunakan kemampuan ini…

Pertama, ini bisa menjadi alat yang berguna untuk mengevaluasi efektivitas UI. Pengembang dapat membuat versi draf suatu aplikasi, lalu membiarkan Ferret-UI menentukan seberapa mudah atau sulitnya aplikasi tersebut untuk dipahami dan digunakan. Ini bisa lebih cepat dan lebih murah dibandingkan pengujian kegunaan manusia.

Dua, bisa memiliki aplikasi aksesibilitas. Daripada pembaca layar sederhana yang membacakan semua yang ada di layar iPhone kepada orang buta, misalnya, ia merangkum apa yang ditampilkan layar, dan mencantumkan opsi yang tersedia. Pengguna kemudian dapat memberi tahu iOS apa yang ingin mereka lakukan, dan membiarkan sistem melakukannya untuk mereka.

Apple memberikan contohnya, di mana Ferret-UI dihadirkan dengan layar berisi acara podcast. Keluaran sistem adalah: “Layar ini untuk aplikasi podcast tempat pengguna dapat menelusuri dan memutar podcast baru dan terkenal, dengan opsi untuk memutar, mengunduh, dan mencari podcast tertentu.”

Tiga – dan yang paling menarik – ini dapat digunakan untuk mendukung bentuk Siri yang sangat canggih, di mana pengguna dapat memberikan instruksi kepada Siri seperti “Periksa penerbangan dari JFK ke Boston besok, dan pesan kursi di penerbangan yang akan antar saya ke sana paling lambat jam 10 pagi dengan total ongkos di bawah $200.” Siri kemudian akan berinteraksi dengan aplikasi maskapai untuk melaksanakan tugas tersebut.

Terima kasih, AK. Gambar komposit 9to5Mac dari Solen Feyissa di Unsplash dan Apple.

Itulah konten tentang Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut, semoga bermanfaat.

Terbaru

  • Inilah Cara Mengatasi OneDrive yang Suka Mengubah atau Menghapus Metadata File Kalian
  • Inilah Cara Menonaktifkan Antivirus Pihak Ketiga di Windows 11 dengan Aman
  • Inilah Cara Mengatur Raspberry Pi 5 dengan Ubuntu Server untuk Python dan Desktop GUI Tanpa Ribet
  • Inilah Alasan Kenapa Galaxy Z Fold 8 Ultra Bisa Jadi Produk yang Mengecewakan
  • Inilah Alasan Intel Merilis Raptor Lake Next di Socket LGA 1700, Masih Setia dengan DDR4!
  • Gini Caranya Menghilangkan Recycle Bin dari Desktop Windows 11 Supaya Lebih Bersih!
  • Inilah Huawei AirEngine 8771-X1T, Solusi Wi-Fi 7 Super Cepat untuk Bisnis Masa Kini
  • Inilah Cara Mengatasi Error Koneksi VMware Horizon Akibat Intersepsi SSL Proxy
  • Inilah Cara Mengatasi Connection Server Authentication Failed di VMware Horizon Client
  • Cara Laptop Nggak Lemot Pas Colok SD Card, Gampang Banget!
  • Inilah Caranya Mengatasi SD Card Reader yang Tidak Terbaca di Laptop
  • Inilah Cara Ampuh Atasi Perangkat USB yang Sering Terputus di Windows 10 dan 11
  • Cara Atasi USB Error dengan Update USB Root Hub dan Chipset Driver
  • Inilah Cara Mengatasi Unknown USB Device Descriptor Request Failed yang Paling Ampuh
  • Inilah 20 Kampus Swasta Terbaik di Bandung Versi EduRank 2026 untuk Referensi Kuliah Kalian
  • Inilah Syarat dan Cara Daftar Sekolah Kedinasan STPN 2026, Kuota Terbatas!
  • Inilah Cara Daftar PPKB UI 2026 Lengkap dengan Rincian Uang Pangkal Semua Jurusan S1
  • Inilah Aturan Resmi MPLS 2026 dari Kemendikdasmen, Guru dan Sekolah Wajib Catat Pedoman Lengkap Ini!
  • Inilah Cara Daftar Beasiswa S1/D4 Guru Kemendikdasmen 2026, Masa Pendaftaran Diperpanjang!
  • Inilah Cara Mengatasi Unknown USB Device (Device Descriptor Request Failed) dan Penjelasan Lengkapnya
  • Inilah Cara Membuat File Koneksi RDP Secara Manual Biar Akses Remote Kalian Nggak Error Lagi
  • Inilah Cara Clear RDP Cache dan Registry MRU Biar Remote Desktop Kalian Kembali Segar
  • Cara Restore File Association .rdp Agar Remote Desktop Bisa Terbuka Otomatis Lagi
  • Apa itu Probabilistic Methods dalam Klasifikasi Data?
  • Apa itu Klasifikasi Data dengan Metode Feature Selection?
  • Inilah Panduan Lengkap Jalur Afirmasi Disabilitas SPMB Kota Malang 2026, Simak Syarat dan Jadwalnya!
  • Inilah Cara Lengkap Daftar UM Undip 2026: Panduan Teknis, Jadwal, dan Syarat Biar Nggak Salah Langkah!
  • Inilah Daftar Kampus Swasta Terbaik di Indonesia 2026 Versi Webometrics dan QS WUR, Nggak Kalah Sama Negeri!
  • Inilah Cara Daftar PPKB UI 2026, Kesempatan Emas Masuk Kampus Jaket Kuning Tanpa Tes!
  • Inilah Tampilan Baru Aplikasi Cek Bansos Kemensos 2026, Cara Cek Status dan Nominal Bantuan yang Cair!
  • Deploy Nginx Rootful Container with Podman
  • How to Sandboxing Browser on Linux Desktop with Flatpak
  • How to Hardening Journald on Linux Server (Fedora/AlmaLinux)
  • Block Bad USB on Linux Server with USBGuard
  • How to Secure NetworkManager on Fedora/AlmaLinux
  • How to Automate Your Entire SEO Strategy Using a Swarm of 100 Free AI Agents Working in Parallel
  • How to create professional presentations easily using NotebookLM’s AI power for school projects and beyond
  • How to Master SEO Automation with Google Gemini 3.1 Flash-Lite in Google AI Studio
  • How to create viral AI video ads and complete brand assets using the Claude and Higgsfield MCP integration
  • How to Transform Your Mac Into a Supercharged AI Assistant with Perplexity Personal Computer
  • Inilah Update Pasar Saham AS 31 Mei 2026: Menakar Peluang S&P 500 dan Nasib Sektor Teknologi Saat Inflasi Belum Jinak
  • Sinyal Update Kondisi Pasar IHSG 31 Mei 2026: Strategi Cerdas Menghadapi Gejolak IHSG dan Rupiah di Awal Juni
  • Inilah Alasan Ilmiah Kenapa Kita Menguap, Ternyata Bukan Cuma Kurang Oksigen!
  • Inilah Alasan China Larang PR Berlebihan dan Ujian Berat, Ternyata Demi Kesehatan Mental Siswa!
  • Inilah Cara Cek Peluang Lolos SNBT Unair 2026 dan Daftar Lengkap Daya Tampungnya

©2026 emka.web.id | Design: Newspaperly WordPress Theme