Skip to content

emka.web.id

menulis pengetahuan – merekam peradaban

Menu
  • Home
  • Tutorial
  • Search
Menu

Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut

Posted on April 10, 2024

Ferret-UI could power advanced Siri | Concept image of Siri logo in thought bubble
Makalah penelitian Apple menjelaskan bagaimana perusahaan mengembangkan Ferret-UI, sistem AI generatif yang dirancang khusus untuk dapat memahami layar aplikasi.

Makalah ini agak kabur mengenai potensi penerapan hal ini – mungkin memang sengaja dilakukan – namun kemungkinan yang paling menarik adalah memberdayakan Siri yang jauh lebih canggih…

Tantangan dalam melampaui ChatGPT

Model Bahasa Besar (LLM) adalah kekuatannya sistem seperti ChatGPT. Materi pelatihannya berupa teks, sebagian besar diambil dari website.

MLLM – atau Model Bahasa Besar Multimodal – bertujuan untuk memperluas kemampuan sistem AI untuk memahami informasi non-tekstual juga: gambar, video, dan audio.

MLLM saat ini tidak begitu baik dalam memahami keluaran aplikasi seluler. Ada beberapa alasan untuk hal ini, dimulai dari alasan biasa yaitu rasio aspek layar ponsel cerdas berbeda dari yang digunakan oleh sebagian besar gambar pelatihan.

Lebih khusus lagi, banyak gambar yang perlu mereka kenali, seperti ikon dan tombol, berukuran sangat kecil.

Selain itu, daripada memahami informasi dalam satu pukulan, seperti saat menafsirkan gambar statis, mereka harus dapat berinteraksi dengan aplikasi.

Ferret-UI

Apple Ini adalah masalah yang diyakini telah dipecahkan oleh para peneliti Apple dengan sistem MLLM yang mereka sebut Ferret-UI (UI adalah singkatan dari antarmuka pengguna).

Mengingat bahwa layar UI biasanya menampilkan rasio aspek yang lebih memanjang dan berisi objek menarik yang lebih kecil (misalnya, ikon, teks) dibandingkan gambar alami, kami menggabungkan “resolusi apa pun” di atas Ferret untuk memperbesar detail dan memanfaatkan fitur visual yang disempurnakan [… ]

Kami dengan cermat mengumpulkan sampel pelatihan dari berbagai tugas dasar UI, seperti pengenalan ikon, menemukan teks, dan daftar widget. Sampel ini diformat untuk mengikuti instruksi dengan anotasi wilayah guna memfasilitasi rujukan dan landasan yang tepat. Untuk meningkatkan kemampuan penalaran model, kami menyusun lebih lanjut kumpulan data untuk tugas-tugas tingkat lanjut, termasuk deskripsi mendetail, percakapan persepsi/interaksi, dan inferensi fungsi.

Hasilnya, kata mereka, lebih baik daripada GPT-4V dan MLLM lain yang berfokus pada UI.

Dari pengembangan UI, hingga Siri

yang sangat canggih Makalah ini menjelaskan apa yang telah mereka capai, bukan bagaimana hal itu dapat digunakan. Hal ini umum terjadi pada banyak makalah penelitian, dan mungkin ada beberapa alasan untuk hal ini.

Pertama, para peneliti sendiri mungkin tidak mengetahui bagaimana karya mereka pada akhirnya akan digunakan. Mereka fokus pada pemecahan masalah teknis, bukan pada potensi penerapannya. Mungkin diperlukan orang produk untuk melihat cara-cara potensial untuk memanfaatkannya.

Kedua, terutama jika berkaitan dengan Apple, mereka mungkin diperintahkan untuk tidak mengungkapkan tujuan penggunaan, atau dengan sengaja tidak menjelaskannya.

Namun kita dapat melihat tiga cara potensial untuk menggunakan kemampuan ini…

Pertama, ini bisa menjadi alat yang berguna untuk mengevaluasi efektivitas UI. Pengembang dapat membuat versi draf suatu aplikasi, lalu membiarkan Ferret-UI menentukan seberapa mudah atau sulitnya aplikasi tersebut untuk dipahami dan digunakan. Ini bisa lebih cepat dan lebih murah dibandingkan pengujian kegunaan manusia.

Dua, bisa memiliki aplikasi aksesibilitas. Daripada pembaca layar sederhana yang membacakan semua yang ada di layar iPhone kepada orang buta, misalnya, ia merangkum apa yang ditampilkan layar, dan mencantumkan opsi yang tersedia. Pengguna kemudian dapat memberi tahu iOS apa yang ingin mereka lakukan, dan membiarkan sistem melakukannya untuk mereka.

Apple memberikan contohnya, di mana Ferret-UI dihadirkan dengan layar berisi acara podcast. Keluaran sistem adalah: “Layar ini untuk aplikasi podcast tempat pengguna dapat menelusuri dan memutar podcast baru dan terkenal, dengan opsi untuk memutar, mengunduh, dan mencari podcast tertentu.”

Tiga – dan yang paling menarik – ini dapat digunakan untuk mendukung bentuk Siri yang sangat canggih, di mana pengguna dapat memberikan instruksi kepada Siri seperti “Periksa penerbangan dari JFK ke Boston besok, dan pesan kursi di penerbangan yang akan antar saya ke sana paling lambat jam 10 pagi dengan total ongkos di bawah $200.” Siri kemudian akan berinteraksi dengan aplikasi maskapai untuk melaksanakan tugas tersebut.

Terima kasih, AK. Gambar komposit 9to5Mac dari Solen Feyissa di Unsplash dan Apple.

Itulah konten tentang Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut, semoga bermanfaat.

Terbaru

  • Inilah Spesifikasi Vivo Y31d Pro, HP Murah dengan Baterai 7.000 mAh dan Bodi Tahan Banting Ekstrem
  • Inilah 5 Rekomendasi HP Samsung dengan Fitur NFC Terbaik yang Bikin Hidup Makin Praktis dan Satset
  • Inilah Deretan HP Vivo dengan Kamera Stabilizer Terbaik 2026, Cocok Banget Buat Konten Kreator Modal Minim!
  • Cara Mendapatkan Lead dan Rekomendasi SEO dari ChatGPT dan Claude (Update Tahun 2026)
  • Inilah Rekomendasi HP Infinix Kamera Bagus dan RAM Besar Paling Juara Buat Konten dan Gaming!
  • Inilah Trik Supaya Koneksi Indosat Makin Kencang, Tutorial Setting APN Terbaru 2026!
  • Inilah 7 HP Xiaomi NFC Termurah 2025, Dompet Aman Aktivitas Tetap Lancar!
  • Inilah 5 Rekomendasi HP Samsung dengan Fitur NFC Termurah dan Terbaik untuk Kebutuhan Harian Kalian
  • Inilah Rekomendasi HP Vivo Harga 2 Jutaan dengan Fitur Stabilizer Kamera Terbaik untuk Konten Kreator
  • Inilah 5 HP Infinix Kamera Bagus dan RAM Besar, Bikin Konten Jadi Makin Estetik!
  • Inilah Alasan Kenapa Lenovo Yoga Tab Bakal Jadi Tablet AI Paling Gahar di Tahun 2026
  • Inilah Bocoran Tecno Pova 8 dan Spark 50 Pro, HP dengan Baterai Monster Sampai 7.750mAh!
  • Inilah Alasan Kenapa Poco X8 Pro Series Ludes Terjual 30 Ribu Unit dalam Sehari, Performanya Benar-Benar Naik Kelas!
  • Inilah Rekomendasi HP Samsung dengan Kamera Terbaik 2025, Hasil Foto Dijamin Kayak Profesional!
  • Inilah Kemudahan Belanja Elektronik Lewat Kolaborasi Strategis Indodana Finance dan Sharp Indonesia
  • Inilah Rekomendasi Smartwatch Mirip Apple Watch Termurah 2026 yang Bikin Gaya Makin Maksimal
  • Inilah Cara Cek Lokasi UTBK 2026 Agar Tidak Salah Alamat dan Terlambat
  • Inilah Realme Narzo 100 Lite 5G, Smartphone Baterai 7000mAh yang Siap Meluncur dengan Spesifikasi Gahar dan Layar Super Smooth
  • Inilah Alasan Kenapa Aplikasi MOVA Berbahaya dan Bukan Cara Cepat Kaya yang Aman
  • Inilah Huawei Watch GT Runner 2, Smartwatch Keren yang Siap Bikin Lari Kalian Makin Kencang dan Presisi!
  • Inilah Panduan Lengkap Mengunduh dan Mencetak Kartu Peserta UTBK 2026 Biar Nggak Salah Langkah
  • Apa itu Satgas PKH? Tim Khusus yang Bakal Sikat Penguasaan Hutan Ilegal di Indonesia
  • Inilah REDMI Pad 2 SE, Tablet Murah dengan Layar 2K yang Siap Bikin Nyaman Mata Kalian
  • Apa itu msgstore.db.crypt14 di WhatsApp? Jangan Asal Hapus Kalau Nggak Mau Chat Hilang!
  • Inilah Fakta di Balik Kasus Siswi 15 Tahun di Langkat yang Viral Jadi Tersangka Usai Bela Ayahnya
  • Inilah 7 HP Redmi Kamera Terbaik 2026 dengan Resolusi 200 MP, Kualitas Flagship Harga Tetap Irit!
  • Inilah Bahaya dan Cara Kerja Unlock FF Beta Server Account Apk Mobilitado yang Lagi Viral
  • Inilah 5 Laptop Lenovo Paling Awet dan Tangguh Buat Investasi Jangka Panjang Kalian
  • Inilah Kronologi Tragis Mahasiswa PNP Padang Ditemukan Meninggal di Kamar Kos 11 April 2026
  • Inilah Kenapa Akun WhatsApp Kalian Sedang Ditinjau dan Cara Mengatasinya Biar Normal Lagi
  • Is it Time to Replace Nano? Discover Fresh, the Terminal Text Editor You Actually Want to Use
  • How to Design a Services Like Google Ads
  • How to Fix 0x800ccc0b Outlook Error: Step-by-Step Guide for Beginners
  • How to Fix NVIDIA App Error on Windows 11: Simple Guide
  • How to Fix Excel Formula Errors: Quick Fixes for #NAME
  • How to use Gamma AI as a complete design engine for professional presentations and graphics
  • A beginner tutorial on the Claude Advisor: Learn how to boost your AI agent’s intelligence with the advisor strategy
  • Complete tutorial on building a powerful AI knowledge graph with Obsidian and Claude Code
  • Complete Tutorial: How to Master New Google Gemini’s New Interactive 3D Visualizations and Simulations
  • How to Coordinate Multiple AI Agents with the Claude Teams Observer Pattern: A Step-by-Step Tutorial
  • Apa itu Spear-Phishing via npm? Ini Pengertian dan Cara Kerjanya yang Makin Licin
  • Apa Itu Predator Spyware? Ini Pengertian dan Kontroversi Penghapusan Sanksinya
  • Mengenal Apa itu TONESHELL: Backdoor Berbahaya dari Kelompok Mustang Panda
  • Siapa itu Kelompok Hacker Silver Fox?
  • Apa itu CVE-2025-52691 SmarterMail? Celah Keamanan Paling Berbahaya Tahun 2025

©2026 emka.web.id | Design: Newspaperly WordPress Theme