Skip to content

emka.web.id

menulis pengetahuan – merekam peradaban

Menu
  • Home
  • Tutorial
  • Search
Menu

Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut

Posted on April 10, 2024

Ferret-UI could power advanced Siri | Concept image of Siri logo in thought bubble
Makalah penelitian Apple menjelaskan bagaimana perusahaan mengembangkan Ferret-UI, sistem AI generatif yang dirancang khusus untuk dapat memahami layar aplikasi.

Makalah ini agak kabur mengenai potensi penerapan hal ini – mungkin memang sengaja dilakukan – namun kemungkinan yang paling menarik adalah memberdayakan Siri yang jauh lebih canggih…

Tantangan dalam melampaui ChatGPT

Model Bahasa Besar (LLM) adalah kekuatannya sistem seperti ChatGPT. Materi pelatihannya berupa teks, sebagian besar diambil dari website.

MLLM – atau Model Bahasa Besar Multimodal – bertujuan untuk memperluas kemampuan sistem AI untuk memahami informasi non-tekstual juga: gambar, video, dan audio.

MLLM saat ini tidak begitu baik dalam memahami keluaran aplikasi seluler. Ada beberapa alasan untuk hal ini, dimulai dari alasan biasa yaitu rasio aspek layar ponsel cerdas berbeda dari yang digunakan oleh sebagian besar gambar pelatihan.

Lebih khusus lagi, banyak gambar yang perlu mereka kenali, seperti ikon dan tombol, berukuran sangat kecil.

Selain itu, daripada memahami informasi dalam satu pukulan, seperti saat menafsirkan gambar statis, mereka harus dapat berinteraksi dengan aplikasi.

Ferret-UI

Apple Ini adalah masalah yang diyakini telah dipecahkan oleh para peneliti Apple dengan sistem MLLM yang mereka sebut Ferret-UI (UI adalah singkatan dari antarmuka pengguna).

Mengingat bahwa layar UI biasanya menampilkan rasio aspek yang lebih memanjang dan berisi objek menarik yang lebih kecil (misalnya, ikon, teks) dibandingkan gambar alami, kami menggabungkan “resolusi apa pun” di atas Ferret untuk memperbesar detail dan memanfaatkan fitur visual yang disempurnakan [… ]

Kami dengan cermat mengumpulkan sampel pelatihan dari berbagai tugas dasar UI, seperti pengenalan ikon, menemukan teks, dan daftar widget. Sampel ini diformat untuk mengikuti instruksi dengan anotasi wilayah guna memfasilitasi rujukan dan landasan yang tepat. Untuk meningkatkan kemampuan penalaran model, kami menyusun lebih lanjut kumpulan data untuk tugas-tugas tingkat lanjut, termasuk deskripsi mendetail, percakapan persepsi/interaksi, dan inferensi fungsi.

Hasilnya, kata mereka, lebih baik daripada GPT-4V dan MLLM lain yang berfokus pada UI.

Dari pengembangan UI, hingga Siri

yang sangat canggih Makalah ini menjelaskan apa yang telah mereka capai, bukan bagaimana hal itu dapat digunakan. Hal ini umum terjadi pada banyak makalah penelitian, dan mungkin ada beberapa alasan untuk hal ini.

Pertama, para peneliti sendiri mungkin tidak mengetahui bagaimana karya mereka pada akhirnya akan digunakan. Mereka fokus pada pemecahan masalah teknis, bukan pada potensi penerapannya. Mungkin diperlukan orang produk untuk melihat cara-cara potensial untuk memanfaatkannya.

Kedua, terutama jika berkaitan dengan Apple, mereka mungkin diperintahkan untuk tidak mengungkapkan tujuan penggunaan, atau dengan sengaja tidak menjelaskannya.

Namun kita dapat melihat tiga cara potensial untuk menggunakan kemampuan ini…

Pertama, ini bisa menjadi alat yang berguna untuk mengevaluasi efektivitas UI. Pengembang dapat membuat versi draf suatu aplikasi, lalu membiarkan Ferret-UI menentukan seberapa mudah atau sulitnya aplikasi tersebut untuk dipahami dan digunakan. Ini bisa lebih cepat dan lebih murah dibandingkan pengujian kegunaan manusia.

Dua, bisa memiliki aplikasi aksesibilitas. Daripada pembaca layar sederhana yang membacakan semua yang ada di layar iPhone kepada orang buta, misalnya, ia merangkum apa yang ditampilkan layar, dan mencantumkan opsi yang tersedia. Pengguna kemudian dapat memberi tahu iOS apa yang ingin mereka lakukan, dan membiarkan sistem melakukannya untuk mereka.

Apple memberikan contohnya, di mana Ferret-UI dihadirkan dengan layar berisi acara podcast. Keluaran sistem adalah: “Layar ini untuk aplikasi podcast tempat pengguna dapat menelusuri dan memutar podcast baru dan terkenal, dengan opsi untuk memutar, mengunduh, dan mencari podcast tertentu.”

Tiga – dan yang paling menarik – ini dapat digunakan untuk mendukung bentuk Siri yang sangat canggih, di mana pengguna dapat memberikan instruksi kepada Siri seperti “Periksa penerbangan dari JFK ke Boston besok, dan pesan kursi di penerbangan yang akan antar saya ke sana paling lambat jam 10 pagi dengan total ongkos di bawah $200.” Siri kemudian akan berinteraksi dengan aplikasi maskapai untuk melaksanakan tugas tersebut.

Terima kasih, AK. Gambar komposit 9to5Mac dari Solen Feyissa di Unsplash dan Apple.

Itulah konten tentang Apple mengajarkan sistem AI untuk memahami layar aplikasi – dapat mendukung Siri tingkat lanjut, semoga bermanfaat.

Terbaru

  • Cara Kelola Auto-Posting Semua Media Sosial Kalian Pakai Metricool
  • Studi Kasus Sukses Instagram Maria Wendt Dapat 12 Juta View Instagram Per Bulan
  • ZenBook S16, Vivobook Pro 15 OLED, ProArt PX13, dan ROG Zephyrus G14, Laptop Bagus dengan Layar OLED!
  • Caranya Ngebangun Website Directory dengan Traffic Tinggi dalam Seminggu!
  • Cara Mengembangkan Channel YouTube Shorts Tanpa Wajah
  • Inilah Cara Menghitung Diskon Baju Lebaran Biar Nggak Bingung Saat Belanja di Mall!
  • Cara Jitu Ngebangun Bisnis SaaS di Era AI Pakai Strategi Agentic Workflow
  • Inilah Rincian Gaji Polri Lulusan Baru 2026, Cek Perbedaan Jalur Akpol, Bintara, dan Tamtama Sebelum Daftar!
  • Inilah 5 Channel YouTube Membosankan yang Diam-diam Menghasilkan Banyak Uang
  • Inilah Cara Pakai Google Maps Offline Biar Mudik Lebaran 2026 Nggak Nyasar Meski Tanpa Sinyal!
  • Inilah Alasan Mahkamah Agung Tolak Kasasi Google, Denda Rp202,5 Miliar Resmi Menanti Akibat Praktik Monopoli
  • Inilah Cara Daftar dan Syarat SPMB SMK Boarding Jawa Tengah 2026, Sekolah Gratis Sampai Lulus!
  • Inilah Daftar Sekolah Kedinasan 2026 untuk Lulusan SMK, Bisa Kuliah Gratis dan Berpeluang Besar Langsung Jadi CPNS!
  • Inilah Pajak TER: Skema Baru PPh 21 yang Nggak Bikin Pusing, Begini Cara Hitungnya!
  • Inilah Jadwal Resmi Jam Buka Tol Jogja-Solo Segmen Prambanan-Purwomartani Saat Mudik Lebaran 2026
  • Inilah Cara Mendapatkan Witherbloom di Fisch Roblox, Rahasia Menangkap Ikan Paling Sulit di Toxic Grove!
  • Kenapa Indomart Point Bisa Kalahkan Bisnis Kafe?
  • Inilah Cara Mendapatkan Rotten Seed di Fisch Roblox, Lokasi Rahasia di Toxic Grove Buat Unlock Toxic Lotus!
  • Inilah Cara Zakat Crypto Kalian Bisa Jadi Pengurang Pajak Berdasarkan Aturan Resmi Pemerintah!
  • Inilah Perbandingan Airwallex vs Payoneer 2026: Jangan Sampai Profit Kalian Ludes Gara-Gara Biaya Admin!
  • Inilah Roadmap 7 Tahap Bangun Bisnis Digital dari Nol Biar Nggak Cuma Putar-Putar di Tempat!
  • Inilah Cara Tetap Gajian dari YouTube Meski View Masih Ratusan, Penasaran?
  • Inilah Alasan Akun TikTok Affiliate GMV 270 Juta Kena Banned Permanen!
  • Inilah Bahaya Astute Beta Server APK, Jangan Sembarang Klik Link Download FF Kipas 2026!
  • Inilah Bahaya Nonton Film di LK21 dan IndoXXI, Awas Data Pribadi dan Saldo Rekening Kalian Bisa Ludes!
  • Inilah Kronologi & Video Lengkap Kasus Sejoli Tambelangan Sampang Viral, Ternyata Gini Awal Mulanya!
  • Inilah Alasan Kenapa Koin Nego Neko Shopee Nggak Bisa Dipakai Bayar Full dan Cara Rahasia Dapetinnya!
  • Inilah Cara Menjawab Pertanyaan Apakah di Sekolahmu Sudah Ada IFP/PID dengan Benar dan Profesional
  • Inilah Fakta Isu Roblox Diblokir di Indonesia 2026, Benarkah Akan Ditutup Total?
  • Inilah Penyebab dan Cara Mengatasi FF Kipas My ID Verify UID Biar Akun Tetap Aman
  • How to Recover Lost Windows Passwords with a Decryptor Tool
  • How to Fix Python Not Working in VS Code Terminal: A Troubleshooting Guide
  • Game File Verification Stuck at 0% or 99%: What is it and How to Fix the Progress Bar?
  • Why Does PowerPoint Underline Hyperlinks? Here is How to Remove Them
  • AI Bug Hunting with Semgrep
  • How to Do Professional AI Prompting in Nano Banana 2
  • How to Create Agent & Automation in Minutes with Sim AI
  • Claude Code Tips: Don’t Overuse SKILL.md!
  • How to Planning Cinematic AI Film Production: A Step-by-Step Tutorial Using LitMedia Tools
  • 6 Innovative AI Tools for 2026: From Voice Cloning to Advanced Automation Systems
  • Apa itu Spear-Phishing via npm? Ini Pengertian dan Cara Kerjanya yang Makin Licin
  • Apa Itu Predator Spyware? Ini Pengertian dan Kontroversi Penghapusan Sanksinya
  • Mengenal Apa itu TONESHELL: Backdoor Berbahaya dari Kelompok Mustang Panda
  • Siapa itu Kelompok Hacker Silver Fox?
  • Apa itu CVE-2025-52691 SmarterMail? Celah Keamanan Paling Berbahaya Tahun 2025

©2026 emka.web.id | Design: Newspaperly WordPress Theme