Sebuah studi komprehensif baru menyoroti semakin tidak dapat diandalkannya model bahasa AI tingkat lanjut, yang mengungkap ketidaksesuaian signifikan antara kinerja dan ekspektasi manusia. Para peneliti menekankan perlunya perubahan mendasar dalam desain dan pengembangan AI.
Sebuah studi baru yang dipelopori oleh para peneliti dari Institut Valencia untuk Penelitian Kecerdasan Buatan (VRAIN) di Universitas Politeknik Valencia (UPV), Sekolah Pascasarjana Valencia dan Jaringan Penelitian Kecerdasan Buatan (ValgrAI) dan Universitas Cambridge telah mengungkap temuan mengejutkan tentang keandalan model bahasa besar.
Kemajuan terkini dalam AI, termasuk model seperti GPT milik OpenAI, LLaMA milik Meta, dan BLOOM, telah memikat dunia dengan kemampuan pemecahan masalah yang ditingkatkan. Akan tetapi, hasil studi menunjukkan bahwa model-model ini sering kali gagal dalam tugas yang lebih sederhana, meskipun mereka mahir dalam tugas yang lebih rumit.
“Model dapat menyelesaikan tugas-tugas rumit tertentu sesuai dengan kemampuan manusia, tetapi pada saat yang sama, mereka gagal dalam tugas-tugas sederhana dalam domain yang sama. Misalnya, mereka dapat menyelesaikan beberapa masalah matematika tingkat PhD. Namun, mereka dapat melakukan penjumlahan sederhana yang salah,” kata José Hernández-Orallo, seorang peneliti di VRAIN UPV dan ValgrAI, dalam sebuah pernyataan. rilis berita.
Penelitian ini menyelidiki tiga aspek krusial yang memengaruhi keandalan model-model ini.
Ketidakcocokan Tingkat Kesulitan Tugas
Penelitian tersebut, diterbitkan dalam jurnal Nature, mengungkap perbedaan signifikan antara tugas yang dianggap sulit bagi manusia dan kinerja model pada tugas tersebut.
“[T]idak ada 'zona aman' di mana model dapat dipercaya untuk bekerja dengan sempurna,” imbuh Yael Moros Daval, seorang peneliti di VRAIN UPV, yang menekankan ketidakkonsistenan tersebut.
Kecenderungan Menjawab Salah
Model-model terkini lebih cenderung memberikan jawaban yang salah daripada tidak menjawab tugas-tugas yang tidak pasti, suatu kontras yang mencolok dengan perilaku manusia.
“Hal ini memberikan tanggung jawab kepada pengguna untuk mendeteksi kesalahan selama semua interaksi mereka dengan model,” imbuh Lexin Zhou, seorang peneliti di VRAIN UPV.
Kepekaan terhadap Pernyataan Masalah
Perumusan pertanyaan yang efektif masih menjadi tantangan. Pertanyaan yang berhasil dalam tugas yang rumit mungkin masih gagal dalam tugas yang lebih sederhana.
“Pengguna dapat terpengaruh oleh perintah yang berfungsi dengan baik dalam tugas-tugas yang rumit tetapi, pada saat yang sama, mendapatkan jawaban yang salah dalam tugas-tugas yang sederhana,” tambah rekan penulis Cèsar Ferri, seorang peneliti di VRAIN UPV dan ValgrAI.
Implikasi
Implikasi dari temuan ini sangat mendalam, terutama untuk AI serbaguna yang digunakan dalam aplikasi berisiko tinggi. Para peneliti berpendapat bahwa pengawasan manusia tidak dapat sepenuhnya mengimbangi masalah keandalan yang melekat ini karena pengguna terlalu percaya diri pada model ini.
“Hasil penelitian kami menunjukkan bahwa perubahan mendasar diperlukan dalam desain dan pengembangan AI untuk keperluan umum,” simpul Wout Schellaert, seorang peneliti di VRAIN UPV.
Ajakan bertindak ini bergema seiring penggunaan AI yang terus meluas ke area penting seperti perawatan kesehatan, keuangan, dan sistem otonom.