Chatbot AI yang Dipersonalisasi Berisiko Menjadi Penurut Tanpa Bertindak

Seiring semakin banyaknya chatbot AI yang mempelajari tentang kita, mereka mungkin menjadi terlalu bersemangat untuk setuju. Sebuah studi baru dari MIT dan Penn State menunjukkan bagaimana personalisasi secara diam-diam dapat mengubah alat bantu yang bermanfaat menjadi antek digital yang selalu setuju.

Ketika chatbot AI favorit Anda mengingat preferensi dan percakapan Anda sebelumnya, rasanya hampir seperti teman tepercaya. Namun penelitian baru Penelitian dari MIT dan Penn State University menunjukkan bahwa personalisasi semacam ini secara diam-diam dapat mendorong model bahasa besar, atau LLM, untuk menjadi penurut digital β€” lebih cenderung setuju daripada mengoreksi Anda.

Dalam percakapan sehari-hari yang panjang, tim menemukan bahwa fitur personalisasi dapat membuat LLM (Learning Language Models) lebih cenderung mencerminkan pendapat pengguna dan kurang cenderung mengatakan ketika pengguna salah. Pola tersebut, yang dikenal sebagai penjilatan, dapat merusak akurasi, memperkuat bias politik, dan membantu membangun ruang gema yang kuat.

Para peneliti memfokuskan perhatian pada dua jenis penjilatan: penjilatan berdasarkan kesepakatan, ketika sebuah model menjadi terlalu setuju bahkan dengan mengorbankan kebenaran, dan penjilatan berdasarkan perspektif, ketika sebuah model mulai mencerminkan nilai-nilai atau pandangan politik pengguna kepada mereka.

Dari sudut pandang pengguna, perubahan itu mungkin sulit untuk dikenali.

β€œDari perspektif pengguna, karya ini menyoroti betapa pentingnya memahami bahwa model-model ini bersifat dinamis dan perilakunya dapat berubah seiring interaksi Anda dengannya dari waktu ke waktu. Jika Anda berbicara dengan model dalam jangka waktu yang lama dan mulai menyerahkan pemikiran Anda kepadanya, Anda mungkin akan terjebak dalam ruang gema yang tidak dapat Anda hindari. Itu adalah risiko yang harus diingat oleh pengguna,” kata penulis utama Shomik Jain, seorang mahasiswa pascasarjana di Institut Data, Sistem, dan Masyarakat MIT, dalam siaran pers.

Berbeda dengan banyak penelitian sebelumnya yang menguji sikap menjilat dengan petunjuk terisolasi di laboratorium, proyek ini mengikuti orang-orang yang menggunakan chatbot AI dalam kehidupan nyata mereka.

Tim tersebut membangun antarmuka obrolan di sekitar LLM dan merekrut 38 peserta untuk menggunakannya selama dua minggu seperti yang biasa mereka lakukan β€” untuk meminta saran, penjelasan, atau pertanyaan sehari-hari. Semua pesan setiap orang tetap berada dalam jendela konteks yang sama, sehingga model dapat memanfaatkan riwayat percakapan lengkap, mirip dengan chatbot komersial yang menyimpan memori.

Selama dua minggu, para peneliti mengumpulkan rata-rata sekitar 90 kueri per pengguna. Kemudian mereka membandingkan bagaimana lima LLM (Learning Language Model) yang berbeda berperilaku ketika mereka memiliki akses ke riwayat percakapan yang kaya ini dibandingkan ketika mereka tidak memiliki konteks sebelumnya sama sekali.

Satu pola yang jelas muncul: konteks sangatlah penting.

β€œKami menggunakan model-model ini melalui interaksi yang panjang, dan model-model ini memiliki banyak konteks dan memori. Tetapi metode evaluasi kami masih tertinggal. Kami ingin mengevaluasi LLM (Learning Learning Models) dengan cara yang sebenarnya digunakan orang untuk memahami bagaimana model-model tersebut berperilaku di lingkungan nyata,” tambah penulis senior bersama, Dana Calacci, seorang asisten profesor di Penn State.

Dalam empat dari lima model, akses ke konteks interaksi meningkatkan sanjungan persetujuan. Peningkatan terbesar terjadi ketika model diberi profil pengguna yang ringkas β€” ringkasan tentang siapa pengguna tersebut dan apa yang mereka pedulikan β€” yang disimpan dalam memorinya. Fitur profil semacam itu semakin banyak diintegrasikan ke dalam produk AI baru untuk membuatnya terasa lebih sesuai dan bermanfaat.

Studi ini juga mengungkapkan efek yang lebih mengejutkan: bahkan teks percakapan acak dan sintetis yang tidak mengandung informasi pengguna sebenarnya terkadang mendorong model untuk lebih setuju. Hal itu menunjukkan bahwa sekadar melakukan percakapan panjang β€” terlepas dari apa yang sebenarnya dikatakan β€” dapat mendorong beberapa model menuju sikap yang lebih setuju.

Namun, penjilatan perspektif lebih bergantung pada konten. Riwayat percakapan hanya meningkatkan pencerminan keyakinan politik ketika hal itu mengungkapkan sesuatu tentang pandangan pengguna. Untuk menyelidiki hal ini, para peneliti meminta model untuk menyimpulkan kecenderungan politik setiap pengguna dari log obrolan, kemudian menanyakan kepada peserta apakah kesimpulan tersebut akurat. Pengguna mengatakan bahwa model tersebut menebak politik mereka dengan benar sekitar setengah dari waktu.

Temuan itu menyoroti risiko ganda: seiring model semakin mahir membaca makna tersirat dalam percakapan kita, mereka mungkin juga semakin mahir merefleksikan keyakinan kita kembali kepada kita, sehingga semakin sulit untuk menemukan sudut pandang alternatif.

β€œKita sudah banyak mengetahui tentang manfaat menjalin hubungan sosial dengan orang-orang yang memiliki sudut pandang serupa atau berbeda. Namun, kita belum mengetahui manfaat atau risiko dari interaksi jangka panjang dengan model AI yang memiliki atribut serupa,” tambah Calacci.

Penelitian ini juga menggarisbawahi betapa besar perubahan perilaku AI setelah model digunakan sesuai dengan cara manusia sebenarnya menggunakannya: dalam obrolan panjang, rumit, dan kaya konteks, bukan dalam perintah singkat dan jelas.

β€œKami menemukan bahwa konteks benar-benar secara fundamental mengubah cara model-model ini beroperasi, dan saya berani bertaruh bahwa fenomena ini akan meluas jauh melampaui sikap menjilat. Dan meskipun sikap menjilat cenderung meningkat, hal itu tidak selalu terjadi. Itu benar-benar bergantung pada konteksnya sendiri,” tambah penulis senior bersama Ashia Wilson, Profesor Pengembangan Karir Lister Brothers di Departemen Teknik Elektro dan Ilmu Komputer MIT.

Untuk menjalankan studi semacam ini, tim harus tetap melibatkan manusia, meminta peserta untuk memvalidasi apa yang disimpulkan model tentang mereka dan menganalisis percakapan nyata alih-alih kasus uji sintetis.

β€œMudah untuk mengatakan, jika dilihat dari sudut pandang masa lalu, bahwa perusahaan AI seharusnya melakukan evaluasi semacam ini. Tetapi hal itu sulit dan membutuhkan banyak waktu serta investasi. Menggunakan manusia dalam siklus evaluasi itu mahal, tetapi kami telah menunjukkan bahwa hal itu dapat mengungkap wawasan baru,” tambah Jain.

Meskipun tujuan utamanya adalah untuk memahami masalah tersebut, para peneliti juga menjabarkan beberapa kemungkinan jalan ke depan.

Salah satu idenya adalah merancang model yang lebih selektif tentang apa yang mereka anggap sebagai konteks yang relevan, sehingga mereka tidak bereaksi berlebihan terhadap setiap detail dalam riwayat pengguna. Ide lainnya adalah membangun sistem yang dapat mendeteksi kapan mereka terlalu setuju atau mencerminkan pandangan pengguna dan menandai atau menyesuaikan respons tersebut. Pengembang juga dapat memberi pengguna lebih banyak kendali atas personalisasi, terutama dalam obrolan yang berlangsung lama β€” misalnya, membiarkan mereka mengurangi penggunaan memori atau mematikan jenis penyesuaian tertentu.

β€œAda banyak cara untuk mempersonalisasi model tanpa membuatnya terlalu mudah dibujuk. Batasan antara personalisasi dan penjilatan bukanlah garis tipis, tetapi memisahkan personalisasi dari penjilatan adalah area penting untuk penelitian di masa mendatang,” tambah Jain.

Bagi mahasiswa, profesional, dan pengguna sehari-hari yang semakin bergantung pada alat AI, pesannya bukanlah untuk meninggalkan personalisasi, tetapi untuk mendekatinya dengan mata terbuka. Chatbot yang dipersonalisasi dapat menjadi alat bantu yang ampuh, tetapi mereka juga dapat secara diam-diam memperkuat asumsi kita, terutama ketika kita berhenti memeriksa ulang jawaban mereka.

β€œPada akhirnya, kita membutuhkan cara yang lebih baik untuk menangkap dinamika dan kompleksitas dari apa yang terjadi selama percakapan panjang dengan para LLM, dan bagaimana berbagai hal dapat menjadi tidak selaras selama proses jangka panjang tersebut,” tambah Wilson.

Tim tersebut berharap studi mereka akan mendorong perusahaan dan peneliti AI untuk menguji model dalam kondisi yang lebih realistis dan jangka panjang β€” serta untuk merancang personalisasi yang mendukung pemikiran kritis, bukan menggantikannya.

Sumber: Massachusetts Institute of Technology