Sebuah studi baru dari University of Birmingham mengusulkan penggunaan wawasan sosiolinguistik untuk meningkatkan model bahasa yang lebih besar, dengan mengatasi berbagai masalah penting seperti bias sosial dan misinformasi. Para peneliti menyoroti kebutuhan mendesak akan data bahasa yang beragam untuk menciptakan sistem AI yang lebih adil dan lebih etis.
Penelitian baru dari University of Birmingham mengungkap jalur penting untuk meningkatkan model bahasa besar (LLM) dengan mengintegrasikan prinsip-prinsip sosiolinguistik. Pendekatan inovatif ini dapat secara signifikan meningkatkan keadilan dan keandalan sistem kecerdasan buatan seperti ChatGPT, mengatasi masalah misinformasi dan bias sosial yang umum terjadi.
Penelitian, diterbitkan dalam Frontiers in Artificial Intelligence, menekankan bahwa sistem AI populer sering kali gagal karena kekurangan dalam basis data bahasa yang digunakan untuk pelatihannya. Basis data ini gagal untuk secara akurat mewakili beragam dialek, register, dan perubahan temporal yang melekat pada bahasa apa pun, yang mengarah pada keluaran AI yang dapat mengabadikan stereotip dan ketidakakuratan yang merugikan.
“Ketika diminta, AI generatif seperti ChatGPT mungkin lebih cenderung menghasilkan penggambaran negatif tentang etnis dan gender tertentu, tetapi penelitian kami menawarkan solusi tentang bagaimana LLM dapat dilatih dengan cara yang lebih berprinsip untuk mengurangi bias sosial,” kata penulis utama Jack Grieve, seorang profesor di Departemen Linguistik dan Komunikasi di Universitas Birmingham, dalam sebuah pernyataan. rilis berita.
Studi ini menunjukkan bahwa jika LLM disempurnakan pada kumpulan data yang mencerminkan spektrum penuh keragaman bahasa, nilai sosial sistem AI ini dapat ditingkatkan secara signifikan. Pendekatan ini dapat menyeimbangkan representasi kelompok sosial dan konteks yang berbeda, memastikan bahwa sistem AI tidak hanya lebih akurat tetapi juga lebih etis.
“Kami mengusulkan agar peningkatan keragaman sosiolinguistik data pelatihan jauh lebih penting daripada sekadar memperluas skalanya,” imbuh Grieve. “Karena semua alasan ini, kami yakin ada kebutuhan yang jelas dan mendesak untuk wawasan sosiolinguistik dalam desain dan evaluasi LLM.”
Implikasi dari penelitian ini sangat luas. Dengan menanamkan pemahaman yang lebih mendalam tentang struktur masyarakat dan dampaknya terhadap penggunaan bahasa ke dalam desain LLM, penelitian ini membuka jalan bagi sistem AI yang melayani manusia dengan lebih baik. Karena AI terus menanamkan dirinya di berbagai sektor masyarakat, mulai dari layanan pelanggan hingga rekomendasi yang dipersonalisasi, memastikan sistem ini beroperasi tanpa bias menjadi sangat penting.