Sebuah studi yang dipimpin WSU menemukan bahwa meskipun AI seperti ChatGPT berkinerja baik pada ujian lisensi keuangan pilihan ganda, AI tersebut kesulitan dalam tugas-tugas yang rumit dan spesifik. Temuan tersebut menunjukkan bahwa AI lebih cocok sebagai alat bantu daripada pengganti profesional keuangan.
Ketika sistem kecerdasan buatan seperti ChatGPT semakin merambah berbagai industri, studi terkini yang dipimpin oleh Washington State University menyoroti keterbatasan signifikan dalam kemampuan AI untuk menggantikan profesional keuangan manusia.
Penelitian, diterbitkan dalam Jurnal Analis Keuangan, menganalisis lebih dari 10,000 tanggapan dari model bahasa AI BARD, Llama dan ChatGPT terhadap pertanyaan ujian keuangan.
Para peneliti — Donald (DJ) Fairhurst, seorang profesor madya keuangan di Carson College of Business, WSU, dan Daniel Greene, Bill Short Associate Professor Keuangan di Wilbur O. dan Ann Powers College of Business, Clemson — tidak hanya mencari jawaban yang tepat tetapi juga penjelasan terperinci untuk mengukur pemahaman dan penalaran AI dibandingkan dengan para ahli manusia.
“Lulus ujian sertifikasi saja tidak cukup. Kita perlu menggali lebih dalam untuk mengetahui apa saja yang bisa dilakukan oleh model-model ini,” kata Fairhurst dalam sebuah pernyataan. rilis berita.
Meskipun ChatGPT, khususnya versi berbayarnya 4.0, menunjukkan kinerja unggul dalam memberikan jawaban yang akurat dan mirip manusia, namun masih kurang dalam skenario yang lebih terspesialisasi.
"Untuk konsep-konsep umum yang sudah lama dijelaskan dengan baik di internet, ChatGPT dapat melakukan pekerjaan yang sangat baik dalam mensintesis konsep-konsep tersebut. Jika ini adalah masalah yang spesifik dan khusus, ChatGPT akan benar-benar kesulitan," tambah Fairhurst.
Studi ini menggunakan pertanyaan dari berbagai ujian perizinan, termasuk Seri 6, 7, 65, dan 66, yang mencerminkan tugas dunia nyata yang dilakukan oleh para profesional keuangan. Model AI menunjukkan akurasi tinggi di berbagai bidang seperti transaksi sekuritas dan pemantauan tren pasar. Namun, mereka kesulitan dengan masalah yang lebih rumit, seperti menentukan cakupan asuransi dan status pajak klien.
Fairhurst dan Greene juga bereksperimen dengan menyempurnakan ChatGPT 3.5 dengan menyediakan contoh tanggapan dan penjelasan yang benar, yang secara signifikan meningkatkan akurasinya, menyaingi ChatGPT 4.0.
Penelitian ini terus berlanjut saat tim, termasuk mahasiswa doktoral WSU Adam Bozman, mengeksplorasi tugas-tugas keuangan lainnya seperti mengevaluasi potensi kesepakatan merger. Mengingat bahwa data pelatihan ChatGPT hanya berlaku hingga September 2021, mereka mengujinya terhadap hasil yang diketahui dari kesepakatan yang dibuat setelah tanggal tersebut. Hasil awal menunjukkan bahwa model AI berkinerja buruk dalam domain ini, menegaskan kembali gagasan bahwa AI belum siap untuk pengambilan keputusan keuangan yang kompleks.
Implikasi dari temuan ini menunjukkan bahwa AI, meskipun merupakan alat yang hebat, paling baik digunakan untuk membantu profesional keuangan berpengalaman daripada menggantikan mereka.
“Masih terlalu dini untuk khawatir tentang ChatGPT yang mengambil alih pekerjaan keuangan sepenuhnya,” tambah Fairhurst.
Namun, munculnya AI dapat mengubah struktur peran tingkat pemula di bank investasi.
"Praktik mendatangkan sekelompok orang sebagai analis junior, membiarkan mereka bersaing dan mempertahankan para pemenang – itu menjadi jauh lebih mahal. Jadi itu mungkin berarti penurunan dalam jenis pekerjaan tersebut, tetapi itu bukan karena ChatGPT lebih baik daripada para analis, itu karena kami telah meminta para analis junior untuk melakukan tugas-tugas yang lebih kasar," Fairhurst menambahkan.
Seiring terus berkembangnya AI, perbincangan seputar perannya di sektor keuangan niscaya akan terus berlanjut. Studi ini menandai langkah penting dalam memahami potensi dan keterbatasan teknologi AI seperti ChatGPT dalam profesi khusus.