Sebuah studi baru mengkaji kemampuan perangkat AI Midjourney dan DALL·E dalam menghasilkan gambar dari teks. Para peneliti menemukan bahwa meskipun program AI ini dapat menghasilkan gambar yang estetis, mereka seringkali kesulitan dengan instruksi dasar dan mencerminkan bias budaya.
Di dunia dengan perkembangan pesat kecerdasan buatan, tim peneliti telah memulai misi untuk memahami kemampuan dan keterbatasan perangkat AI populer, Midjourney dan DALL·E. Program AI generatif ini telah menarik perhatian karena kemampuannya mengubah deskripsi tertulis menjadi seni visual, tetapi bisakah mereka benar-benar menangkap esensi ide kita?
Sebuah studi kolaboratif yang melibatkan para ilmuwan dari Universitas Liège di Belgia, Universitas Lorraine, dan EHESS di Prancis berupaya menjawab pertanyaan ini. Dengan menggabungkan keahlian di bidang semiotika, ilmu komputer, dan sejarah seni, para peneliti secara cermat menganalisis gambar yang dihasilkan oleh sistem AI ini berdasarkan berbagai kriteria, seperti bentuk, warna, dan susunan elemen.
"Pendekatan kami didasarkan pada serangkaian uji coba yang ketat," ujar rekan penulis Maria Giulia Dondero, seorang ahli semiotika dan direktur penelitian FNRS di Universitas Liège, dalam sebuah rilis berita. "Kami mengajukan permintaan yang sangat spesifik kepada kedua sistem AI ini dan menganalisis gambar yang dihasilkan berdasarkan kriteria humaniora, seperti susunan bentuk, warna, tatapan, dinamisme spesifik gambar diam, ritme penyebarannya, dan sebagainya."
Temuan, diterbitkan dalam jurnal Semiotic Review, mengungkap bahwa meskipun alat AI seperti Midjourney dan DALL·E dapat menghasilkan gambar yang menarik secara visual, mereka sering kali mengalami kendala saat mengikuti instruksi langsung.
Misalnya, perintah yang melibatkan negasi, seperti "seekor anjing tanpa ekor", sering kali menghasilkan gambar anjing berekor atau ketidakakuratan lainnya. Demikian pula, menggambarkan hubungan spasial yang kompleks, seperti "dua perempuan di balik pintu", menghadirkan tantangan yang signifikan.
AI juga kesulitan dengan tindakan dan urutan waktu, terkadang menafsirkan "bertarung" sebagai menari atau gagal menggambarkan perkembangan tindakan seperti "mulai makan" atau "selesai makan".
“GAI ini memungkinkan kita merefleksikan cara pandang dan representasi dunia kita sendiri,” tambah penulis utama Enzo D'Armenio, mantan peneliti di ULiège dan kini profesor muda di Universitas Lorraine. “GAI ini mereproduksi stereotip visual dari basis datanya, yang seringkali dibangun dari citra Barat, dan mengungkap keterbatasan penerjemahan antara bahasa verbal dan visual.”
Tim peneliti memvalidasi hasil mereka melalui pengulangan, melakukan hingga 50 generasi per prompt untuk memastikan ketahanan statistik. Mereka menemukan ciri-ciri estetika yang khas dalam model: Midjourney cenderung menghasilkan gambar yang "estetis" dengan hiasan, sementara DALL·E menawarkan kontrol komposisi yang lebih baik tetapi bervariasi dalam jumlah dan orientasi objek.
Meskipun kemampuannya menarik, model AI pada dasarnya bersifat statistik, menghasilkan hasil yang paling mungkin berdasarkan set data pelatihan dan konfigurasi yang ditetapkan oleh pembuatnya. Hal ini seringkali mengarah pada penguatan stereotip budaya.
Misalnya, perintah “CEO memberikan pidato” mungkin menghasilkan gambar yang didominasi laki-laki dari beberapa model dan sebagian besar perempuan dari model lainnya, yang menyoroti bias yang tertanam dalam data pelatihan mereka.
“GAI menghasilkan hasil yang paling masuk akal berdasarkan basis data pelatihan dan pengaturan (terkadang editorial) perancangnya,” tambah rekan penulis Adrien Deliège, seorang matematikawan di ULiège, “pilihan-pilihan ini mungkin menstandardisasi pandangan dan menyampaikan atau mengubah stereotip.”
Para peneliti menekankan pentingnya menggunakan alat interdisipliner dari humaniora untuk mengevaluasi teknologi ini.
“Perangkat AI bukan sekadar perangkat otomatis,” simpul D'Armenio. “Perangkat tersebut menerjemahkan kata-kata kita sesuai logikanya sendiri, dipengaruhi oleh basis data dan algoritmanya. Humaniora memiliki peran penting dalam memahami dan mengevaluasinya.”
Studi ini menggarisbawahi potensi sekaligus keterbatasan citra yang dihasilkan AI saat ini, menunjukkan bahwa meskipun perangkat ini dapat membantu memvisualisasikan ide, penerapannya masih belum sempurna. Integrasi humaniora ke dalam proses evaluasi sangat penting untuk pemahaman yang komprehensif tentang implikasi budaya dan simbolisnya.
Sumber: Universitas Liège

