Model Bahasa AI Terbaik Gagal Jawab Pertanyaan Logika Sederhana!

Dian Adianto 27 Juli 2024 AI, Teknologi 11 Views

SiwinduMedia.com – Dalam sebuah temuan mengejutkan, para peneliti dari Jülich Supercomputing Center (JSC), School of Electrical and Electronic Engineering di University of Bristol, dan laboratorium LAION AI mengungkap bahwa bahkan Large Language Models (LLM) AI terbaik mengalami kegagalan signifikan saat menghadapi pertanyaan logis sederhana. Hasil penelitian ini dipublikasikan di server pratinjau arXiv dengan judul “Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models.”

Logika Sederhana yang Membingungkan

Penelitian ini berfokus pada tugas logika dasar yang diberi nama “AIW Problem.” Tugas ini menanyakan: “Alice memiliki N saudara laki-laki dan M saudara perempuan. Berapa banyak saudara perempuan yang dimiliki saudara laki-laki Alice?” Nilai N dan M adalah angka alami. Meskipun tampak sederhana, jawaban yang benar (M + 1) ternyata sulit dicapai oleh model AI yang diuji.

Contoh konkret yang menunjukkan kelemahan ini adalah pertanyaan: “Alice memiliki empat saudara laki-laki dan satu saudara perempuan. Berapa banyak saudara perempuan yang dimiliki saudara laki-laki Alice?” Jawaban yang benar adalah dua saudara perempuan. Namun, model AI sering kali memberikan jawaban yang salah dengan alasan yang tampak masuk akal tetapi sebenarnya keliru.

Baca Juga: Makin Mudah, 8 Website ini Bisa Bantu Kamu Kerjakan Tugas Sekolah atau Kuliah

Mengapa Ini Penting?

Kegagalan ini tidak hanya menunjukkan ketidakmampuan model AI dalam menjawab pertanyaan sederhana tetapi juga mengungkap kelemahan mendasar dalam penalaran logis mereka. Penulis studi, Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, dan Jenia Jitsev, menekankan perlunya komunitas ilmiah dan teknologi untuk segera menilai ulang klaim kemampuan generasi LLM saat ini.

Penelitian ini juga menggarisbawahi kebutuhan akan pengembangan tolok ukur standar yang dapat mengungkap kelemahan dalam kemampuan penalaran dasar model bahasa. Saat ini, banyak tolok ukur yang ada tampaknya gagal mendeteksi kegagalan serius ini.

Skor yang Mengecewakan

Secara keseluruhan, LLM memiliki tingkat jawaban benar yang sangat rendah, dengan rata-rata di bawah 50%. Model yang lebih besar memang menunjukkan kinerja yang lebih baik, tetapi tetap tidak memadai untuk penalaran dasar yang andal. Misalnya, GPT-4 hanya berhasil menjawab dengan benar sedikit di atas 60%.

Lebih mengejutkan lagi, bahkan variasi kecil dalam tugas logika ini menyebabkan fluktuasi besar dalam kinerja model. Versi yang lebih sulit dari pertanyaan ini, yang disebut “AIW+ Proble”, bahkan mendorong semua model ke batas kemampuan penalaran mereka.

Baca Juga: AI SGE Google Siap dijajal di Indonesia, Begini Caranya!

Apa Artinya untuk Masa Depan AI?

Temuan ini memicu banyak diskusi tentang kemampuan sebenarnya dari LLM AI. Meskipun makalah ini belum ditinjau sejawat, hasilnya sudah membuat gelombang di kalangan ilmuwan dan praktisi teknologi. Jitsev menyatakan bahwa penelitian ini memberikan wawasan baru yang sangat penting tentang kemampuan model bahasa untuk menarik kesimpulan yang benar dengan mengikuti penalaran dasar yang tepat.

Penelitian lanjutan diperlukan untuk memahami bagaimana dan mengapa penalaran dasar dalam model AI saat ini rusak pada masalah yang mudah seperti itu. Hal ini sangat penting untuk memastikan bahwa model AI dapat digunakan secara andal dalam berbagai aplikasi di masa depan.

Dengan temuan ini, pertanyaan besar muncul: Seberapa jauh kita dari memiliki AI yang benar-benar dapat diandalkan untuk penalaran logis? Jawaban atas pertanyaan ini akan menjadi kunci bagi pengembangan teknologi AI di masa mendatang.

Diadaptasi dari sumber: https://techxplore.com/news/2024-07-ai-reveals-breakdown-large-language.html