Home Opini Tes otak klasik mengungkap kelemahan terbesar AI

Tes otak klasik mengungkap kelemahan terbesar AI

3
0


Sistem AI dapat menulis esai, menjawab pertanyaan, dan memecahkan masalah kompleks. Namun penelitian baru menunjukkan bahwa mereka mungkin mengalami kesulitan melakukan sesuatu yang dilakukan manusia setiap hari: tetap fokus pada tugas yang ada saat gangguan menghalangi.

Para peneliti yang dipimpin oleh Suketu Patel melakukan eksperimen psikologis terkenal pada beberapa model AI terkemuka yang disebut tugas Stroop. Hasilnya mengungkapkan perbedaan signifikan antara cara sistem AI memproses informasi dan cara otak manusia mengelola perhatian.

Apa tugas Stroop?

Tugas Stroop adalah tes psikologi klasik yang telah digunakan selama beberapa dekade untuk mempelajari perhatian, konsentrasi, dan pengendalian diri.

Dalam pengujian tersebut, kata-kata berwarna seperti “merah”, “biru” atau “hijau” ditampilkan dengan tinta berwarna. Terkadang kata dan warna tinta cocok. Misalnya, kata “merah” mungkin muncul dengan tinta merah. Di lain waktu keduanya bertentangan, seperti kata “merah” yang dicetak dengan tinta biru.

Peserta diminta menyebutkan warna tinta daripada membaca kata itu sendiri.

Kedengarannya sederhana, namun menimbulkan tantangan karena membaca kata-kata adalah kebiasaan otomatis bagi kebanyakan orang. Otak harus menekan keinginan untuk membaca kata dan malah fokus mengidentifikasi warna tinta.

Psikolog sering menggunakan tugas ini untuk mengukur apa yang disebut kontrol eksekutif, yaitu serangkaian proses mental yang membantu orang mengatur perhatian mereka, menolak gangguan, dan tetap fokus pada tujuan mereka.

Menguji perhatian AI

Para peneliti ingin melihat apakah model bahasa besar (LLM) modern mengatasi tantangan ini dengan cara yang sama seperti manusia.

LLM adalah sistem AI di balik alat seperti ChatGPT, Claude, dan Gemini. Mereka dilatih dengan sejumlah besar teks dan mempelajari pola bahasa, sehingga memungkinkan mereka menghasilkan respons yang sering kali tampak sangat manusiawi.

Ketika diberikan daftar pilihan yang berisi lima kata berwarna, sistem AI secara umum bekerja dengan baik, meskipun kata dan warnanya tidak cocok.

Namun, situasinya berubah secara dramatis seiring dengan bertambahnya daftar.

GPT-4o mencapai akurasi 91% saat bekerja dengan lima kata. Singkatnya, akurasinya turun menjadi 57%. Ketika daftarnya bertambah menjadi empat puluh kata, akurasinya turun menjadi hanya 15%.

Claude 3.5 Soneta mempertahankan kinerja yang stabil pada daftar dua puluh kata tetapi kemudian mengalami penurunan tajam, akurasi turun hingga 24% dengan daftar empat puluh kata.

Para peneliti mengamati pola serupa di GPT-5, Claude Opus 4.1 dan Gemini 2.5.

Saat AI kehilangan fokus

Tantangannya menjadi lebih sulit ketika kata-kata berwarna yang cocok dan tidak cocok muncul bersamaan dalam daftar yang sama.

Dalam kondisi ini, kinerja semakin memburuk. Keakuratan item yang tidak kompatibel turun hingga hampir nol dalam beberapa kasus.

Menurut para peneliti, model AI kesulitan mempertahankan instruksi untuk mengidentifikasi warna tinta. Sebaliknya, mereka semakin banyak membaca kata-kata itu sendiri.

Dengan kata lain, sistem tersebut tampaknya tidak mampu secara sistematis menekan respons yang telah mereka latih secara intensif.

Penemuan ini sangat menarik karena manusia menghadapi konflik serupa. Orang-orang pada umumnya jauh lebih baik dalam membaca kata-kata daripada menyebutkan warna tinta. Namun, terlepas dari bias ini, sebagian besar individu dapat mempertahankan akurasi tinggi dan kinerja stabil bahkan ketika dihadapkan dengan daftar panjang kata dan warna yang bertentangan.

Perhatian manusia vs. perhatian mesin

Studi ini menyoroti perbedaan penting antara kecerdasan manusia dan kecerdasan buatan.

Meskipun sistem AI modern dapat menghasilkan kemampuan bahasa dan penalaran yang mengesankan, mekanisme mendasarnya berbeda dari proses perhatian yang diamati pada otak biologis.

Manusia sering kali dapat fokus pada tujuan tertentu sambil menyaring informasi yang bersaing. Hasilnya menunjukkan bahwa model AI saat ini mungkin kesulitan dengan jenis kontrol kognitif ini karena tugas yang semakin berat.

Para peneliti mengatakan penurunan kinerja yang diamati dalam eksperimen ini menunjukkan keterbatasan mendasar dari model bahasa besar saat ini. Meskipun AI kadang-kadang bisa meniru perilaku manusia, kemampuannya untuk mempertahankan perhatian nampaknya bekerja sangat berbeda dari cara manusia melakukannya.

Hasilnya mengingatkan kita bahwa sistem AI tercanggih sekalipun masih memiliki kelemahan, terutama ketika tugas memerlukan penolakan terhadap gangguan dan tetap fokus pada rangkaian informasi yang panjang.