Ketika raksasa teknologi global berusaha untuk mendefinisikan kembali suara sebagai antarmuka utama berikutnya untuk kecerdasan buatan (AI), perusahaan teknologi dan telekomunikasi lokal juga mempercepat upaya mereka untuk menjadi yang terdepan di bidang ini dengan layanan AI yang dioptimalkan dalam bahasa Korea dan teknologi multimoda.
Perubahan cepat ini terjadi ketika perusahaan global termasuk Google, Apple, Microsoft, dan Meta mengintegrasikan suara ke dalam agen AI dan perangkat yang terhubung, memungkinkan sistem yang dapat memahami konteks, melaksanakan tugas, dan berinteraksi secara alami dengan pengguna di seluruh perangkat dan lingkungan.
Google baru-baru ini memperkenalkan Gemini Intelligence, fitur AI baru di Android yang didukung oleh teknologi agen Gemini AI, pada Android Show: I/O Edition awal bulan ini. Tidak seperti asisten suara sebelumnya yang sebagian besar terbatas pada perintah singkat seperti menyetel alarm, sistem baru ini dirancang untuk mengotomatisasi tugas multi-langkah termasuk reservasi, pembelian, dan pemesanan makanan di seluruh aplikasi.
Apple juga diperkirakan akan memperkenalkan versi Siri yang ditingkatkan secara signifikan pada Konferensi Pengembang Seluruh Dunia bulan depan. Siri baru diharapkan berfungsi sebagai agen AI yang mampu mengatur tugas antar aplikasi sekaligus memanfaatkan model eksternal seperti ChatGPT OpenAI dan Gemini Google, mengubah iPhone menjadi platform AI asli.
Perusahaan ini juga telah membuat taruhan agresif pada antarmuka suara, dengan mengakuisisi startup AI suara Israel Q.ai senilai hampir $2 miliar pada bulan Januari, mendapatkan akses ke teknologi yang menganalisis gerakan otot wajah untuk menafsirkan ucapan diam. Ini merupakan akuisisi terbesar kedua yang pernah dilakukan Apple.
Prospek pasar juga mendorong momentum investasi. Menurut Fortune Business Insights, pasar pengenalan suara global diperkirakan akan tumbuh dari $23,7 miliar pada tahun ini menjadi sekitar $104 miliar pada tahun 2034, mewakili tingkat pertumbuhan tahunan gabungan sebesar 20,3%.
Salah satu model menggunakan layanan agen A.AI (Adot) SK Telecom. Atas perkenan SK Telecom
Perubahan ini menandai peralihan dari asisten suara sebelumnya yang terbatas pada perintah sederhana ke generasi baru yang mampu memahami kontekstual dan melaksanakan tugas multi-langkah – kemampuan yang sangat berharga dalam lingkungan hands-free seperti kendaraan.
Dengan latar belakang ini, perusahaan-perusahaan dalam negeri juga berupaya untuk mendapatkan pijakan dalam ekosistem AI suara, dengan fokus pada bahasa lokal untuk nuansa Korea, bahasa gaul, dan konteks percakapan, serta penerapan di dunia nyata di seluruh perangkat.
Operator telekomunikasi memimpin dalam hal ini. SK Telecom meluncurkan A.auto, versi tertanam dari agen AI-nya A. (Adot), awal tahun ini, menerapkannya dalam model baru yang diluncurkan oleh Renault Korea, Filante. Didukung oleh model bahasa Korea besar milik perusahaan, AX 4.0, sistem ini tidak hanya dapat menangani perintah standar seperti navigasi dan pemutaran musik, tetapi juga bahasa sehari-hari, mengubah kendaraan menjadi ruang pribadi yang dibantu AI.
Perusahaan ini dengan cepat berkembang melampaui ponsel pintar ke dalam ekosistem yang lebih luas, dengan mengintegrasikan sistem panduan suara bertenaga AI ke dalam platform Btv IPTV dan layanan navigasi TMap.
KT menargetkan pasar AI rumahan melalui agen AI Genie TV, yang memungkinkan pengguna berinteraksi secara percakapan mengenai berita, cuaca, konten pendidikan, dan informasi harian melalui perintah suara.
Sebuah robot mendemonstrasikan agen ixi-O AI LG Uplus di stan perusahaan selama MWC26 di Barcelona, Spanyol, 2 Maret. Seal Press Body
Sementara itu, LG Uplus sedang mengembangkan agen panggilan ixi-O AI, layanan suara bertenaga AI yang menganalisis konteks percakapan, nada, dan sinyal emosional secara real-time selama panggilan berlangsung. Layanan ini menawarkan kemampuan transkripsi dan peringkasan panggilan sekaligus mendeteksi potensi ancaman selama percakapan seperti penipuan phishing suara, sehingga memposisikannya sebagai alat produktivitas dan keamanan.
Perusahaan ini baru-baru ini melakukan ekspansi pertamanya ke luar negeri untuk layanan ini melalui kemitraan dengan operator telekomunikasi Malaysia Maxis, dan peluncuran lokal diperkirakan akan dilakukan pada akhir tahun ini.
Perusahaan IT juga secara agresif beralih ke AI suara multimodal, dengan memanfaatkan ekosistem yang ada.
Tangkapan layar platform layanan publik bertenaga AI suara Kakao di KakaoTalk Messenger / Atas perkenan Kakao
Kakao meluncurkan layanan beta untuk model AI multimoda terintegrasi, Kanana-O, awal tahun ini. Model ini dapat memproses teks, suara, dan gambar secara bersamaan dan dirancang khusus untuk meningkatkan pemahaman bahasa Korea dibandingkan model AI global.
Menurut perusahaan, model tersebut saat ini mencapai skor benchmark tertinggi di antara model multimoda domestik dalam hal ukuran.
Perusahaan ini juga telah memperluas kemampuan suara dalam platform layanan publik yang didukung AI dalam aplikasi messenger andalannya, KakaoTalk. Pengguna kini dapat melakukan tugas-tugas seperti menerbitkan dokumen resmi atau memesan fasilitas umum melalui perintah suara di KakaoTalk, sehingga menghilangkan kebutuhan untuk menavigasi beberapa aplikasi atau antarmuka.
Tangkapan layar tab AI Naver / Atas perkenan Naver
Sementara itu, Naver memperluas kemampuan suara multimoda dan AI di seluruh layanan konsumen dan perusahaan. Baru-baru ini mereka meluncurkan fitur mesin pencari bertenaga AI, AI Tab, untuk anggota premiumnya, yang memungkinkan pengguna melakukan pertanyaan percakapan yang kompleks daripada pencarian kata kunci sederhana.
Perusahaan berencana untuk lebih mengintegrasikan layanan ini dengan alat pencarian gambar Smart Lens untuk meningkatkannya menjadi fungsionalitas AI multimodal penuh yang secara bersamaan memahami teks, gambar, dan suara pada akhir tahun.
Di sisi perusahaan, Naver meningkatkan layanan suara-ke-teks Clova Note dengan identifikasi speaker otomatis berbasis AI untuk membedakan beberapa peserta rapat. Perusahaan berencana untuk meningkatkan kualitas pengenalan suara dan ringkasan real-time pada paruh kedua tahun ini, dengan tujuan menjadikannya sebagai layanan penting bagi bisnis.






















