AI Dapat Memesan Restoran Atau Mengenal Rambut, Tapi Jangan Mengharapkan Percakapan Penuh Tentu asisten AI Anda dapat memesan janji temu untuk Anda, tetapi bagaimana dengan percakapan yang bermakna? Shutterstock / Bas Nastassia

Google baru-baru ini meluncurkan AI bicaranya yang terbaru, yang disebut Duplex. Duplex terdengar seperti orang sungguhan, lengkap dengan jeda, "umms" dan "ahhs".

Raksasa teknologi itu mengatakan dapat berbicara dengan orang-orang di telepon untuk membuat janji dan memeriksa jam buka bisnis.

Duplex menjadwalkan janji temu salon rambut. Google445 KB (Download)

Dalam rekaman percakapan yang diputar di pembukaan Google, itu bercakap-cakap dengan manusia di ujung penerima, yang tampaknya sama sekali tidak menyadari bahwa mereka tidak berbicara dengan orang lain.

Duplex memanggil restoran. Google399 KB (Download)

Panggilan-panggilan ini meninggalkan audiens yang berorientasi teknologi di Google show terengah-engah dan bersorak. Dalam satu contoh, AI bahkan mengerti ketika orang yang diajaknya bercampur, dan dapat terus mengikuti percakapan dan merespons dengan tepat ketika diberitahu bahwa tidak perlu melakukan pemesanan.


grafis berlangganan batin


Munculnya asisten AI

Jika Anda pernah menggunakan asisten suara yang tersedia saat ini, seperti Google Home, Apple Siri atau Amazon Echo, fleksibilitas ini mungkin mengejutkan Anda. Asisten ini adalah sangat sulit untuk digunakan untuk apa pun selain permintaan standar seperti untuk menelepon kontak, memutar lagu, melakukan pencarian web sederhana, atau mengatur pengingat.

Ketika kita berbicara dengan asisten generasi saat ini, kita selalu sadar bahwa kita sedang berbicara dengan AI dan kita sering menyesuaikan apa yang kita katakan sesuai, dengan cara yang kita harapkan memaksimalkan peluang kita untuk membuatnya bekerja.

Tetapi orang-orang yang berbicara dengan Duplex tidak tahu. Mereka ragu-ragu, mundur, mengucapkan kata-kata, dan bahkan mengubah fakta di tengah kalimat. Duplex tidak ketinggalan. Tampaknya benar-benar mengerti apa yang sedang terjadi.


Baca lebih lanjut: Speaker pintar dapat menjadi titik kritis untuk otomatisasi rumah


Jadi, apakah masa depan telah tiba lebih awal dari yang diperkirakan? Apakah dunia akan penuh dengan asisten AI online (dan di telepon) mengobrol dengan gembira dan melakukan segalanya untuk kita? Atau lebih buruk lagi, akankah kita tiba-tiba dikelilingi oleh AI yang cerdas dengan pemikiran dan ide mereka sendiri yang mungkin atau mungkin tidak termasuk manusia?

Jawabannya pasti "tidak". Untuk memahami alasannya, ada baiknya kita melihat di bawah kap apa yang mendorong AI seperti ini.

Dupleks: cara kerjanya

Inilah yang Sistem AI dupleks seperti.

Suara yang masuk diproses melalui sistem ASR. Ini menghasilkan teks yang dianalisis dengan data konteks dan input lain untuk menghasilkan teks respons yang dibaca dengan keras melalui sistem text-to-speech (TTS). Google

Sistem mengambil "input" (ditampilkan di sebelah kiri) yang merupakan suara orang yang diajak bicara di telepon. Suara melewati pengenalan suara otomatis (ASR) dan akan dikonversi menjadi teks (kata-kata tertulis). ASR itu sendiri merupakan sistem AI canggih, tetapi dari jenis yang sudah umum digunakan dalam asisten suara yang ada.

Teks kemudian dipindai untuk menentukan jenis kalimatnya (seperti salam, pernyataan, pertanyaan atau instruksi) dan mengekstrak informasi penting apa pun. Informasi kunci kemudian menjadi bagian dari Konteks, yang merupakan input tambahan yang membuat sistem tetap mutakhir dengan apa yang telah dikatakan sejauh ini dalam percakapan.

Teks dari ASR dan Konteks kemudian dikirim ke jantung Duplex, yang disebut Jaringan Syaraf Tiruan (JST).

Dalam diagram di atas, JST ditunjukkan oleh lingkaran dan garis yang menghubungkannya. JST secara longgar dimodelkan pada otak kita, yang memiliki milyaran neuron yang terhubung bersama ke dalam jaringan yang sangat besar.

Belum cukup otak

JST jauh lebih sederhana dari otak kita. Satu-satunya hal yang coba dilakukan adalah mencocokkan kata-kata masukan dengan respons yang sesuai. JST belajar dengan menunjukkan transkrip dari ribuan percakapan orang yang membuat reservasi untuk restoran.

Dengan contoh-contoh yang cukup, ia belajar apa jenis kalimat masukan yang diharapkan dari orang yang diajaknya bicara, dan jenis tanggapan apa yang diberikan untuk masing-masing kalimat.

Respons teks yang dihasilkan oleh JST kemudian dikirim ke synthesizer text-to-speech (TTS), yang mengubahnya menjadi kata-kata yang diucapkan yang kemudian diputar ke orang di telepon.

Sekali lagi, synthesizer TTS ini adalah AI canggih - dalam hal ini lebih canggih daripada yang ada di ponsel Anda, karena terdengar hampir tidak bisa dibedakan dari suara normal mana pun.

Hanya itu yang ada untuk itu. Meskipun itu canggih, inti dari sistem ini sebenarnya hanyalah proses pencocokan teks. Tapi Anda mungkin bertanya - jika itu sangat sederhana, mengapa kita tidak bisa melakukannya sebelumnya?

Respons yang dipelajari

Faktanya adalah bahwa bahasa manusia, dan sebagian besar hal lain di dunia nyata, terlalu bervariasi dan tidak dapat ditangani dengan baik oleh komputer biasa, tetapi masalah seperti ini sangat cocok untuk AI.

Perhatikan bahwa output yang dihasilkan oleh AI sepenuhnya tergantung pada percakapan yang ditunjukkan saat itu sedang belajar.

Ini berarti bahwa AI yang berbeda perlu dilatih untuk melakukan pemesanan jenis yang berbeda - jadi, misalnya, satu AI dapat memesan restoran dan yang lainnya dapat memesan janji tatanan rambut.

Ini diperlukan karena jenis pertanyaan dan tanggapan dapat sangat bervariasi untuk berbagai jenis pemesanan. Ini juga bagaimana Duplex bisa jauh lebih baik daripada asisten suara umum, yang perlu menangani banyak jenis permintaan.

Jadi sekarang harus jelas bahwa kita tidak akan melakukan percakapan santai dengan asisten AI kami dalam waktu dekat. Faktanya, semua AI kami saat ini benar-benar tidak lebih dari pencocokan pola (dalam hal ini, pencocokan pola teks). Mereka tidak mengerti apa yang mereka dengar, atau apa yang mereka lihat, atau apa yang mereka katakan.

Pencocokan pola adalah satu hal yang dilakukan otak kita, tetapi mereka juga melakukan jauh lebih banyak. Kunci untuk menciptakan AI yang lebih kuat mungkin untuk membuka lebih banyak rahasia otak. Apakah kita mau? Ya itu pertanyaan lain.Percakapan

Tentang Penulis

Peter Stratton, Peneliti Pascadoktoral, Universitas Queensland

Artikel ini diterbitkan kembali dari Percakapan di bawah lisensi Creative Commons. Membaca Artikel asli.