Bicara Ke Saya Komputer: Kontrol Suara Melepas

Jika paket tak terduga mulai muncul di depan pintu Anda, mungkin Anda ingin berbicara dengan salah satu perangkat cerdas Anda.

Awal bulan ini, seorang anak berusia enam tahun di Dallas bertanya kepada keluarganya Amazon Echo pembicara cerdas untuk rumah boneka Dan Alexa, asisten buatan Siri seperti Amazon, segera memerintahkan satu ke rumah mereka.

Sebuah acara berita San Diego TV mengangkat ceritanya, dan dengan tidak sengaja mengulanginya saat salah satu pembawa berita berkomentar: "Saya mencintai gadis kecil itu, mengatakan 'Alexa memesankan saya sebuah rumah boneka'." Mendengar hal ini, beberapa perangkat Amazon lainnya di rumah-rumah di seberang San Diego mencoba membeli lebih banyak rumah boneka.

CW6 Laporan berita San Diego tentang pembelian boneka Alexa yang tidak disengaja.

{youtube}oI2KLIULjXc{/youtube}

Ceritanya mungkin terdengar menyebalkan bagi siapa saja yang telah mencoba bercakap-cakap dengan Apple Siri atau Cortana dari Microsoft. Perangkat kita sudah cukup bagus dalam mendengarkan kita, tapi itu tidak selalu berarti mereka mengerti.

Periset di Microsoft baru-baru ini menunjukkan hal ini sebagai masalah potensial dengan antarmuka yang sedang berbicara saat ini: mereka dipasarkan sebagai asisten "cerdas", dengan lelucon cerdas dan pengetahuan duniawi, namun mereka sering membuat kami frustrasi karena kurangnya akal sehat mereka.


grafis berlangganan batin


Di sebuah belajar kecil, para periset menemukan bahwa orang-orang yang terus berbicara dengan asisten digital mereka dari waktu ke waktu adalah mereka yang telah memulai dengan harapan terendah.

Apa sebenarnya antarmuka suara itu?

Saat Anda berbicara dengan antarmuka suara, itu harus:

  • "Dengar" suara Anda, dan bedakan dari kebisingan latar belakang
  • mencari tahu di mana setiap kata dimulai dan diakhiri, mengabaikan "umm" dan "ahhs"
  • cocokkan suara setiap kata untuk satu kata dalam kamus, pilih yang benar dari konteks jika ada homofon
  • benar menafsirkan arti seluruh kalimat
  • menghasilkan respons yang berarti dan bermanfaat yang sesuai dengan permintaan Anda.

Masing-masing ini adalah tantangan teknis yang kompleks, dan perusahaan teknologi yang berbeda telah membuat kemajuan di bidang yang berbeda.

Google Now memberi tanggapan yang relevan terhadap berbagai permintaan karena manfaat dari kumpulan data Google tentang web, dan aktivitas pribadi Anda, jika Anda menggunakan layanan Google.

Amazon Echo sangat piawai mendengarkan permintaan Anda dari seberang ruangan yang ribut, berkat deretan mikrofon medan jauh yang berisik. Tentu saja, ini juga bagus dalam melakukan pembelian melalui Amazon.

Selama beberapa tahun terakhir, antarmuka suara menjadi lebih baik dalam memahami ucapan sehari-hari atau "alami" daripada hanya perintah yang kaku dan dengan hati-hati. Mereka masih lebih baik dalam menangani pertanyaan sederhana, seperti "siapa yang bermain di Australian Open?", Dan cenderung berjuang dengan permintaan yang lebih rumit, seperti "siapa yang bermain di Australia Terbuka untuk pertama kalinya tahun ini?", Dan tindak lanjut pertanyaan, seperti "apakah akan hujan di final?".

Situasinya bahkan lebih beragam untuk bahasa selain bahasa Inggris: sementara Siri mendukung lebih dari bahasa dan dialek 40, sejauh ini Alexa hanya tersedia dalam bahasa Inggris dan Jerman. Tetapi semua fitur ini terus meningkat.

Dimana gagang suara gagap

Maka akan menyuarakan interface segera mengambil alih semua teknologi kita, seperti yang diprediksi dalam film tersebut Buku? Gartner, firma riset teknologi, telah meramalkan Pada tahun depan, 30% interaksi kita dengan teknologi akan menjadi percakapan dengan antarmuka dengan suara.

Tetapi antarmuka suara memiliki keterbatasan, dan tidak semuanya dapat diselesaikan dengan teknologi yang lebih baik.

Suara merupakan sarana sentral untuk berinteraksi dengan teknologi dalam film Spike Jonze Her.

{youtube}ne6p6MfLBxc{/youtube}

Polusi suara adalah salah satu rintangan utama. Dapatkah perangkat membedakan apa yang Anda katakan dari kebisingan di sekitar Anda? Teknologi dapat membantu dengan itu, termasuk pengurangan kebisingan, pengenalan suara pribadi dan pembacaan bibir.

Tapi bagaimana dengan kebisingan latar belakang yang Anda ciptakan untuk orang lain dengan berbicara dengan perangkat cerdas Anda? Bayangkan seseorang duduk di sebelah Anda di kantor - atau di pesawat terbang - bercakap-cakap dengan Siri saat Anda mencoba membaca, dan Anda dapat melihat mengapa antarmuka suara mungkin tidak selalu diterima secara sosial.

Kumpulan masalah lainnya berasal dari tuntutan mental dari antarmuka suara. Belajar menggunakan sistem berbasis suara bisa jadi sulit, apalagi jika tidak ada layar, seperti dengan Amazon Echo.

Jika Anda pernah menelepon bank atau perusahaan telepon, Anda tahu kombinasi konsentrasi dan kebosanan yang menyedihkan yang berasal dari mendengarkan daftar suara yang disintesis dari semua pilihan Anda saat Anda menunggu yang Anda butuhkan dan mencoba untuk tidak mencampurnya. naik. Antarmuka grafis tradisional hindari masalah ini dengan menunjukkan pilihan yang tersedia dan membiarkan Anda dengan cepat menyentuh pilihan Anda.

Setelah Anda mempelajari perintah suara, menggunakannya bisa mengganggu. Periset telah menemukan bahwa perintah suara menggagalkan pikiran Anda lebih dari satu mouse dan keyboard.

Ini sangat berbahaya untuk antarmuka suara di dalam mobil: sepasang studi dari University of Utah menemukan bahwa pengemudi berada terganggu hingga detik 27 setelah menggunakan perintah suara

Universitas Utah / AAA Foundation untuk penelitian Keselamatan Lalu Lintas tentang gangguan pengemudi.

{vimeo}108281698{/vimeo}

Menemukan suaranya?

Jadi, antarmuka suara tidak mungkin untuk mengambil alih sepenuhnya, tapi mereka akan menemukan ceruk yang berguna dalam kehidupan kita. Mereka sudah umum di mobil, di mana mereka mudah-mudahan tidak terlalu mengganggu saat teknologi meningkat.

Di dapur, Anda bisa meminta Alexa untuk membacakannya melalui resep atau memperbarui daftar belanjaan Anda saat tangan Anda sibuk memasak. Dalam kenyataan virtual dan ditambah, antarmuka suara dapat membiarkan Anda mengendalikan sistem saat Anda sama sekali tidak dapat melihat tangan Anda.

Dalam pembelajaran bahasa, mereka bisa digunakan untuk mempraktekkan pengucapan. Yang terpenting, antarmuka suara membantu pengguna dengan gangguan motor, RSI atau disleksia untuk mengatasi ketidakmampuan mereka.

Antarmuka suara adalah teknologi yang telah lama dinanti, dan ada alasan bagus untuk memikirkan waktunya tiba. Ingatlah bahwa mereka mungkin belum secerdas suara mereka. Dan Anda mungkin ingin memasukkan kode PIN pada pembelian suara jika anak-anak ada di sekitar.

Percakapan

Tentang Penulis

Fraser Allison, PhD Kandidat dalam Interaksi Manusia-Komputer, University of Melbourne

Artikel ini awalnya diterbitkan pada Percakapan. Membaca Artikel asli.

Terkait Produk

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market dan Amazon