BUD-E, Asisten Suara AI yang Ramah dan Penuh Empati



TL;DR
  • BUD-E, asisten suara AI yang ramah dan empati.
  • Dibuat oleh LAION, bisa berbicara alami dan cepat.
  • Masih dalam pengembangan, kode program open source.
BUD-E, Asisten Suara AI yang Ramah dan Penuh Empati - image owner: aibusiness - pibitek.biz - Microsoft

image owner: aibusiness


336-280

pibitek.biz - Asisten suara berbasis AI sudah berkembang pesat sejak Siri dirilis pada Februari 2010. Kini, tim yang ikut merancang Stable Diffusion ingin membuat asisten suara AI Generatiferatiferasi baru yang bisa merespons permintaan pengguna secara real-time dengan suara yang alami. BUD-E adalah nama asisten suara AI yang dibuat oleh LAION, sebuah laboratorium penelitian nirlaba asal Jerman.

BUD-E singkatan dari Buddy for Understanding and Digital Empathy, yang artinya Teman untuk Pemahaman dan Empati Digital. BUD-E dirancang untuk memberikan pengalaman percakapan yang lebih menyeluruh daripada asisten suara AI saat ini. Menurut LAION, asisten suara AI yang ada sekarang sering kali berbicara dengan cara yang kaku dan mekanis.

Selain itu, mereka juga sulit memahami dan menyesuaikan diri dengan nuansa, emosi, dan konteks yang kaya dalam dialog manusia, sehingga menyebabkan keterlambatan dan ketidaksesuaian alur percakapan. Akibatnya, pengguna sering merasa tidak puas dengan pertukaran informasi. BUD-E memiliki suara yang lebih natural daripada sistem lain dan juga bisa dijalankan di perangkat konsumen, kata laboratorium penelitian itu.

Selain itu, sistem ini mampu mencapai latensi antara 300 hingga 500 milidetik, yang artinya respon cepat terhadap permintaan pengguna. LAION, yang juga membuat dataset dasar untuk model AI teks-ke-gambar Stable Diffusion, mengembangkan BUD-E bersama dengan ELLIS Institute Tübingen, Collabora dan TübinAI Generatiferatif Center. BUD-E masih dalam tahap awal, dengan LAION bermimpi membuat asisten suara yang bisa mengelola percakapan multi-pembicara dengan gangguan, afirmasi dan jeda berpikir.

Versi saat ini dari BUD-E menggunakan model speech-to-text Nvidia FastConformer Streaming STT, model bahasa Microsoft Phi-2 dan model text-to-speech StyleTTS2. Namun, LAION ingin meningkatkan skala model-model yang mendukung BUD-E, dengan yakin bahwa di masa depan, mereka bisa menghasilkan respon dengan latensi rendah menggunakan model yang lebih besar seperti versi 30 miliar parameter dari Meta Llama 2. Kamu bisa mencoba BUD-E sendiri karena semua kode programnya bersifat open source dan tersedia di GitHub.

Tapi kamu juga bisa berkontribusi lebih jauh untuk pengembangan BUD-E. LAION telah mengundang pengembang dan peneliti open source untuk membantu menyempurnakan asisten suara ini.