Model TTS Amazon dengan Kemampuan Emergensi



Model TTS Amazon dengan Kemampuan Emergensi - the image via: artificialintelligence-news - pibitek.biz - Internet

the image via: artificialintelligence-news


336-280
TL;DR
  • Amazon bikin model TTS (teks jadi suara) yang canggih banget.
  • Model TTS ini bisa baca kalimat susah yang ada istilah asing dan tanda baca, tapi masih bisa salah intonasi.
  • Model TTS ini kecil dan bisa dipakai buat aplikasi suara yang butuh koneksi internet lemah.

pibitek.biz -Amazon mengembangkan LLM dengan 980 juta parameter untuk teks-ke-suara. Nama modelnya adalah BASE TTS. Penelitian tentang model ini menunjukkan bahwa model dapat memiliki Kemampuan Emergensi. Peneliti Amazon menggunakan data suara publik sebanyak 100.000 jam untuk melatih model-model dengan berbagai ukuran.

Tujuannya adalah untuk melihat apakah mereka akan melihat peningkatan kinerja yang sama seperti yang terjadi pada model NLP (Natural Language Processing) ketika mereka tumbuh lebih besar dari suatu batas. Hasil dari penelitian menunjukkan bahwa versi 400 juta parameter model, yang dilatih pada 10.000 jam suara, memiliki kemampuan yang lebih baik dalam hal versatilitas dan kestabilan pada kalimat-kalimat yang sulit.

Kalimat-kalimat sulit tersebut mengandung fitur leksikal, sintaks, dan paralinguistik yang kompleks seperti nama compound, emosi, kata asing, dan tanda baca. Namun, BASE TTS masih membuat kesalahan pada stress, intonasi, dan penukaran suara. Namun, kesalahan yang terjadi lebih sedikit dibandingkan model-model lain.

"Kalimat-kalimat ini dirancang untuk mengandung tugas yang sulit, yang tidak pernah sepenuhnya diperlukan oleh BASE TTS", jelas peneliti. Versi terbesar dari model dengan 980 juta parameter, yang dilatih pada 100.000 jam suara, tidak memiliki kemampuan lebih lanjut dibandingkan versi 400 juta parameter. Proses pembuatan BASE TTS masih eksperimenal.

Namun, ini menunjukkan bahwa model dapat mencapai tingkat kemampuan baru saat mereka tumbuh lebih besar. Hal ini merupakan tanda bagus untuk AI conversational. Peneliti akan melakukan kerja lebih lanjut untuk menentukan ukuran model yang optimal untuk mendapatkan Kemampuan Emergensi.

Model ini juga dirancang untuk ringan dan dapat di-streaming. Ini memisahkan data emosi dan prosodi secara terpisah. Hal ini dapat memungkinkan audio suara yang natural dapat diteruskan melalui koneksi yang rendah bandwidth.