Model Suara Amazon Bisa Lakukan Banyak Hal Baru



TL;DR
  • Amazon latih model suara BASE TTS
  • Model ukuran sedang lebih bagus dari besar
  • Model bisa atasi fitur-fitur sulit suara
Model Suara Amazon Bisa Lakukan Banyak Hal Baru - image from: artificialintelligence-news - pibitek.biz - AI

image from: artificialintelligence-news


336-280

pibitek.biz - Ryan adalah editor senior di TechForge Media. Dia sudah lebih dari sepuluh tahun menulis tentang teknologi terbaru. Dia juga sering wawancara dengan tokoh-tokoh industri. Dia suka hal-hal yang geeky. Kamu bisa ikuti dia di Twitter atau Mastodon. Peneliti di Amazon telah melatih LLM baru untuk suara. Mereka bilang model ini punya kemampuan baru yang muncul sendiri. Model ini disebut BASE TTS. Ini adalah model suara terbesar yang pernah dibuat.

Ada 980 juta parameter di dalamnya. Peneliti melatih model-model dengan ukuran berbeda. Mereka pakai data suara domain publik sampai 100.000 jam.

Mereka mau lihat apakah model-model ini bisa lebih baik seperti model pemrosesan bahasa alami. Mereka temukan bahwa model ukuran sedang dengan 400 juta parameter lebih bagus. Model ini dilatih dengan 10.000 jam audio.

Model ini bisa menangani kalimat-kalimat sulit dengan lebih baik. Kalimat-kalimat sulit itu punya fitur-fitur yang kompleks. Misalnya kata majemuk, emosi, kata asing, dan tanda baca.

Biasanya model suara suka salah dengan fitur-fitur ini. Tapi BASE TTS bisa mengurangi kesalahan dalam tekanan, nada, dan pengucapan. Peneliti bilang kalimat-kalimat itu sengaja dibuat susah.

BASE TTS tidak dilatih khusus untuk menyelesaikannya. Model ukuran besar dengan 980 juta parameter tidak punya kemampuan lebih dari model ukuran sedang. Meski masih percobaan, BASE TTS menunjukkan bahwa model-model ini bisa lebih serba bisa.

Ini adalah tanda baik untuk AI percakapan. Peneliti mau lanjutkan penelitian untuk cari ukuran model yang pas. Model ini juga dibuat ringan dan bisa di-streaming. Data emosi dan nada dipisah. Ini bisa memungkinkan suara yang alami dikirim dengan koneksi lemot. Kamu bisa baca paper lengkap BASE TTS di arXiv.