distil-small.en, Inovasi AI Ukuran Mungil untuk Pengenalan Suara Berbasis Edge



TL;DR
  • Tim Hugging Face ciptakan distil-small.en, AI pengenalan suara perangkat edge nan efisien.
  • Dengan 166 juta parameter, model ini ideal untuk IoT dan aplikasi seluler.
  • Meskipun hanya mendukung bahasa Inggris, tapi ini langkah penting menuju pengenalan suara yang luas, terutama untuk perangkat kecil.
distil-small.en, Inovasi AI Ukuran Mungil untuk Pengenalan Suara Berbasis Edge - photo from: aibusiness - pibitek.biz - Bahasa Inggris

photo from: aibusiness


336-280

pibitek.biz - Tim insinyur AI dari platform AI sumber terbuka, Hugging Face, telah mengembangkan sistem pengenalan suara yang dirancang untuk bekerja dalam lingkungan memori rendah. Dengan hanya 166 juta parameter, distil-small.en jadi enam kali lebih cepat daripada Whisper v2 milik OpenAI, meskipun ukurannya 49% lebih kecil.

Sistem kecil ini merupakan versi kompak dari model Whisper, dirancang untuk digunakan di perangkat dengan keterbatasan ruang dan daya pemrosesan. Dalam implementasinya, distil-small.en dapat digunakan untuk menggerakkan kontrol suara pada perangkat Internet of Things (IoT), seperti pengontrol rumah pintar atau bahkan mobil dengan speaker pintar.

Berkat ukurannya, sistem ini bahkan dapat diintegrasikan ke dalam aplikasi seluler untuk pengenalan suara real-time, mungkin untuk aplikasi terjemahan atau asisten yang diaktifkan suara. Sanchit Gandhi, seorang insinyur penelitian machine learning di Hugging Face, menyatakan di Twitter bahwa lapisan decoder tambahan pada distil-small.en membantu mempertahankan akurasi transkripsi model pada ukuran yang sangat kecil.

Dalam hal kinerja, distil-small.en mencapai skor yang lebih tinggi dalam lingkungan latensi rendah dibandingkan dengan Whisper asli dan versi distilasi lainnya. Namun, untuk lingkungan dengan lebih banyak memori, tim Hugging Face merekomendasikan penggunaan distil-medium.en atau distil-large-v2 karena keduanya lebih cepat dan mencapai hasil Word Error Rate (WER) yang lebih baik.

Dukungan Bahasa Lain

Saat ini, distil-small.en hanya tersedia untuk pengenalan suara dalam bahasa Inggris. Tim dari Hugging Face mengatakan bahwa mereka sedang bekerja untuk menerapkannya pada bahasa-bahasa lain. Hugging Face memamerkan model ini digunakan untuk transkripsi file audio pendek dan panjang, dengan contoh inferensi yang dapat didengar di halaman distil-small.en di situs Hugging Face.

Pengenalan Suara di Ujung Jari.

Dengan ukurannya yang kecil dan kinerjanya yang mengesankan, distil-small.en membuka pintu bagi aplikasi pengenalan suara real-time di berbagai perangkat. Mulai dari pengontrol rumah pintar, mobil dengan speaker pintar, hingga aplikasi seluler untuk terjemahan suara atau asisten virtual. Meskipun saat ini yang sudah tersedia hanya pengenalan suara dalam bahasa Inggris, namun upaya sedang dilakukan untuk mengaplikasikan teknologi ini pada bahasa-bahasa lain. Inovasi ini menandai langkah penting menuju pengenalan suara yang efisien dan dapat diakses di berbagai platform, terutama perangkat genggam dan kecil.