pibitek.biz - Tim insinyur AI dari platform AI sumber terbuka, Hugging Face, telah mengembangkan sistem pengenalan suara yang dirancang untuk bekerja dalam lingkungan memori rendah. Dengan hanya 166 juta parameter, distil-small.en jadi enam kali lebih cepat daripada Whisper v2 milik OpenAI, meskipun ukurannya 49% lebih kecil.
2 – CNET Turun Ratingnya di Wikipedia karena AI 2 – CNET Turun Ratingnya di Wikipedia karena AI
3 – Fitur Baru ChatGPT: Memori Jangka Panjang 3 – Fitur Baru ChatGPT: Memori Jangka Panjang 300x600
Sistem kecil ini merupakan versi kompak dari model Whisper, dirancang untuk digunakan di perangkat dengan keterbatasan ruang dan daya pemrosesan. Dalam implementasinya, distil-small.en dapat digunakan untuk menggerakkan kontrol suara pada perangkat Internet of Things (IoT), seperti pengontrol rumah pintar atau bahkan mobil dengan speaker pintar.
Berkat ukurannya, sistem ini bahkan dapat diintegrasikan ke dalam aplikasi seluler untuk pengenalan suara real-time, mungkin untuk aplikasi terjemahan atau asisten yang diaktifkan suara. Sanchit Gandhi, seorang insinyur penelitian machine learning di Hugging Face, menyatakan di Twitter bahwa lapisan decoder tambahan pada distil-small.en membantu mempertahankan akurasi transkripsi model pada ukuran yang sangat kecil.
Dalam hal kinerja, distil-small.en mencapai skor yang lebih tinggi dalam lingkungan latensi rendah dibandingkan dengan Whisper asli dan versi distilasi lainnya. Namun, untuk lingkungan dengan lebih banyak memori, tim Hugging Face merekomendasikan penggunaan distil-medium.en atau distil-large-v2 karena keduanya lebih cepat dan mencapai hasil Word Error Rate (WER) yang lebih baik.
Dukungan Bahasa Lain
Saat ini, distil-small.en hanya tersedia untuk pengenalan suara dalam bahasa Inggris. Tim dari Hugging Face mengatakan bahwa mereka sedang bekerja untuk menerapkannya pada bahasa-bahasa lain. Hugging Face memamerkan model ini digunakan untuk transkripsi file audio pendek dan panjang, dengan contoh inferensi yang dapat didengar di halaman distil-small.en di situs Hugging Face.
Pengenalan Suara di Ujung Jari.
Dengan ukurannya yang kecil dan kinerjanya yang mengesankan, distil-small.en membuka pintu bagi aplikasi pengenalan suara real-time di berbagai perangkat. Mulai dari pengontrol rumah pintar, mobil dengan speaker pintar, hingga aplikasi seluler untuk terjemahan suara atau asisten virtual. Meskipun saat ini yang sudah tersedia hanya pengenalan suara dalam bahasa Inggris, namun upaya sedang dilakukan untuk mengaplikasikan teknologi ini pada bahasa-bahasa lain. Inovasi ini menandai langkah penting menuju pengenalan suara yang efisien dan dapat diakses di berbagai platform, terutama perangkat genggam dan kecil.