Aya dari Cohere AI, AI Sumber Terbuka Multibahasa dengan 101 Bahasa



TL;DR
  • Cohere for AI rilis Aya, AI multibahasa.
  • Aya bisa beroperasi dalam 101 bahasa, termasuk yang kurang terlayani.
  • Cohere juga rilis dataset instruksi multibahasa terbesar.
Aya dari Cohere AI, AI Sumber Terbuka Multibahasa dengan 101 Bahasa - photo source: siliconangle - pibitek.biz - LLM

photo source: siliconangle


336-280

pibitek.biz - Cohere for AI, laboratorium riset nirlaba yang dijalankan oleh startup AI Cohere Inc., memperkenalkan LLM berbasis AI sumber terbuka yang "sangat multibahasa" yang disebut Aya yang dapat beroperasi dalam 101 bahasa yang berbeda. Menurut Cohere, dengan lebih dari 100 bahasa yang dimilikinya, kemampuan Aya mewakili lebih dari dua kali lipat jumlah bahasa yang dicakup oleh model sumber terbuka yang sudah ada.

"Aya membantu para peneliti membuka potensi besar dari LLM untuk puluhan bahasa dan budaya yang sebagian besar diabaikan oleh sebagian besar model canggih yang ada di pasar saat ini", kata tim AI dalam pengumumannya. Selain Aya, Cohere juga merilis dataset instruksi multibahasa terbesar hingga saat ini dengan ukuran 513 juta titik data yang mencakup 114 bahasa yang berbeda untuk digunakan oleh para peneliti dalam model mereka. Dataset ini mencakup bahasa-bahasa yang kurang terlayani dan anotasi langka dari penutur bahasa langka dari seluruh dunia agar teknologi AI memiliki awalan untuk melayani audiens yang lebih luas.

Model Aya berasal dari Proyek Aya yang sama, upaya besar yang dirilis pada Januari 2023 bersama lebih dari 3.000 peneliti dari 119 negara dengan tujuan membangun model AI generatif multibahasa yang akan membangun kontribusi dari orang-orang di seluruh dunia. Meskipun banyak model fokus pada bahasa Inggris, hanya sekitar 5% penduduk dunia yang berbicara bahasa Inggris di rumah. Ini berarti banyak bahasa lain yang kurang terlayani dalam ruang teknologi AI.

"Seiring dengan perubahan lanskap teknologi global oleh LLM dan AI secara umum, banyak komunitas di seluruh dunia ditinggalkan karena batasan bahasa dari model yang sudah ada", kata tim Cohere for AI. "Celah ini menghambat aplikabilitas dan kegunaan AI generatif untuk audiens global, dan memiliki potensi untuk memperlebar disparitas yang sudah ada dari gelombang sebelumnya dalam pengembangan teknologi". Untuk membantu, dataset yang dirilis mengandung 204.000 anotasi langka yang dirawat oleh penutur fasih dalam 67 bahasa yang berbeda untuk berbagai aplikasi linguistik.

Anotasi digunakan oleh model AI untuk membantu model belajar secara efektif dengan menambahkan konteks ke data untuk memahami bahasa, seperti mengkategorikan dan meningkatkan akurasi pemahaman. Ini akan memberikan dataset berkualitas tinggi yang sangat baik bagi pengembang dan peneliti untuk menggunakan dalam membangun model bahasa AI yang kuat, yang dapat mencakup penelitian linguistik dan pelestarian bahasa. Menurut pusat penelitian bahasa Ethnologue, saat ini ada lebih dari 7.000 bahasa yang digunakan di dunia.

Hanya 23 dari bahasa-bahasa tersebut, termasuk bahasa Inggris, mewakili lebih dari setengah populasi dunia, dan sekitar 40% dari semua bahasa terancam punah, banyak dengan jumlah penutur kurang dari 1.000 orang. Proyek seperti Aya, yang memasukkan lebih banyak bahasa ke dalam dataset multibahasa yang sangat besar dapat membantu menetapkan jalur untuk penelitian dan pengembangan. Ini akan membantu mencapai lebih banyak populasi untuk inklusi dan aksesibilitas serta membuka teknologi AI untuk penggunaan akademik.

Dataset ini juga memperluas cakupan ke lebih dari 50 bahasa yang sebelumnya kurang terwakili dan jarang ditemukan dalam model milik perusahaan seperti bahasa Somali dan Uzbek. Meskipun model-model komersial dan sumber terbuka melakukan pekerjaan yang baik dalam mencakup bahasa-bahasa populer seperti bahasa Inggris, Perancis, dan Rusia, para peneliti di balik Aya bekerja untuk menambahkan banyak bahasa yang kurang terlayani ke dalam dataset mereka. Para peneliti mengatakan bahwa model ini mendapatkan hasil yang baik dalam uji coba dengan model multibahasa yang lain dan melampaui model sumber terbuka lainnya termasuk mT0 dan Bloomz dari BigScience dalam pengujian.