DataGemma AI: Si Ahli Statistik Canggih Google



DataGemma AI: Si Ahli Statistik Canggih Google - photo origin: venturebeat - pibitek.biz - Integrasi

photo origin: venturebeat


336-280
TL;DR
  • Google rilis DataGemma, model AI baru.
  • DataGemma meningkatkan akurasi jawaban AI.
  • DataGemma menggunakan data real-world dari Data Commons.

pibitek.biz -Google lagi ngasih sentuhan baru ke keluarga AI-nya, sekaligus ngatasi masalah besar di dunia AI. Kali ini, Google ngeluarin DataGemma, sepasang model AI open-source yang di-training khusus untuk ngasih jawaban akurat dan mengurangi kemungkinan ngelantur, yang sering terjadi di AI besar lainnya. DataGemma, yang tersedia di Hugging Face buat keperluan akademis dan penelitian, dibangun di atas keluarga Gemma, model open-source yang udah ada sebelumnya. DataGemma memanfaatkan data real-world yang melimpah dari platform Data Commons buatan Google, yang berfungsi sebagai gudang informasi terbuka dengan lebih dari 240 miliar data poin dari berbagai sumber tepercaya, mencakup ekonomi, ilmu pengetahuan, kesehatan, dan bidang lainnya.

DataGemma punya dua cara jitu buat nge-boost akurasi jawaban terhadap pertanyaan pengguna. Kedua cara ini terbukti efektif dalam berbagai uji coba. AI besar adalah terobosan teknologi yang ditunggu-tunggu. Walaupun baru muncul beberapa tahun terakhir, AI ini udah ngebantu berbagai aplikasi, mulai dari nge-generate kode sampai ngasih support pelanggan. AI ini bantu perusahaan hemat waktu dan sumber daya yang berharga. Walaupun udah maju pesat, masih ada masalah di AI ini, yaitu kecenderungan ngelantur saat dihadapkan dengan pertanyaan soal data numerik dan statistik, atau fakta-fakta terkini.

Para peneliti udah menemukan beberapa penyebab masalah ini, seperti sifat probabilistik dasar dari AI besar, dan kurangnya data pelatihan yang akurat. Cara grounding yang biasa juga kurang efektif buat pertanyaan statistik, karena melibatkan berbagai operasi logika, aritmatika, atau perbandingan. Data statistik publik tersebar dalam berbagai skema dan format, butuh banyak konteks tambahan untuk diinterpretasi dengan benar. Buat mengatasi masalah ini, para peneliti Google memanfaatkan Data Commons, salah satu gudang data publik ternormalisasi terbesar.

Mereka ngegabungkan Data Commons dengan keluarga model Gemma melalui dua cara berbeda, yang menghasilkan DataGemma. Cara pertama, disebut Retrieval Interleaved Generation (RIG), meningkatkan akurasi dengan membandingkan hasil AI dengan data relevan yang disimpan di Data Commons. Untuk mencapai ini, AI yang udah di-training ngeluarin pertanyaan dalam bahasa alami yang menggambarkan jawaban yang dihasilkan. Setelah pertanyaan siap, sebuah pipeline pasca-pemrosesan multi-model mengubah pertanyaan ini menjadi pertanyaan data terstruktur dan nge-run pertanyaan tersebut buat ngambil jawaban statistik relevan dari Data Commons.

Jawaban tersebut digunakan buat mengoreksi jawaban AI, lengkap dengan sumber referensinya. Meskipun RIG memanfaatkan teknik Toolformer yang udah ada, cara kedua, Retrieval Augmented Generation (RAG), merupakan teknik umum yang digunakan banyak perusahaan buat ngebantu AI mengintegrasikan informasi relevan di luar data pelatihan mereka. Dalam DataGemma, model Gemma yang udah di-training ngegunain pertanyaan statistik asli buat ngekstrak variabel relevan dan ngeluarin pertanyaan dalam bahasa alami untuk Data Commons.

Pertanyaan ini kemudian di-run di database buat ngambil data statistik atau tabel yang relevan. Setelah nilai-nilai tersebut diekstrak, nilai-nilai tersebut, bersamaan dengan pertanyaan pengguna asli, digunakan buat ngasih arahan ke AI konteks panjang, dalam hal ini Gemini 1.5 Pro, untuk nge-generate jawaban akhir dengan akurasi tinggi. Saat diuji coba pada 101 pertanyaan yang disusun secara manual, varian DataGemma yang di-training dengan RIG mampu meningkatkan akurasi model dasar dari 5-17% menjadi sekitar 58%.

Hasil uji coba dengan RAG agak kurang mengesankan, tapi tetep lebih baik daripada model dasar. DataGemma mampu menjawab 24-29% pertanyaan dengan jawaban statistik dari Data Commons. Untuk sebagian besar jawaban ini, AI umumnya akurat dalam hal angka (99%). Namun, AI kesulitan dalam menarik kesimpulan yang benar dari angka-angka tersebut, dengan tingkat kesalahan sekitar 6% hingga 20%. Meskipun demikian, jelas bahwa RIG dan RAG dapat terbukti efektif dalam meningkatkan akurasi model yang menangani pertanyaan statistik, terutama pertanyaan yang terkait dengan penelitian dan pengambilan keputusan.

Kedua cara ini punya kekuatan dan kelemahan masing-masing. RIG lebih cepat tapi kurang detail, karena hanya ngambil data statistik individual dan nge-verifikasi data tersebut. RAG memberikan data yang lebih komprehensif, tapi dibatasi oleh ketersediaan data dan kebutuhan untuk kemampuan penanganan konteks yang besar. Google berharap perilisan publik DataGemma dengan RIG dan RAG akan mendorong penelitian lebih lanjut di kedua pendekatan ini dan membuka jalan buat membangun model yang lebih kuat dan lebih grounded.

Penelitian Google terus berlanjut, dan Google bertekad untuk terus meningkatkan metodologi ini seiring dengan meningkatnya skala kerja. Google juga akan melakukan pengujian yang ketat dan integrasi fungsionalitas yang ditingkatkan ini ke model Gemma dan Gemini, secara bertahap melalui akses terbatas. DataGemma adalah salah satu contoh bagaimana Google terus berupaya untuk meningkatkan akurasi dan keandalan model AI, sekaligus membuka kemungkinan baru untuk mengakses dan menginterpretasi informasi statistik dengan lebih baik.

Ini adalah langkah maju yang signifikan dalam pengembangan AI dan akan terus mendorong inovasi di bidang ini. Google berusaha keras untuk memastikan bahwa AI-nya aman, adil, dan transparan, dan DataGemma adalah bukti komitmen ini. Dengan DataGemma, Google membuka pintu baru untuk penelitian dan pengembangan AI yang lebih canggih dan bertanggung jawab.