DataGemma AI: Si Ahli Statistik Canggih Google

https://www.facebook.com/pibitek

September 23, 2024 Diki

photo origin: venturebeat

TL;DR

Google rilis DataGemma, model AI baru.
DataGemma meningkatkan akurasi jawaban AI.
DataGemma menggunakan data real-world dari Data Commons.

pibitek.biz -Google lagi ngasih sentuhan baru ke keluarga AI-nya, sekaligus ngatasi masalah besar di dunia AI. Kali ini, Google ngeluarin DataGemma, sepasang model AI open-source yang di-training khusus untuk ngasih jawaban akurat dan mengurangi kemungkinan ngelantur, yang sering terjadi di AI besar lainnya. DataGemma, yang tersedia di Hugging Face buat keperluan akademis dan penelitian, dibangun di atas keluarga Gemma, model open-source yang udah ada sebelumnya. DataGemma memanfaatkan data real-world yang melimpah dari platform Data Commons buatan Google, yang berfungsi sebagai gudang informasi terbuka dengan lebih dari 240 miliar data poin dari berbagai sumber tepercaya, mencakup ekonomi, ilmu pengetahuan, kesehatan, dan bidang lainnya.

DataGemma punya dua cara jitu buat nge-boost akurasi jawaban terhadap pertanyaan pengguna. Kedua cara ini terbukti efektif dalam berbagai uji coba. AI besar adalah terobosan teknologi yang ditunggu-tunggu. Walaupun baru muncul beberapa tahun terakhir, AI ini udah ngebantu berbagai aplikasi, mulai dari nge-generate kode sampai ngasih support pelanggan. AI ini bantu perusahaan hemat waktu dan sumber daya yang berharga. Walaupun udah maju pesat, masih ada masalah di AI ini, yaitu kecenderungan ngelantur saat dihadapkan dengan pertanyaan soal data numerik dan statistik, atau fakta-fakta terkini.

Para peneliti udah menemukan beberapa penyebab masalah ini, seperti sifat probabilistik dasar dari AI besar, dan kurangnya data pelatihan yang akurat. Cara grounding yang biasa juga kurang efektif buat pertanyaan statistik, karena melibatkan berbagai operasi logika, aritmatika, atau perbandingan. Data statistik publik tersebar dalam berbagai skema dan format, butuh banyak konteks tambahan untuk diinterpretasi dengan benar. Buat mengatasi masalah ini, para peneliti Google memanfaatkan Data Commons, salah satu gudang data publik ternormalisasi terbesar.

Mereka ngegabungkan Data Commons dengan keluarga model Gemma melalui dua cara berbeda, yang menghasilkan DataGemma. Cara pertama, disebut Retrieval Interleaved Generation (RIG), meningkatkan akurasi dengan membandingkan hasil AI dengan data relevan yang disimpan di Data Commons. Untuk mencapai ini, AI yang udah di-training ngeluarin pertanyaan dalam bahasa alami yang menggambarkan jawaban yang dihasilkan. Setelah pertanyaan siap, sebuah pipeline pasca-pemrosesan multi-model mengubah pertanyaan ini menjadi pertanyaan data terstruktur dan nge-run pertanyaan tersebut buat ngambil jawaban statistik relevan dari Data Commons.

Jawaban tersebut digunakan buat mengoreksi jawaban AI, lengkap dengan sumber referensinya. Meskipun RIG memanfaatkan teknik Toolformer yang udah ada, cara kedua, Retrieval Augmented Generation (RAG), merupakan teknik umum yang digunakan banyak perusahaan buat ngebantu AI mengintegrasikan informasi relevan di luar data pelatihan mereka. Dalam DataGemma, model Gemma yang udah di-training ngegunain pertanyaan statistik asli buat ngekstrak variabel relevan dan ngeluarin pertanyaan dalam bahasa alami untuk Data Commons.

Pertanyaan ini kemudian di-run di database buat ngambil data statistik atau tabel yang relevan. Setelah nilai-nilai tersebut diekstrak, nilai-nilai tersebut, bersamaan dengan pertanyaan pengguna asli, digunakan buat ngasih arahan ke AI konteks panjang, dalam hal ini Gemini 1.5 Pro, untuk nge-generate jawaban akhir dengan akurasi tinggi. Saat diuji coba pada 101 pertanyaan yang disusun secara manual, varian DataGemma yang di-training dengan RIG mampu meningkatkan akurasi model dasar dari 5-17% menjadi sekitar 58%.

Hasil uji coba dengan RAG agak kurang mengesankan, tapi tetep lebih baik daripada model dasar. DataGemma mampu menjawab 24-29% pertanyaan dengan jawaban statistik dari Data Commons. Untuk sebagian besar jawaban ini, AI umumnya akurat dalam hal angka (99%). Namun, AI kesulitan dalam menarik kesimpulan yang benar dari angka-angka tersebut, dengan tingkat kesalahan sekitar 6% hingga 20%. Meskipun demikian, jelas bahwa RIG dan RAG dapat terbukti efektif dalam meningkatkan akurasi model yang menangani pertanyaan statistik, terutama pertanyaan yang terkait dengan penelitian dan pengambilan keputusan.

Kedua cara ini punya kekuatan dan kelemahan masing-masing. RIG lebih cepat tapi kurang detail, karena hanya ngambil data statistik individual dan nge-verifikasi data tersebut. RAG memberikan data yang lebih komprehensif, tapi dibatasi oleh ketersediaan data dan kebutuhan untuk kemampuan penanganan konteks yang besar. Google berharap perilisan publik DataGemma dengan RIG dan RAG akan mendorong penelitian lebih lanjut di kedua pendekatan ini dan membuka jalan buat membangun model yang lebih kuat dan lebih grounded.

Penelitian Google terus berlanjut, dan Google bertekad untuk terus meningkatkan metodologi ini seiring dengan meningkatnya skala kerja. Google juga akan melakukan pengujian yang ketat dan integrasi fungsionalitas yang ditingkatkan ini ke model Gemma dan Gemini, secara bertahap melalui akses terbatas. DataGemma adalah salah satu contoh bagaimana Google terus berupaya untuk meningkatkan akurasi dan keandalan model AI, sekaligus membuka kemungkinan baru untuk mengakses dan menginterpretasi informasi statistik dengan lebih baik.

Ini adalah langkah maju yang signifikan dalam pengembangan AI dan akan terus mendorong inovasi di bidang ini. Google berusaha keras untuk memastikan bahwa AI-nya aman, adil, dan transparan, dan DataGemma adalah bukti komitmen ini. Dengan DataGemma, Google membuka pintu baru untuk penelitian dan pengembangan AI yang lebih canggih dan bertanggung jawab.

Aplikasi – Microsoft Bagikan Perbaikan Sementara untuk Masalah Crash OutlookAplikasi – Microsoft Bagikan Perbaikan Sementara untuk Masalah Crash Outlook

Microsoft bagikan solusi sementara untuk masalah aplikasi Office yang crash. Pengguna dapat mencoba solusi sementara untuk memperbaiki masalah aplikasi...

Serangan Siber: Ungkap Kelemahan MFA, Multi-Factor Authentication - the photo via: venturebeat - pibitek.biz - Komunikasi

Serangan Siber: Ungkap Kelemahan MFA, Multi-Factor AuthenticationSerangan Siber: Ungkap Kelemahan MFA, Multi-Factor Authentication

MFA masih efektif dalam mencegah serangan siber. Peretas terus mencari celah baru untuk menembus MFA. Perusahaan harus beradaptasi dengan perkembangan teknologi baru. (Mar|pibitek.biz|1110)

Keamanan Siber: Era Baru Quantum dan Perlindungan Data - credit to: darkreading - pibitek.biz - Enkripsi

Komputasi • Keamanan Siber: Era Baru Quantum dan Perlindungan DataKomputasi • Keamanan Siber: Era Baru Quantum dan Perlindungan Data

Quantum computing, teknologi yang sudah lama dinantikan, akhirnya mulai menunjukkan taringnya. Bukan hanya soal performa komputer yang jauh lebih cepat, tapi juga kemampuannya untuk menyelesaikan masalah yang rumit dengan kecepatan luar biasa. Bayangkan, kita bisa memaksimalkan portofolio investasi, menciptakan baterai mobil listrik yang lebih awet, menemukan obat baru dengan lebih

Adopsi AI Secara Strategis, Jangan Ikut Tren Sembarangan - the photo via: techrepublic - pibitek.biz - Instruksi

Adopsi AI Secara Strategis, Jangan Ikut Tren Sembarangan • KomunikasiAdopsi AI Secara Strategis, Jangan Ikut Tren Sembarangan • Komunikasi

Gartner sarankan perusahaan jangan terburu-buru adopsi AI. Fokus pada kebutuhan dan tujuan perusahaan dalam adopsi AI. Perusahaan harus siap menghadapi tantangan...

Kebocoran Data Asuransi Globe Life dan Upaya Pemerasan - photo from: bleepingcomputer - pibitek.biz - User

Kebocoran Data Asuransi Globe Life dan Upaya PemerasanKebocoran Data Asuransi Globe Life dan Upaya Pemerasan

Globe Life mengalami kebocoran data pelanggan. Perusahaan asuransi ini menjadi target pemerasan oleh pihak tidak dikenal. Insiden ini menunjukkan lemahnya... [pibitek.biz 2810 Hen]

Nintendo Museum, Bukan Game Baru - credit for: gamerant - pibitek.biz - Industri

Nintendo Museum, Bukan Game BaruNintendo Museum, Bukan Game Baru

Industri – Nintendo baru saja mengumumkan sebuah Nintendo Direct, yang langsung memicu antusiasme para penggemar di seluruh dunia. Namun, kegembiraan itu mungkin sedikit teredam ketika terungkap bahwa Direct ini tidak akan fokus pada game baru atau pembaruan konsol, seperti yang banyak orang harapkan. Alih-alih, Nintendo Direct kali ini akan sepenuhnya terfokus pada

Proton Docs Vs Google Docs: Mana Yang Lebih Baik? - image from: popsci - pibitek.biz - Video

Proton Docs Vs Google Docs: Mana Yang Lebih Baik?Proton Docs Vs Google Docs: Mana Yang Lebih Baik?

Proton Docs lebih unggul karena proses enkripsi ujung ke ujung untuk privasi pengguna dibandingkan Google Docs yang hanya memiliki sistem keamanan standar.... [0817,Gov,pibitek.biz]

AI di Eropa, Kenapa Bisnis Amerika Harus Merhatiin? - picture origin: aibusiness - pibitek.biz - Risiko

AI di Eropa, Kenapa Bisnis Amerika Harus Merhatiin? {Asuransi}AI di Eropa, Kenapa Bisnis Amerika Harus Merhatiin? {Asuransi}

Hal ini akan memastikan bahwa AI dikembangkan dan diterapkan dengan cara yang bermanfaat bagi bisnis dan masyarakat. AI, atau AI, bukan lagi sesuatu yang cuma ada di film. AI udah masuk ke kehidupan sehari-hari, dari browser yang kita pakai sampai playlist musik yang kita dengerin, bahkan sampai rekomendasi kartu kredit baru

Useful Lists

by Dates :	23 Aug 202423 Aug 2024 24 Aug 202424 Aug 2024 16 Sep 202416 Sep 2024 18 Sep 202418 Sep 2024 28 Oct 202428 Oct 2024
by Authors :	Dicky DerilandryDicky Derilandry Ineke AndamariIneke Andamari Heni Qania SulastriHeni Qania Sulastri
by Tags :	#aplikasi#aplikasi #karyawan#karyawan #konten#konten

DataGemma AI: Si Ahli Statistik Canggih Google

Related Post

Useful Lists