- Mostly AI meluncurkan alat teks sintetis untuk pelatihan AI yang aman.
- Alat ini menghasilkan data sintetis tanpa menyertakan informasi pribadi.
- Penggunaan data sintetis meningkatkan efisiensi pelatihan AI perusahaan.
pibitek.biz -Mostly AI, perusahaan teknologi Austria yang dikenal dengan platformnya untuk pembangkitan data sintetis, merilis alat teks sintetis terbaru. Alat ini dirancang untuk mengatasi hambatan utama dalam pelatihan AI di perusahaan, yaitu keterbatasan data yang aman dan etis. Dengan alat teks sintetis ini, perusahaan dapat memanfaatkan data internal yang bersifat rahasia tanpa mengorbankan privasi data. Alat ini menghasilkan versi sintetis dari informasi internal perusahaan, tanpa menyertakan informasi yang bersifat pribadi (PII) atau celah keragaman.
2 – Startup AI Perplexity Bidik Pendanaan 7 Triliun 2 – Startup AI Perplexity Bidik Pendanaan 7 Triliun
3 – Apple Tertinggal dalam Pengembangan AI 3 – Apple Tertinggal dalam Pengembangan AI
Pendekatan ini membuka peluang baru bagi perusahaan untuk melatih dan menyempurnakan LLM dengan lebih cepat dan efisien, sehingga dapat meningkatkan inovasi dan pengambilan keputusan. Pelatihan AI saat ini menghadapi tantangan utama, di mana perusahaan mencari sumber data yang lebih bermakna dan berpotensi dibandingkan dengan data publik yang tersedia. Data sintetis, yang dihasilkan secara artifisial, muncul sebagai solusi alternatif yang lebih praktis dan hemat biaya. Di era kemajuan teknologi AI Generatif, penggunaan data sintetis semakin meluas dan mencakup berbagai jenis data.
Gartner memprediksi bahwa pada tahun 2026, 75% perusahaan akan menggunakan AI Generatif untuk membuat data sintetis, meningkat drastis dari hanya 5% pada tahun 2023. Meskipun data sintetis memberikan solusi bagi keterbatasan data real, data sintetis yang dihasilkan mungkin masih kekurangan konteks dan wawasan spesifik perusahaan. Hal ini dapat menghambat kinerja model AI dalam mempelajari dan menghasilkan output yang sesuai dengan harapan. Mostly AI mengatasi masalah ini dengan memberikan platform untuk melatih generator AI sendiri yang dapat menghasilkan data sintetis secara real-time.
Sebelumnya, perusahaan ini telah fokus pada pembangkitan dataset tabel terstruktur, yang menangkap nuansa dari catatan transaksi, perjalanan pasien, dan basis data manajemen hubungan pelanggan (CRM). Kini, Mostly AI memperluas jangkauannya ke data teks. Perusahaan menyadari bahwa dataset teks internal, seperti email, percakapan chatbot, dan transkrip dukungan, dikumpulkan dalam skala besar, tetapi sulit untuk digunakan karena mengandung PII, celah keragaman, dan data terstruktur. Alat teks sintetis terbaru dari Mostly AI memungkinkan pengguna untuk melatih generator AI menggunakan teks internal yang mereka miliki, dan kemudian menggunakan generator tersebut untuk menghasilkan versi sintetis yang dibersihkan dari PII dan celah keragaman.
Proses ini meniru nuansa dan wawasan dalam teks asli, termasuk konteks data terstruktur terkait, sehingga model AI dapat memahami dan memproses data dengan lebih baik. Pengguna dapat memilih dari berbagai model bahasa, termasuk Mistral-7B dan Viking-7B, untuk melatih generator mereka. Model bahasa terpilih dilatih lebih lanjut dengan data teks asli di platform Mostly AI, disertai dengan data terstruktur terkait untuk meningkatkan kualitas teks sintetis yang dihasilkan. Setelah proses pelatihan selesai, platform Mostly AI akan menghasilkan teks sintetis yang dapat diunduh atau disimpan dalam basis data untuk diproses lebih lanjut.
Kemampuan alat teks sintetis untuk membuka potensi data teks internal tanpa mengorbankan privasi membuatnya menjadi solusi yang menarik bagi perusahaan yang ingin meningkatkan upaya pelatihan AI mereka. Tobias Hann, CEO Mostly AI, mengatakan bahwa platform ini dirancang untuk menghasilkan pasangan prompt-respons, seperti pasangan pertanyaan-jawaban, yang sangat penting untuk menyempurnakan LLM yang dirancang untuk layanan pelanggan. Meskipun alat ini baru dirilis, perusahaan melihat potensi besar dalam aplikasi seperti pembangkitan pasangan prompt-respons, mengingat pentingnya pasangan tersebut dalam menyempurnakan LLM yang dirancang untuk layanan pelanggan.
Dalam uji coba internal, Mostly AI menemukan bahwa pelatihan klasifikasi teks menggunakan data sintetis yang dihasilkan oleh platform mereka menghasilkan peningkatan kinerja sebesar 35% dibandingkan dengan data yang dihasilkan melalui pemanggilan GPT-4o-mini. Meskipun hasil ini menjanjikan, perlu dicatat bahwa perbandingan ini bersifat apples-to-oranges dan belum ada tolok ukur yang jelas untuk membandingkan kinerja generator teks sintetis Mostly AI dengan generator lain seperti Gretel. Hann menekankan bahwa platform Mostly AI telah diuji coba dan dibandingkan dengan solusi lain di masa lalu, dan secara konsisten menunjukkan performa yang unggul dalam hal kualitas (akurasi, ketepatan) dan privasi data sintetis yang dihasilkan.
Peningkatan penggunaan data sintetis menandai perubahan signifikan dalam cara perusahaan melatih model AI. Data sintetis menawarkan solusi yang lebih praktis dan efisien dibandingkan dengan pengumpulan data real yang seringkali sulit dan mahal. Alat teks sintetis terbaru dari Mostly AI memberikan solusi yang inovatif untuk mengatasi masalah privasi dan keragaman data dalam pelatihan AI, memungkinkan perusahaan untuk memanfaatkan data internal yang berharga tanpa mengorbankan keamanan dan etika.