Transparansi Data Pelatihan AI Generatif



Transparansi Data Pelatihan AI Generatif - credit to: jdsupra - pibitek.biz - Privasi

credit to: jdsupra


336-280
TL;DR
  • RUU 2013 (AB 2013) California mewajibkan pengembang AI Generatif untuk mengungkap data pelatihan.
  • Pengembang harus memposting informasi tentang data pelatihan di situs web mereka sebelum sistem AI tersedia.
  • Undang-undang ini bertujuan meningkatkan transparansi dan memungkinkan pengguna membuat keputusan yang lebih tepat.

pibitek.biz -Lembaga legislatif California baru-baru ini meloloskan RUU 2013 (AB 2013) pada 27 Agustus 2024. RUU ini bertujuan untuk meningkatkan transparansi dalam pelatihan dan pengembangan AI. Jika ditandatangani menjadi undang-undang oleh Gubernur Gavin Newsom, pengembang sistem atau layanan AI Generatif yang tersedia bagi warga California diwajibkan untuk mengumumkan informasi penting tentang data yang digunakan untuk melatih sistem atau layanan AI tersebut. Ketentuan ini berpotensi menimbulkan beban kepatuhan baru bagi penyedia AI serta tantangan unik bagi pelanggan dalam menafsirkan informasi tersebut.

RUU ini mewajibkan pengembang AI Generatif untuk mengungkap data yang digunakan dalam proses pelatihan. Ketentuan ini mencantumkan persyaratan transparansi data pelatihan untuk AI Generatif yang ditujukan untuk akses publik di California. AB 2013 hanya berlaku untuk "AI Generatiferatif", yang didefinisikan sebagai "AI yang dapat menghasilkan konten sintetis turunan, seperti teks, gambar, video, dan audio, yang meniru struktur dan karakteristik data pelatihan AI tersebut". Dengan kata lain, AI Generatif adalah sistem yang menerima data, belajar dari data tersebut, dan kemudian membuat konten baru yang meniru pola dan karakteristik data yang dilatihnya.

Sistem atau layanan AI Generatif yang terkena dampak AB 2013 dapat mencakup, misalnya, pencarian produk percakapan, asisten belanja, fitur dukungan chatbot, dan fitur virtual try-on. "AI", secara lebih luas, berarti "sistem rekayasa atau berbasis mesin yang bervariasi dalam tingkat otonominya dan yang dapat, untuk tujuan eksplisit atau implisit, menyimpulkan dari masukan yang diterimanya bagaimana menghasilkan keluaran yang dapat memengaruhi lingkungan fisik atau virtual". Karena AB 2013 berlaku untuk AI Generatif dan bukan AI secara lebih luas, AB 2013 tidak berlaku untuk AI simbolik (atau "tradisional") yang sederhana, karena sistem tersebut hanya mengikuti aturan atau instruksi yang telah diprogram sebelumnya tanpa belajar dari data dan menghasilkan konten sintetis.

AB 2013 akan berlaku untuk "pengembang", yang berarti "orang, persekutuan, badan pemerintahan negara bagian atau lokal, atau perusahaan yang merancang, mengkodekan, memproduksi, atau secara substansial memodifikasi sistem atau layanan AI untuk digunakan oleh anggota masyarakat". Karena definisi "pengembang" yang luas ini, setiap penyedia layanan yang terlibat dalam melatih ulang atau menyempurnakan model AI Generatif yang ada juga dapat berada dalam cakupan. Pengembang diwajibkan untuk mematuhi undang-undang tersebut terlepas dari apakah alat AI Generatif disediakan dengan imbalan biaya.

Di sisi lain, AB 2013 tidak akan berlaku untuk teknologi AI Generatif (1) yang tujuan tunggalnya adalah untuk memastikan keamanan dan integritas; (2) yang tujuan tunggalnya adalah pengoperasian pesawat terbang di wilayah udara nasional; atau (3) dikembangkan untuk tujuan keamanan nasional, militer, atau pertahanan yang hanya tersedia untuk entitas federal. AB 2013 mewajibkan pengembang untuk memposting ringkasan tingkat tinggi dari dataset yang digunakan untuk melatih sistem atau layanan AI Generatif di situs web mereka. Informasi yang diwajibkan untuk dipublikasikan meliputi, tetapi tidak terbatas pada:

– Sumber data:

Pengembang perlu merinci sumber utama data pelatihan. Misalnya, apakah data berasal dari sumber publik, seperti kumpulan data yang tersedia bebas, atau dari sumber pribadi, seperti data yang dikumpulkan oleh perusahaan?

– Jenis data:

Pengembang perlu menunjukkan jenis data yang digunakan untuk melatih AI Generatif. Ini dapat mencakup teks, gambar, video, audio, atau kombinasi dari berbagai jenis data.

– Metode pelatihan:

Pengembang perlu mengungkap metode khusus yang digunakan untuk melatih AI Generatif. Informasi ini dapat mencakup jenis algoritma yang digunakan, durasi proses pelatihan, dan parameter lain yang relevan.

– Bias dan kendala:

Pengembang perlu membahas potensi bias atau keterbatasan dalam data pelatihan dan bagaimana bias tersebut mungkin memengaruhi hasil AI Generatif. Informasi ini dapat mencakup langkah-langkah yang diambil untuk mengurangi bias dan upaya yang dilakukan untuk mengatasi keterbatasan data pelatihan.

– Metodologi audit:

Pengembang perlu memberikan informasi tentang bagaimana dataset yang digunakan untuk melatih AI Generatif diaudit untuk memastikan akurasi, integritas, dan keandalannya.

Informasi ini dapat mencakup prosedur audit, frekuensi audit, dan pihak yang bertanggung jawab untuk menjalankan audit. Pengembang memiliki kewajiban untuk mengungkap data yang digunakan dalam proses pelatihan. Kewajiban ini berlaku sejak AI Generatif tersedia untuk umum. Pengembang memiliki kewajiban untuk memposting informasi yang diwajibkan di situs web mereka sebelum sistem atau layanan tersebut (atau modifikasi substansial terhadapnya) tersedia untuk umum bagi warga California. Karena kewajiban transparansi bersifat retrospektif, perusahaan perlu memberikan informasi pada 1 Januari 2026 tentang data yang sebelumnya digunakan untuk melatih layanan AI Generatif yang sudah beroperasi.

Kewajiban transparansi data pelatihan ini muncul dari meningkatnya kesadaran akan potensi risiko yang terkait dengan AI Generatif. Kekhawatiran terkait dengan penggunaan data pelatihan yang bias, kekhawatiran tentang privasi data, dan kekhawatiran tentang potensi AI Generatif untuk menyebarkan informasi yang salah atau menyesatkan. AB 2013, dengan mewajibkan transparansi data pelatihan, bertujuan untuk memungkinkan pengguna AI untuk membuat keputusan yang lebih tepat tentang sistem AI mana yang akan digunakan dan bagaimana menafsirkan keluarannya.

Legislasi ini juga mendorong pengembang AI untuk mempertimbangkan implikasi etika dan sosial dari pekerjaan mereka dan untuk mengambil langkah-langkah untuk mengurangi potensi risiko yang terkait dengan AI Generatif. Legislasi tersebut menimbulkan pertanyaan tentang tingkat detail yang tepat yang diperlukan untuk menginformasikan pengguna secara bermakna tanpa membebani mereka atau mengorbankan keuntungan kompetitif. Pengembang dan konsumen layanan AI Generatif perlu dengan cermat mengevaluasi informasi apa yang harus diumumkan secara spesifik dan bagaimana informasi tersebut harus ditafsirkan, terutama ketika data pelatihan kompleks atau bersumber dari berbagai asal.

Masalah potensial lainnya adalah AB 2013 tidak secara eksplisit mengizinkan pengembang untuk mengecualikan informasi dari pengumuman mereka yang mungkin dilindungi sebagai rahasia dagang (tetapi juga tidak memuat ketentuan yang mengesampingkan perlindungan rahasia dagang yang ada secara umum yang tersedia di bawah hukum California). Hal ini signifikan, karena penolakan umum dari vendor ketika menegosiasikan persyaratan pelaporan dan transparansi terkait dengan sifat kepemilikan dari pembobotan model, logika, dan spesifikasi data pelatihan lainnya. Mengikuti Colorado, yang memberlakukan undang-undang AI komprehensif pertama di AS, dan negara bagian lain yang meloloskan undang-undang AI pada tahun 2024, legislatif California meloloskan 38 RUU AI dalam sesi 2024.

RUU AI terkait lainnya yang masih menunggu tanda tangan Gubernur Newsom meliputi:

– RUU 1048 (AB 1048), yang akan mendefinisikan "algoritma" dan akan mengizinkan Divisi Hak Sipil Departemen Kehakiman California untuk menyelidiki dan mengambil tindakan atas diskriminasi algoritmik.

– RUU 1464 (AB 1464), yang akan membentuk kelompok kerja untuk mempelajari dan membuat rekomendasi tentang praktik terbaik untuk sistem AI yang digunakan dalam rekrutmen.

– RUU 1793 (AB 1793), yang akan mengamanatkan penelitian tentang penggunaan teknologi AI di sekolah-sekolah California.

Gubernur Newsom memiliki waktu hingga 30 September untuk menandatangani atau memveto AB 2013. Jika undang-undang ini disahkan, pengembang akan memiliki sejumlah kewajiban kepatuhan baru dan kemungkinan besar akan menghadapi tantangan yang muncul. Di sisi lain, pelanggan AI perlu menyusun kewajiban kontraktual bagi penyedia AI untuk memastikan kepatuhan serta strategi praktis tentang cara mengonsumsi dan menafsirkan informasi yang diberikan sesuai dengan undang-undang tersebut. Tantangan praktis ini kemungkinan besar akan meningkat ketika muncul kumpulan peraturan AI tingkat negara bagian di Amerika Serikat.