Reddit Blokir Bot untuk Cegah Penggunaan Data AI Tanpa Izin



Reddit Blokir Bot untuk Cegah Penggunaan Data AI Tanpa Izin - credit for: pcmag - pibitek.biz - Robot

credit for: pcmag


336-280
TL;DR
  • Reddit memperbarui protokol robots.txt untuk mencegah penggunaan data AI tanpa izin.
  • Google mengingatkan bahwa ada celah untuk menghindari aturan robots.txt, sehingga startup AI masih dapat mengambil data Reddit.
  • Reddit harus menjadi lebih spesifik dalam kebijakannya karena FTC akan melakukan investigasi atas lisensi data pengguna.

pibitek.biz -Reddit memperbarui protokol Robots Exclusion Protocol (robots. txt) untuk mencegah bot dan web crawler mengambil data dan konten dari situsnya. Tujuannya adalah untuk menghentikan penggunaan data AI tanpa izin.

Reddit mengatakan bahwa "aktor baik" seperti Internet Archive akan tetap memiliki akses ke platformnya. Perubahan ini tidak akan mempengaruhi sebagian besar pengguna Reddit. Reddit juga akan terus melakukan rate-limiting untuk mencegah pengambilan data oleh pihak ketiga.

Namun, Google mengingatkan bahwa ada celah untuk menghindari aturan robots. txt. "Instruksi dalam file robots.txt tidak dapat memaksa perilaku crawler ke situs kamu; itu tergantung pada crawler untuk mematuhinya", kata Google. Artinya, startup AI masih dapat mengambil data Reddit dan melatih modelnya secara diam-diam, meskipun kebijakan Reddit melarangnya. Bulan ini, Business Insider melaporkan bahwa OpenAI dan Anthropic telah menghindari file robots.

txt untuk mengambil data dari situs web. Tidak jelas apakah pembaruan Reddit pada hari Selasa langsung mengatasi metode mereka. Kebijakan Reddit menyatakan bahwa pengguna tidak boleh menggunakan konten Reddit sebagai input untuk pelatihan model tanpa izin eksplisit dari Reddit.

Penggunaan komersial dari model yang dilatih dengan data Reddit juga dilarang tanpa persetujuan eksplisit. Reddit telah membuat beberapa kesepakatan data. Pada Februari, Google dan Reddit menandatangani kesepakatan lisensi konten senilai $60 juta yang memungkinkan Google menggunakan API Reddit dan Reddit menggunakan VertexAI Google.

Respons Reddit kemudian muncul di Google Search AI Overviews, dengan hasil yang beragam. ChatGPT juga akan segera mengutip postingan Reddit, berkat kemitraan resmi yang diumumkan bulan lalu. Tidak jelas apakah konten Reddit akan membantu melatih model OpenAI berikutnya, tetapi itu sangat mungkin mengingat kebutuhan akan data baru yang tak terbatas dari perusahaan AI.

Reddit mungkin harus menjadi lebih spesifik segera, karena FTC pada Maret merilis investigasi atas lisensi data pengguna. Semua ini terjadi setelah Reddit membatasi akses ke API-nya tahun lalu, sebagian untuk mencegah perusahaan AI mengambil data secara gratis. Itu memicu protes dari pengembang, blackout subreddit, dan kehancuran beberapa klien Reddit populer.