Sebuah studi ungkap keterlibatan CSAM dalam data Pelatihan AI

csam laion ai.jpg
December 29, 2023
Share

Kumpulan data publik dalam jumlah besar yang berfungsi sebagai data pelatihan untuk pembuat gambar AI populer termasuk Stable Diffusion ditemukan berisi ribuan contoh materi pelecehan seksual terhadap anak (CSAM).

Dalam penelitian yang diterbitkan beberapa hari lalu, Stanford Internet Observatory (SIO) mengatakan pihaknya meneliti lebih dari 32 juta titik data dalam kumpulan data LAION-5B dan mampu memvalidasi, menggunakan alat PhotoDNA yang dikembangkan Microsoft, 1.008 gambar CSAM – beberapa mencakup beberapa gambar waktu. Jumlah tersebut mungkin merupakan “penghitungan yang terlalu rendah,” kata para peneliti dalam makalah mereka.

LAION-5B tidak secara mandiri menyertakan gambar, namun kumpulan metadata termasuk hash pengidentifikasi gambar, deskripsi, data bahasa, apakah gambar tersebut mungkin tidak aman, dan URL yang menunjuk ke gambar tersebut. Sejumlah foto CSAM yang ditemukan tertaut di LAION-5B ditemukan dihosting di situs web seperti Reddit, Twitter, Blogspot, dan WordPress, serta situs web dewasa seperti XHamster dan XVideos.

Untuk menemukan gambar dalam kumpulan data yang layak untuk diuji, SIO berfokus pada gambar yang diberi tag oleh pengklasifikasi keamanan LAION sebagai “tidak aman”. Gambar-gambar tersebut dipindai dengan PhotoDNA untuk mendeteksi CSAM, dan kecocokannya dikirim ke Pusat Perlindungan Anak Kanada (C3P) untuk diverifikasi.

“Penghapusan materi sumber yang teridentifikasi saat ini sedang berlangsung ketika para peneliti melaporkan URL gambar tersebut ke Pusat Nasional untuk Anak Hilang dan Tereksploitasi (NCMEC) di AS dan C3P,” kata SIO.

🚸
Tidak jelas apakah Stability AI, yang mengembangkan Difusi Stabil, mengetahui adanya potensi CSAM dalam modelnya karena penggunaan LAION-5B.

Meskipun ini adalah pertama kalinya data pelatihan AI nirlaba LAION di Jerman dituduh menyembunyikan pornografi anak-anak, organisasi tersebut pernah salah karena sebelumnya memasukkan konten yang meragukan ke dalam data pelatihannya.

Recommended:  Tim ParanoidAndroid Rilis Android 13 Untuk Pixel 7 Series

Google, yang menggunakan pendahulunya LAION-2B yang dikenal sebagai LAION-400M untuk melatih generator Imagen AI-nya, memutuskan untuk tidak pernah merilis alat tersebut karena beberapa kekhawatiran, termasuk apakah data pelatihan LAION telah membantunya membangun model yang bias dan bermasalah.

Beberapa bulan setelah Google memutuskan untuk tidak mempublikasikan Imagen, seorang seniman melihat gambar medis dari operasi yang dia jalani pada tahun 2013 di LAION-5B, yang tidak pernah dia izinkan untuk disertakan.

LAION belum menanggapi masalah ini, namun pendirinya Christoph Schuhmann mengatakan kepada Bloomberg awal tahun ini bahwa dia tidak mengetahui adanya CSAM di LAION-5B, dan juga mengakui “dia tidak meninjau data secara mendalam.”