Kumpulan data publik dalam jumlah besar yang berfungsi sebagai data pelatihan untuk pembuat gambar AI populer termasuk Stable Diffusion ditemukan berisi ribuan contoh materi pelecehan seksual terhadap anak (CSAM).
Dalam penelitian yang diterbitkan beberapa hari lalu, Stanford Internet Observatory (SIO) mengatakan pihaknya meneliti lebih dari 32 juta titik data dalam kumpulan data LAION-5B dan mampu memvalidasi, menggunakan alat PhotoDNA yang dikembangkan Microsoft, 1.008 gambar CSAM – beberapa mencakup beberapa gambar waktu. Jumlah tersebut mungkin merupakan “penghitungan yang terlalu rendah,†kata para peneliti dalam makalah mereka.
LAION-5B tidak secara mandiri menyertakan gambar, namun kumpulan metadata termasuk hash pengidentifikasi gambar, deskripsi, data bahasa, apakah gambar tersebut mungkin tidak aman, dan URL yang menunjuk ke gambar tersebut. Sejumlah foto CSAM yang ditemukan tertaut di LAION-5B ditemukan dihosting di situs web seperti Reddit, Twitter, Blogspot, dan WordPress, serta situs web dewasa seperti XHamster dan XVideos.
Untuk menemukan gambar dalam kumpulan data yang layak untuk diuji, SIO berfokus pada gambar yang diberi tag oleh pengklasifikasi keamanan LAION sebagai “tidak aman”. Gambar-gambar tersebut dipindai dengan PhotoDNA untuk mendeteksi CSAM, dan kecocokannya dikirim ke Pusat Perlindungan Anak Kanada (C3P) untuk diverifikasi.
“Penghapusan materi sumber yang teridentifikasi saat ini sedang berlangsung ketika para peneliti melaporkan URL gambar tersebut ke Pusat Nasional untuk Anak Hilang dan Tereksploitasi (NCMEC) di AS dan C3P,†kata SIO.
Meskipun ini adalah pertama kalinya data pelatihan AI nirlaba LAION di Jerman dituduh menyembunyikan pornografi anak-anak, organisasi tersebut pernah salah karena sebelumnya memasukkan konten yang meragukan ke dalam data pelatihannya.
Google, yang menggunakan pendahulunya LAION-2B yang dikenal sebagai LAION-400M untuk melatih generator Imagen AI-nya, memutuskan untuk tidak pernah merilis alat tersebut karena beberapa kekhawatiran, termasuk apakah data pelatihan LAION telah membantunya membangun model yang bias dan bermasalah.
Beberapa bulan setelah Google memutuskan untuk tidak mempublikasikan Imagen, seorang seniman melihat gambar medis dari operasi yang dia jalani pada tahun 2013 di LAION-5B, yang tidak pernah dia izinkan untuk disertakan.
LAION belum menanggapi masalah ini, namun pendirinya Christoph Schuhmann mengatakan kepada Bloomberg awal tahun ini bahwa dia tidak mengetahui adanya CSAM di LAION-5B, dan juga mengakui “dia tidak meninjau data secara mendalam.”
Artikel Terkait
MauCariApa.com Akan Meliput Secara Langsung Web3 Developer Bootcamp Di BSD
July 23, 2022
Amazfit Luncurkan GTS 4 Mini, Jam Tangan Pintar Kompak & Stylish
July 20, 2022
Lagi, Google Hadapi Kasus Monopoli Di Amerika Serikat
October 8, 2023
Akhirnya ChromeOS Bedakan Ikon Untuk PWA
May 9, 2023
Meta for Creator Luncurkan Program Bonus Siaran Langsung Untuk Kreator
February 26, 2022
Mio Menunjuk Mantan Eksekutif Microsoft Dan Cisco Sebagai Penasihat
October 6, 2022
Saran artikel ini dibuat oleh Kudatuli Project
FlexClip adalah solusi pengeditan video yang paling mudah digunakan untuk pemula.