Kumpulan data publik dalam jumlah besar yang berfungsi sebagai data pelatihan untuk pembuat gambar AI populer termasuk Stable Diffusion ditemukan berisi ribuan contoh materi pelecehan seksual terhadap anak (CSAM).
Dalam penelitian yang diterbitkan beberapa hari lalu, Stanford Internet Observatory (SIO) mengatakan pihaknya meneliti lebih dari 32 juta titik data dalam kumpulan data LAION-5B dan mampu memvalidasi, menggunakan alat PhotoDNA yang dikembangkan Microsoft, 1.008 gambar CSAM – beberapa mencakup beberapa gambar waktu. Jumlah tersebut mungkin merupakan “penghitungan yang terlalu rendah,†kata para peneliti dalam makalah mereka.
LAION-5B tidak secara mandiri menyertakan gambar, namun kumpulan metadata termasuk hash pengidentifikasi gambar, deskripsi, data bahasa, apakah gambar tersebut mungkin tidak aman, dan URL yang menunjuk ke gambar tersebut. Sejumlah foto CSAM yang ditemukan tertaut di LAION-5B ditemukan dihosting di situs web seperti Reddit, Twitter, Blogspot, dan WordPress, serta situs web dewasa seperti XHamster dan XVideos.
Untuk menemukan gambar dalam kumpulan data yang layak untuk diuji, SIO berfokus pada gambar yang diberi tag oleh pengklasifikasi keamanan LAION sebagai “tidak aman”. Gambar-gambar tersebut dipindai dengan PhotoDNA untuk mendeteksi CSAM, dan kecocokannya dikirim ke Pusat Perlindungan Anak Kanada (C3P) untuk diverifikasi.
“Penghapusan materi sumber yang teridentifikasi saat ini sedang berlangsung ketika para peneliti melaporkan URL gambar tersebut ke Pusat Nasional untuk Anak Hilang dan Tereksploitasi (NCMEC) di AS dan C3P,†kata SIO.
Meskipun ini adalah pertama kalinya data pelatihan AI nirlaba LAION di Jerman dituduh menyembunyikan pornografi anak-anak, organisasi tersebut pernah salah karena sebelumnya memasukkan konten yang meragukan ke dalam data pelatihannya.
Google, yang menggunakan pendahulunya LAION-2B yang dikenal sebagai LAION-400M untuk melatih generator Imagen AI-nya, memutuskan untuk tidak pernah merilis alat tersebut karena beberapa kekhawatiran, termasuk apakah data pelatihan LAION telah membantunya membangun model yang bias dan bermasalah.
Beberapa bulan setelah Google memutuskan untuk tidak mempublikasikan Imagen, seorang seniman melihat gambar medis dari operasi yang dia jalani pada tahun 2013 di LAION-5B, yang tidak pernah dia izinkan untuk disertakan.
LAION belum menanggapi masalah ini, namun pendirinya Christoph Schuhmann mengatakan kepada Bloomberg awal tahun ini bahwa dia tidak mengetahui adanya CSAM di LAION-5B, dan juga mengakui “dia tidak meninjau data secara mendalam.”
Artikel Terkait
MauCariApa.com Luncurkan CryptoLine
November 11, 2022
Google Message kini menjadi aplikasi default di perangkat Samsung
July 28, 2024
Emulator Nintendo 3DS Lime bangkit setelah sengketa Nintendo-Yuzu
March 27, 2024
Google Play Store mulai menyorot aplikasi yang mungkin dapat menghapus akun Anda
May 28, 2024
Yoona, Perusahaan Femtech Wellness Pertama, Meluncurkan Varian Baru Pembalut Organik Ramah Lingkungan
November 6, 2022
QUIC.cloud CDN Sekarang Dapat Digunakan Untuk Situs Web Utama Anda
June 4, 2021
Saran artikel ini dibuat oleh Kudatuli Project
FlexClip adalah solusi pengeditan video yang paling mudah digunakan untuk pemula.