Kumpulan data publik dalam jumlah besar yang berfungsi sebagai data pelatihan untuk pembuat gambar AI populer termasuk Stable Diffusion ditemukan berisi ribuan contoh materi pelecehan seksual terhadap anak (CSAM).
Dalam penelitian yang diterbitkan beberapa hari lalu, Stanford Internet Observatory (SIO) mengatakan pihaknya meneliti lebih dari 32 juta titik data dalam kumpulan data LAION-5B dan mampu memvalidasi, menggunakan alat PhotoDNA yang dikembangkan Microsoft, 1.008 gambar CSAM – beberapa mencakup beberapa gambar waktu. Jumlah tersebut mungkin merupakan “penghitungan yang terlalu rendah,†kata para peneliti dalam makalah mereka.
LAION-5B tidak secara mandiri menyertakan gambar, namun kumpulan metadata termasuk hash pengidentifikasi gambar, deskripsi, data bahasa, apakah gambar tersebut mungkin tidak aman, dan URL yang menunjuk ke gambar tersebut. Sejumlah foto CSAM yang ditemukan tertaut di LAION-5B ditemukan dihosting di situs web seperti Reddit, Twitter, Blogspot, dan WordPress, serta situs web dewasa seperti XHamster dan XVideos.
Untuk menemukan gambar dalam kumpulan data yang layak untuk diuji, SIO berfokus pada gambar yang diberi tag oleh pengklasifikasi keamanan LAION sebagai “tidak aman”. Gambar-gambar tersebut dipindai dengan PhotoDNA untuk mendeteksi CSAM, dan kecocokannya dikirim ke Pusat Perlindungan Anak Kanada (C3P) untuk diverifikasi.
“Penghapusan materi sumber yang teridentifikasi saat ini sedang berlangsung ketika para peneliti melaporkan URL gambar tersebut ke Pusat Nasional untuk Anak Hilang dan Tereksploitasi (NCMEC) di AS dan C3P,†kata SIO.
Meskipun ini adalah pertama kalinya data pelatihan AI nirlaba LAION di Jerman dituduh menyembunyikan pornografi anak-anak, organisasi tersebut pernah salah karena sebelumnya memasukkan konten yang meragukan ke dalam data pelatihannya.
Google, yang menggunakan pendahulunya LAION-2B yang dikenal sebagai LAION-400M untuk melatih generator Imagen AI-nya, memutuskan untuk tidak pernah merilis alat tersebut karena beberapa kekhawatiran, termasuk apakah data pelatihan LAION telah membantunya membangun model yang bias dan bermasalah.
Beberapa bulan setelah Google memutuskan untuk tidak mempublikasikan Imagen, seorang seniman melihat gambar medis dari operasi yang dia jalani pada tahun 2013 di LAION-5B, yang tidak pernah dia izinkan untuk disertakan.
LAION belum menanggapi masalah ini, namun pendirinya Christoph Schuhmann mengatakan kepada Bloomberg awal tahun ini bahwa dia tidak mengetahui adanya CSAM di LAION-5B, dan juga mengakui “dia tidak meninjau data secara mendalam.”
Artikel Terkait
Tips KUPU Bagi Pengusaha Dalam Menghadapi Lesunya Ekonomi
November 3, 2022
Montana Jadi Negara Bagian AS Pertama Yang Melarang TikTok
June 8, 2023
Secoda Amankan Pendanaan Senilai $14 Juta Untuk Mesin Penelusuran Mirip Google
October 21, 2023
Apple, Nvidia, Pixar, Adobe Bersama Autodesk Luncurkan OpenUSD
September 3, 2023
Kini Pengguna Dapat Masuk Ke Nintendo Tanpa Perlu Kata Sandi
November 22, 2023
Snowflake Resmi Akuisisi Neeva
June 22, 2023
Saran artikel ini dibuat oleh Kudatuli Project
InstaWP adalah alat pengembangan web yang memungkinkan pengguna untuk membuat dan meluncurkan situs WordPress dengan cepat