Perusahaan teknologi beralih ke taktik kontroversial untuk melatih model AI mereka yang haus data, menguras buku, situs web, foto, dan unggahan media sosial, yang sering kali tanpa sepengetahuan pembuatnya.
Perusahaan AI pada umumnya merahasiakan sumber data pelatihan mereka, tetapi penyelidikan oleh Proof News menemukan beberapa perusahaan AI terkaya di dunia telah menggunakan materi dari ribuan video YouTube untuk melatih AI. Perusahaan melakukannya meskipun ada peraturan YouTube yang melarang pengumpulan materi dari platform tersebut tanpa izin.
Investigasi Proof News menemukan bahwa subtitle dari 173.536 video YouTube, yang diambil dari lebih dari 48.000 saluran, digunakan oleh tokoh besar di Silicon Valley, termasuk Anthropic, Nvidia, Apple, dan Salesforce.
Kumpulan data tersebut, yang disebut YouTube Subtitles, berisi transkrip video dari saluran pendidikan dan pembelajaran daring seperti Khan Academy, MIT, dan Harvard. The Wall Street Journal, NPR, dan BBC juga menggunakan video mereka untuk melatih AI, seperti halnya The Late Show With Stephen Colbert, Last Week Tonight With John Oliver, dan Jimmy Kimmel Live.
Proof News juga menemukan materi dari YouTuber ternama, termasuk MrBeast (289 juta pelanggan, dua video diambil untuk pelatihan), Marques Brownlee (19 juta pelanggan, tujuh video diambil), Jacksepticeye (hampir 31 juta pelanggan, 377 video diambil), dan PewDiePie (111 juta pelanggan, 337 video diambil). Beberapa materi yang digunakan untuk melatih AI juga mempromosikan konspirasi seperti “teori bumi datar”.
Proof News membuat alat untuk mencari kreator dalam kumpulan data pelatihan AI YouTube.
Apple, Nvidia, dan Salesforce—perusahaan yang bernilai ratusan miliar dan triliunan dolar menjelaskan dalam makalah penelitian dan posting mereka bagaimana mereka menggunakan Pile untuk melatih AI. Dokumen juga menunjukkan Apple menggunakan Pile untuk melatih OpenELM, model terkenal yang dirilis pada bulan April, beberapa minggu sebelum perusahaan tersebut mengungkapkan akan menambahkan kemampuan AI baru ke iPhone dan MacBook. Bloomberg dan Databricks juga melatih model pada Pile, publikasi perusahaan tersebut menunjukkan.
Begitu pula Anthropic, pembuat AI terkemuka yang memperoleh investasi $4 miliar dari Amazon dan mempromosikan fokusnya pada “keamanan AI.”
Salesforce juga mengonfirmasi penggunaan Pile untuk membangun model AI untuk “tujuan akademis dan penelitian.” Caiming Xiong, wakil presiden penelitian AI di perusahaan tersebut, menekankan dalam sebuah pernyataan bahwa kumpulan data tersebut “tersedia untuk umum.”
Artikel Terkait
Peretas UNC3886 menggunakan Rootkit Linux untuk bersembunyi di mesin virtual VMware ESXi
July 11, 2024
Respon AlmaLinux Terhadap RedHat Yang Batasi Akses Kode Sumber RHEL
July 26, 2023
NSA Rekomendasikan Karyawan Menonaktifkan Data Lokasi Karena Risiko Keamanan Nasional
April 9, 2021
Acara Game Tahunan E3 Akan Digelar Juni 2023
July 18, 2022
OpenAI hapus kepemilikan modal Sam Altman dari startup AI tersebut
April 5, 2024
Google perkenalkan Code Assist, penantang terbaru GitHub Copilot
April 14, 2024
Saran artikel ini dibuat oleh Kudatuli Project
InstaWP adalah alat pengembangan web yang memungkinkan pengguna untuk membuat dan meluncurkan situs WordPress dengan cepat