Apple, Nvidia & Anthropic gunakan ribuan video YouTube tanpa izin untuk melatih model AI

Perusahaan teknologi beralih ke taktik kontroversial untuk melatih model AI mereka yang haus data, menguras buku, situs web, foto, dan unggahan media sosial, yang sering kali tanpa sepengetahuan pembuatnya.

Perusahaan AI pada umumnya merahasiakan sumber data pelatihan mereka, tetapi penyelidikan oleh Proof News menemukan beberapa perusahaan AI terkaya di dunia telah menggunakan materi dari ribuan video YouTube untuk melatih AI. Perusahaan melakukannya meskipun ada peraturan YouTube yang melarang pengumpulan materi dari platform tersebut tanpa izin.

Investigasi Proof News menemukan bahwa subtitle dari 173.536 video YouTube, yang diambil dari lebih dari 48.000 saluran, digunakan oleh tokoh besar di Silicon Valley, termasuk Anthropic, Nvidia, Apple, dan Salesforce.

Kumpulan data tersebut, yang disebut YouTube Subtitles, berisi transkrip video dari saluran pendidikan dan pembelajaran daring seperti Khan Academy, MIT, dan Harvard. The Wall Street Journal, NPR, dan BBC juga menggunakan video mereka untuk melatih AI, seperti halnya The Late Show With Stephen Colbert, Last Week Tonight With John Oliver, dan Jimmy Kimmel Live.

Proof News juga menemukan materi dari YouTuber ternama, termasuk MrBeast (289 juta pelanggan, dua video diambil untuk pelatihan), Marques Brownlee (19 juta pelanggan, tujuh video diambil), Jacksepticeye (hampir 31 juta pelanggan, 377 video diambil), dan PewDiePie (111 juta pelanggan, 337 video diambil). Beberapa materi yang digunakan untuk melatih AI juga mempromosikan konspirasi seperti “teori bumi datar”.

Proof News membuat alat untuk mencari kreator dalam kumpulan data pelatihan AI YouTube.

Apple, Nvidia, dan Salesforce—perusahaan yang bernilai ratusan miliar dan triliunan dolar menjelaskan dalam makalah penelitian dan posting mereka bagaimana mereka menggunakan Pile untuk melatih AI. Dokumen juga menunjukkan Apple menggunakan Pile untuk melatih OpenELM, model terkenal yang dirilis pada bulan April, beberapa minggu sebelum perusahaan tersebut mengungkapkan akan menambahkan kemampuan AI baru ke iPhone dan MacBook. Bloomberg dan Databricks juga melatih model pada Pile, publikasi perusahaan tersebut menunjukkan.

Begitu pula Anthropic, pembuat AI terkemuka yang memperoleh investasi $4 miliar dari Amazon dan mempromosikan fokusnya pada “keamanan AI.”

Salesforce juga mengonfirmasi penggunaan Pile untuk membangun model AI untuk “tujuan akademis dan penelitian.” Caiming Xiong, wakil presiden penelitian AI di perusahaan tersebut, menekankan dalam sebuah pernyataan bahwa kumpulan data tersebut “tersedia untuk umum.”