Segurança 17 Jul
Diversos relatos alegam que a OpenAI utilizou conteúdo do YouTube para treinar o seu modelo de texto para vídeo intitulado Sora. Agora, novas informações sugerem que Apple, NVIDIA, Anthropic e outras utilizaram esses dados gerados por usuários para treinarem seus modelos de IA.
Segundo uma investigação do Proof News publicada pelo Wired, a Apple teria utilizado milhares de vídeos no YouTube com legendas para treinar a Apple Intelligence, algo que é contra a política de conteúdo da plataforma.
O artigo afirma que a Apple e outras companhias utilizaram um conjunto de dados chamado “YouTube Subtitles”, que inclui a transcrição de 173.536 vídeos do YouTube de mais de 48.000 canais.
Vídeos do grupo incluem canais educacionais, como Khan Academy e MIT, além de veículos de notícias, como The Wall Street Journal, e criadores de conteúdo como MrBeast e Marques Brownlee.
Segundo Marques Brownlee, a Apple conseguir fugir da “culpa” porque obteve sua IA de empresas que utilizaram as transcrições de vídeos do YouTube, sem utilizar os dados diretamente.
Caso essa informação esteja correta, os dados e transcrições contribuirão significativamente para os modelos de inteligência artificial. Brownlee cita que isso será um problema que irá piorar com o tempo.
O Proof News também criou uma ferramenta para que os criadores de conteúdo busquem seu conteúdo no conjunto de dados. Vale frisar que o “YouTube Subtitles” não inclui imagens de vídeos, mas traz algumas legendas traduzidas. Aparentemente, ele foi criado foi um laboratório de pesquisas sem fins lucrativos, o Eleuther AI que promove normais de ciência aberta.
Nenhuma das companhias mencionadas no artigo se pronunciou. O chefe executivo do YouTube, Neal Mohan, falou anteriormente em uma entrevista que companhias utilizarem vídeos da plataforma para treinarem inteligência artificial é uma clara violação das políticas da plataforma.
Comentários