Organização alemã usa fotos de crianças do Brasil para treinar IA

A ferramenta de inteligência artificial (IA) LAION-5B, da organização alemã LAION, está usando imagens de crianças brasileiras – publicadas em redes sociais e blogs pessoais de parentes – para fins de treino de seu modelo de linguagem grande (LLM), de acordo com levantamento feito pelo pela Human Rights Watch.

O processo é conhecido como “raspagem” de dados e, embora tecnicamente, ele não seja ilegal, pode levar a vários problemas. Neste contexto, o fato de usarem imagens de crianças em momentos festivos abre espaço para preocupações como a criação de deepfakes e outros recursos digitais maliciosos que possam colocar as crianças em situação de risco.

Veja também

Câmara aprova aumento de pena para crimes com deepfake e uso de IA contra mulheres no Brasil 12

Segurança 08 Mar

Deepfakes são usados por cibercriminosos para atrair vítimas para jogos falsos de apostas 1

Segurança 16 Jan

“Crianças e adolescentes não deveriam ter que viver com medo de que suas fotos possam ser roubadas e usadas contra eles”, disse Hye Jung Han, pesquisadora de direitos da criança e tecnologia da Human Rights Watch. “O governo deveria adotar urgentemente políticas para proteger os dados das crianças contra uso indevido impulsionado por IA.”

O LAION-5B é, em termos simplificados, uma base de dados bem robusta – cerca de 400 vezes maior e mais detalhada que a sua versão anterior, de acordo com o site da LAION. Bases de dados desse tipo são usadas para incrementar o conhecimento das ferramentas de IA. Em termos práticos, para fácil entendimento, ele não seria o aplicativo de chatbot em si, mas sim a ferramenta que o “treinou”.

Para fins de exemplo: a Stable Diffusion, uma aplicação de IA generativa capaz de gerar imagens ultrarrealistas a partir de descrições textuais, é uma das ferramentas “treinadas” pelo LAION-5B, entre diversas outras. Em 2022, um usuário desse app foi acusado de produzir imagens sexualmente explícitas e abusivas…de crianças.

Em 2023, David Thiel, pesquisador da Universidade de Stanford, publicou denúncia que citava a Stable Diffusion por nome, acusando diversas ferramentas de IA de serem treinadas – entre outras coisas – por imagens de pornografia infantil explícita (quando o ato sexual é exibido na imagem) ou implícita (quando o ato sexual é presumido por meio de contexto da imagem).

No levantamento da Human Rights Watch, a ONG global afirma que boa parte das imagens até identificam as crianças das imagens – não só por rosto, mas também por nome, graças às URLs geradas na publicação das fotos. Isso é um problema grave, haja vista que um hacker de capacidade mediana poderia usar essas informações para identificar, por exemplo, contexto de “quando” e “onde” a imagem foi produzida, produzindo oportunidades de ataques via engenharia social e phishing.

Diz trecho do relatório:

“Uma dessas fotos mostra uma menina de 2 anos com os lábios entreabertos de admiração enquanto toca os dedinhos de sua irmã recém-nascida. A legenda e as informações incorporadas na foto revelam não apenas os nomes das duas crianças, mas também o nome e a localização exata do hospital em Santa Catarina onde o bebê nasceu há nove anos, em uma tarde de inverno.”

Ao todo, a Human Rights Watch encontrou 170 fotos de crianças em pelo menos 10 estados do Brasil: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo. A ONG, no entanto, alerta que os dados podem ser bem maiores, já que o levantamento publicado corresponde a “menos de 0,0001% dos 5,85 bilhões de imagens e legendas contidas” no LAION-5B.

Mais além, nem todas as imagens estavam configuradas para exibição pública: alguns espaços de armazenamento estavam pré-ajustados para exibições privadas, apenas para pessoas conhecidas, redes fechadas de amigos ou sem nenhum tipo de marcação. A Human Rights Watch percebeu esse detalhe ao identificar, na base de dados alemã, publicações com pouco engajamento social (curtidas, compartilhamentos etc.) e contextos íntimos – nascimentos de bebês, batizados, festas adolescentes e afins.

“Da mesma forma, a presença de crianças brasileiras no LAION-5B contribui para que modelos de IA treinados nesse conjunto de dados tenham a capacidade de produzir imagens realistas de crianças brasileiras. Isso amplia substancialmente o risco que crianças enfrentam de alguém roubar sua imagem das fotos ou vídeos publicados on-line e usar a IA para manipulá-las a dizer ou fazer coisas que elas nunca disseram ou fizeram.

Pelo menos 85 meninas de Alagoas, Minas Gerais, Pernambuco, Rio de Janeiro, Rio Grande do Sul e São Paulo relataram assédio por parte de colegas de classe que usaram ferramentas de IA para criar deepfakes sexualmente explícitos das meninas com base em suas fotos nas redes sociais e, em seguida, circularam as imagens falsas on-line.”

LAION assume existência de imagens, mas nega riscos

Dona do modelo grande de linguagem, a LAION reconheceu que a base de dados tinha fotos pessoais de crianças em sua composição, comprometendo-se a removê-las. No entanto, a organização sem fins lucrativos da Alemanha negou que as crianças das imagens pudessem ser identificadas.

Finalmente, a LAION afirmou que a responsabilidade de remover fotos pessoais da internet recai sobre as crianças e seus pais, argumentando que esse é o melhor mecanismo de defesa contra o mau uso dessas informações.

Vale citar: em abril deste ano, o TudoCelular publicou matéria sobre a intenção do governo federal em criar algum tipo de regulamentação de uso planejado da Inteligência Artificial. A ideia é a de que o material seja apresentado ainda neste mês de junho e que, segundo a ministra da Ciência, Tecnologia e Inovação, Luciana Santos, seja mais voltado à questão de infraestrutura, sobretudo a criação, manutenção e capacidade de processamento por supercomputadores.

Entretanto, é provável que o tema invariavelmente envolva a proteção contra o uso indevido de dados pessoais na internet.

Curtir - 0 Tweet - 0

Rafael Arbulu VIA FONTE

lucascm 1 ano atr?s

Esse é o tipo de assunto que precisa ser debatido por técnicos e regulamentado.
Pois podem, por exemplo, criar uma IA com rosto e forma de alguma criança, fazer ela ser muito famosa e a criança em si, que deu forma a essa IA, sofrer com exposição indevida, além de não ter escolha, também não receberá nada em troca (exceto via judicial, que dependerá de contratar um advogado, todo o tramite... Que pode não dar em nada).

Organização alemã usa fotos de crianças do Brasil para treinar IA

Veja também

Comentários