Economia e mercado 30 Jul
Inteligências artificiais precisam ser treinadas para que sejam colocadas em uso. Para isso, é necessário fornecer grandes quantidades de dados à máquina para que ela seja capaz de “aprender” sobre determinados assuntos. O ChatGPT, por exemplo, é treinado com informações obtidas na internet e obras licenciadas pela OpenAI.
Muito além da quantidade, a qualidade das informações utilizadas no treinamento é crucial para evitar que a inteligência artificial cometa erros e apresente problemas como “alucinações”. A importância de treinar IA com material de boa qualidade é enfatizada em um estudo publicado na quarta-feira (31) pela revista científica Nature.
De acordo com a análise, o uso de dados gerados por computador para treinar modelos de inteligência artificial pode levar à rápida degradação dos modelos, fazendo com que produzam resultados sem sentido ou incorretos em poucas interações.
O artigo explora a tendência de inteligências artificial a entrarem em colapso ao longo do tempo devido ao inevitável acúmulo e replicação de erros sucessivos no treinamento.
É apontado que a rapidez em que uma inteligência artificial se deteriora está fortemente relacionada à gravidade das deficiências no design do modelo, no processo de aprendizagem e na qualidade dos dados utilizados, e os defeitos causados são irreversíveis.
O colapso geralmente começa com uma perda de variância, isto é, grupos específicos de dados majoritários se tornam mais frequentes nas operações da inteligência artificial, e isso ocorre ao custo da supressão dos grupos minoritários. Os problemas se agravam conforme modelos são aprimorados e uma nova geração é lançada.
“Modelos perdem utilidade porque são sobrecarregados com todos os erros e equívocos introduzidos pelas gerações anteriores — e por eles mesmos”, explica Ilia Shumailov, líder da pesquisa e cientista do Google DeepMind.
Descobrimos que aprender indiscriminadamente com dados produzidos por outros modelos causa "colapso do modelo" — um processo degenerativo pelo qual, ao longo do tempo, os modelos esquecem a verdadeira distribuição de dados subjacente, mesmo na ausência de uma mudança na distribuição ao longo do tempo.
Os problemas não ocorrem somente com algoritmos geradores de texto. Em um exemplo de modelo de imagens treinado com sua própria saída, o usuário solicita que a imagem de um cachorro seja gerada. Raças de cachorro mais comuns dominavam os resultados, enquanto as menos comuns sumiam. Eventualmente, as imagens começaram a ficar distorcidas.
Os pesquisadores — das universidades Oxford, Cambridge e Imperial College London — que conduziram o estudo apontam que esses dados “sintéticos” podem ser muito úteis em um futuro onde as inteligências artificiais produzem resultados confiáveis e precisos. No entanto, atualmente, os sistemas ainda falham nesse aspecto.
“Dados sintéticos são incríveis se conseguirmos fazê-los funcionar”, disse Shumailov. “Mas o que estamos dizendo é que nossos dados sintéticos atuais provavelmente estão errados em alguns aspectos. O mais surpreendente é a rapidez com que essas coisas acontecem.”
Para mitigar o problema, uma técnica já utilizada por empresas líderes do ramo é incorporar uma “assinatura” que sinaliza o conteúdo gerado artificialmente para que seja excluído dos conjuntos de dados de treinamento. No entanto, isso requer uma colaboração entre várias empresas que pode não ser comercialmente viável.
Comentários