Envenenamento e poluição de dados expõem fragilidade dos LLMs

No terceiro dia do Mind The Sec 2025, em São Paulo, Gary McGraw, cofundador do Berryville Institute of Machine Learning (BIIML), trouxe uma reflexão incisiva sobre os riscos do aprendizado de máquina (ML) e dos modelos de linguagem (LLMs) para a segurança digital. Com décadas de experiência em segurança de software, McGraw comparou o estágio atual da disciplina à aplicação de segurança em softwares há 25 anos: todos sabem que há riscos, mas ainda não se estruturou uma abordagem robusta para enfrentá-los.

Segundo ele, a popularização do ML, especialmente do aprendizado profundo, tem sido marcada por usos pouco compreendidos e muitas vezes impulsionados pelo hype. Embora esteja por trás de avanços impressionantes em tradução automática, reconhecimento de imagens e até jogos complexos, o aprendizado de máquina está longe de ser “mágico”. Sua eficácia depende do que McGraw chama de what pile — o conjunto massivo de dados usados no treinamento. “Todos os riscos de segurança em IA vêm do conjunto de dados. Se houver vieses, erros ou mesmo funções trojan embutidas, esses problemas se propagam para o modelo”, alertou.

McGraw destacou duas grandes categorias de ataques: manipulação (alteração de entradas, saídas ou do próprio modelo) e extração (roubo de informações do modelo ou dos dados). “É o mesmo raciocínio da segurança tradicional: a entrada pode estar comprometida, a saída pode ser enganosa e o núcleo pode ser explorado por atacantes”, explicou. O BIIML já mapeou 78 riscos associados ao ML, dos quais 23 estão diretamente ligados à caixa-preta dos LLMs, envolvendo a origem dos dados, métodos de validação e critérios de qualidade — elementos que provedores como OpenAI, Meta e Google não revelam publicamente.

Entre os riscos apresentados, dois chamaram a atenção:

Envenenamento de dados (data poisoning): os grandes conjuntos usados no treinamento incluem informações tóxicas, enviesadas ou ilegais, como conteúdos de fóruns problemáticos e até obras protegidas por copyright. McGraw chegou a citar que livros de sua própria autoria foram usados em treinamentos sem autorização ou compensação.
Poluição recursiva (recursive pollution): quando modelos consomem dados gerados por outros modelos, incluindo respostas incorretas, realimentando erros e ampliando vieses. Esse ciclo, se não for controlado, pode levar ao chamado colapso de modelos (model collapse), comprometendo sua confiabilidade e precisão.

O pesquisador ressaltou que, além dos riscos técnicos, há implicações jurídicas e financeiras. Empresas que adotam modelos sem transparência assumem para si responsabilidades relacionadas a violações de copyright, falhas em datasets e até decisões enviesadas que podem impactar diretamente clientes e operações.

Ao concluir, McGraw reforçou que não se trata de descartar a tecnologia, mas de adotá-la com consciência. “Não podemos simplesmente aplicar IA a tudo. Precisamos entender os riscos e geri-los, assim como fazemos com qualquer outra tecnologia. A IA pode e deve ser usada, mas com os olhos bem abertos.” Para CISOs e executivos de TI, a mensagem foi clara: a segurança do aprendizado de máquina não é um problema distante — é uma questão imediata, estratégica e que exige governança ativa.

Compartilhe!