IA Que Não Consegue Esquecer: Como Isso Interfere nas Respostas?

Muitos de nós passamos por esta situação com frequência… Você usa um sistema de IA para ajudar, por exemplo, a preparar um projeto estratégico para o lançamento de um novo medicamento.

No início da conversa, você informa: “A nova indicação aprovada é para pacientes com risco cardiovascular alto.”

Mais tarde, você atualiza: “Na verdade, a nova recomendação inclui também pacientes de risco moderado.”

E no final você pergunta ao sistema: “Qual é a indicação atual do medicamento?”

Mas a IA responde com a informação antiga. Mesmo que a atualização mais recente esteja logo antes da pergunta. Isso pode parecer apenas um erro pontual. Mas pesquisas recentes mostram que esse comportamento não é um bug ocasional. Ele revela uma limitação estrutural da memória dos modelos de linguagem mais usados atualmente.

Um artigo recente publicado no arXiv em 2025 investigou exatamente esse fenômeno.1

Os autores demonstraram que modelos de linguagem avançados podem ter dificuldade em “esquecer” informações antigas, mesmo quando recebem atualizações claras na conversa.

Esse fenômeno é chamado de INTERFERÊNCIA PROATIVA.

E ele pode afetar diretamente aplicações como:

  • copilots de marketing
  • análise de dados clínicos
  • geração de conteúdo científico
  • agentes de IA em CRM ou omnichannel

 

1. Limitação de memória de trabalho em LLMs

Para entender o porquê isso acontece, precisamos falar sobre um problema fundamental dos modelos de linguagem modernos: a limitação de memória de trabalho em LLMs (Large Language Models).

O tamanho da memória temporária que o modelo consegue usar para gerar uma resposta é medido por “tokens”. Mesmo com janelas de contexto cada vez maiores — 32 mil, 128 mil ou até mais de um milhão de tokens — os modelos continuam cometendo erros ao recuperar informações que estão claramente presentes no contexto.

O artigo de Wang e Sun (2025) propõe que o problema não é apenas o tamanho do contexto. O verdadeiro fator limitante pode ser algo chamado INTERFERÊNCIA PROATIVA.1

Esse fenômeno é bem conhecido na psicologia cognitiva humana, mas agora foi demonstrado também em modelos de linguagem baseados em Transformer*.

Modelos de linguagem baseados em Transformer são uma arquitetura de rede neural introduzida em 2017 que revolucionou o processamento de linguagem natural (PLN). A característica principal é o mecanismo de auto-atenção (self-attention), que permite que o modelo pondere a importância de diferentes palavras, analisando a relação entre elas ao longo dos textos, melhorando a compreensão contextual. Essa arquitetura é a base de muitos Grandes Modelos de Linguagem (LLMs) modernos.

 

2. O que se pensava antes

Tradicionalmente, os erros de memória em LLMs eram explicados de forma simples. A hipótese dominante era que o modelo falhava porque não conseguia encontrar a informação relevante dentro de um contexto muito grande. Esse tipo de teste ficou conhecido como “needle in a haystack” — em português, “encontrar uma agulha em um palheiro”.

Foi feito um experimento em que:

  • um fato importante é inserido no início de um contexto muito longo
  • depois o modelo precisa recuperá-lo.

Anteriormente, se o modelo falhava, concluía-se que ele não conseguia navegar em contextos longos. Mas os autores deste artigo levantaram uma hipótese diferente: talvez o problema não seja encontrar a informação, mas sim lidar com várias informações semelhantes competindo entre si.

 

3. Interferência proativa

Na psicologia cognitiva, a INTERFERÊNCIA PROATIVA ocorre quando memórias antigas interferem na recuperação de memórias novas.

Um exemplo familiar: você mudou de senha várias vezes. Quando você tenta lembrar a senha atual, o cérebro frequentemente recupera uma das versões antigas.

Isso acontece porque as memórias competem entre si.

Os autores perguntaram: Será que algo semelhante acontece em modelos de linguagem?

 

4. O experimento

Para testar essa hipótese, os autores criaram um benchmark chamado PI-LLM. O experimento é simples. O modelo recebe uma sequência de atualizações de um mesmo atributo.

Exemplo:

cidade = Paris
cidade = Londres
cidade = Berlim
cidade = Tóquio

Depois o modelo recebe a pergunta: “Qual é a cidade atual?” A resposta correta é Tóquio, pois é a atualização mais recente.

Agora vem o detalhe importante: a informação correta é colocada imediatamente antes da pergunta. Portanto, o modelo não precisa procurar no contexto. Assim, se ele errar, não é porque a informação está distante, mas possivelmente porque informações antigas estão interferindo.

 

5. O que acontece quando a interferência aumenta

Os pesquisadores aumentaram gradualmente o número de informações antigas. Por exemplo: 3 atualizações, 10 atualizações, 50 atualizações, 100 atualizações.

O resultado foi surpreendente. A precisão dos modelos cai progressivamente conforme aumenta o número de interferências. E essa queda segue aproximadamente uma curva log-linear.

Podemos ver isso na figura abaixo. Cada linha representa um modelo de linguagem diferente. O eixo X, horizontal, mostra quantas atualizações competem pela mesma informação. O eixo Y, vertical, mostra a probabilidade do modelo recuperar a atualização mais recente. O que observamos é uma queda progressiva da acurácia conforme aumenta o número de interferências — aproximadamente seguindo uma curva log-linear (Figura 1). Isso indica que os modelos têm dificuldade em suprimir informações antigas quando várias versões semelhantes aparecem no contexto.

 

Figura 1. Relação entre número de atualizações interferentes e acurácia de recuperação da informação mais recente em modelos de linguagem. Cada linha (m1, m2, m3, m4, m5 e m6) representa um modelo avaliado. À medida que aumenta o número de atualizações sucessivas associadas à mesma chave, a acurácia na recuperação do valor mais recente diminui progressivamente, seguindo aproximadamente uma tendência log-linear. Esse padrão evidencia o impacto da interferência proativa na memória de trabalho dos LLMs. Adaptado de Wang & Sun (2025).1

 

Isso significa que cada novo item semelhante torna a recuperação da memória correta mais difícil.

Com isso, em muitos casos, o modelo responde com um valor antigo, como: “cidade = Londres”, mesmo quando a atualização mais recente é Tóquio.

Isso é exatamente o padrão observado em experimentos de memória humana.

 

6. Modelos maiores resolvem o problema?

Os autores testaram modelos de diferentes tamanhos, de pequenos a muito grandes. Modelos maiores realmente apresentam melhor desempenho inicial. Porém, o padrão de queda na acurácia das respostas continua, ou seja, a interferência ainda ocorre.

Isso sugere que o problema não depende apenas do tamanho da memória temporária. Ele pode estar relacionado à arquitetura fundamental dos Transformers.

 

7. Por que isso acontece nos Transformers

Nos Transformers, cada token pode prestar atenção a muitos outros tokens do contexto. Isso ocorre por meio do mecanismo chamado self-attention.

Quando várias informações semelhantes aparecem no contexto, todas elas continuam competindo na atenção. O modelo não possui um mecanismo explícito para apagar ou inibir memórias antigas.

Como resultado, representações antigas podem continuar influenciando a resposta final. Em outras palavras: o modelo lembra demais, mas não consegue esquecer.

 

8. Implicações para aplicações de IA

Esse fenômeno tem implicações importantes para várias aplicações.

Por exemplo:

  • Nos agentes conversacionais de longa duração, se muitas informações sobre o mesmo assunto aparecem na conversa, o modelo pode recuperar dados desatualizados.
  • Nos sistemas de código, se uma variável for redefinida várias vezes, o modelo pode usar um valor antigo.
  • Nos sistemas RAG*, documentos semelhantes podem gerar competição semântica.

*RAG: Retrieval-Augmented Generation (Geração Aumentada por Recuperação). Sistemas RAG são arquiteturas de inteligência artificial que combinam um Grande Modelo de Linguagem (LLM) com um sistema de recuperação de informações (como um banco de dados, documentos internos ou a web). O objetivo é: (1) recuperar informações relevantes de uma base de conhecimento; (2) aumentar (ou “munir”) a pergunta do usuário e o contexto do LLM com esses dados recuperados; (3) permitir que o LLM gere uma resposta mais precisa e fundamentada, reduzindo o risco de “alucinações” (respostas incorretas ou inventadas).

Isso significa que simplesmente aumentar o contexto não resolve o problema de memória.

 

9. Por que isso é importante para o uso de IA em Healthcare e na Indústria Farmacêutica

Para equipes que estão implementando IA em marketing, medical affairs, analytics ou estratégias omnichannel, compreender essa limitação é fundamental.

À medida que as organizações passam a depender cada vez mais da IA para:

  • geração de conteúdo científico
  • suporte à estratégia de marketing
  • comunicação médica
  • análise de dados

torna-se essencial entender como os sistemas de IA lidam com informações concorrentes ou conflitantes.

Fortalecer a robustez da memória nos modelos de linguagem será um passo importante para desenvolver ferramentas de IA mais confiáveis e seguras para o setor de saúde e ciências da vida.

 

Referência:

  1. Wang C, Sun JV. Proactive Interference Reveals Working Memory Limits in LLMs Beyond Context Length. 2025 [cited 2026 Mar 12]; Available from: https://openreview.net/pdf?id=y8jS7mDurI

 

How to cite this article:

KACHI. IA que não consegue esquecer: como isso interfere nas respostas?. São Paulo: KACHI Comunicação Científica, 12/março/2026. Disponível em: https://www.kachi.com.br/blog/ .