Segurança em IA Nível: avançado

Prompt Injection

Prompt injection é uma técnica em que uma entrada maliciosa tenta fazer a IA ignorar instruções originais, revelar dados ou executar ações fora do escopo.

Prompt injection acontece quando alguém tenta manipular o comportamento de uma IA por meio da própria entrada. A pessoa pode escrever algo como 'ignore as instruções anteriores' ou inserir comandos escondidos em documentos que serão lidos pelo modelo.

O risco cresce quando a IA está conectada a ferramentas, APIs, e-mails, bancos de dados ou sistemas internos. Nesse caso, manipular a resposta pode virar manipular uma ação real.

Por que é perigoso

Modelos de linguagem seguem instruções em linguagem natural. Se a aplicação não separa bem instruções confiáveis, dados externos e permissões, entradas maliciosas podem confundir o sistema.

Como funciona na prática

  • O atacante envia uma instrução disfarçada em texto, documento ou mensagem
  • O modelo interpreta essa instrução junto com o contexto legítimo
  • Sem proteção, pode ignorar regras anteriores ou revelar informações
  • Guardrails e validações externas bloqueiam ações perigosas
  • Logs ajudam a detectar tentativas recorrentes

Exemplo Prático

Um documento enviado para análise contém uma frase oculta pedindo que a IA revele o prompt interno. Se o sistema não tiver proteção, o modelo pode tratar isso como instrução válida.

Por que isso é importante?

Prompt injection importa porque é uma das principais ameaças em aplicações com IA conectadas a dados e ferramentas. Proteger contra isso é requisito de produção, não detalhe técnico.

Perguntas Frequentes (FAQ) sobre Prompt Injection

Prompt injection só acontece em chatbots públicos?

Não. Também pode acontecer em sistemas internos que leem e-mails, PDFs, páginas web ou qualquer conteúdo produzido por terceiros.

Como reduzir prompt injection?

Use validação externa, permissões mínimas, isolamento de ferramentas, filtros de entrada, checagem de saída e aprovação humana para ações sensíveis.