Prompt Injection
Prompt injection é uma técnica em que uma entrada maliciosa tenta fazer a IA ignorar instruções originais, revelar dados ou executar ações fora do escopo.
Prompt injection acontece quando alguém tenta manipular o comportamento de uma IA por meio da própria entrada. A pessoa pode escrever algo como 'ignore as instruções anteriores' ou inserir comandos escondidos em documentos que serão lidos pelo modelo.
O risco cresce quando a IA está conectada a ferramentas, APIs, e-mails, bancos de dados ou sistemas internos. Nesse caso, manipular a resposta pode virar manipular uma ação real.
Por que é perigoso
Modelos de linguagem seguem instruções em linguagem natural. Se a aplicação não separa bem instruções confiáveis, dados externos e permissões, entradas maliciosas podem confundir o sistema.
Como funciona na prática
- O atacante envia uma instrução disfarçada em texto, documento ou mensagem
- O modelo interpreta essa instrução junto com o contexto legítimo
- Sem proteção, pode ignorar regras anteriores ou revelar informações
- Guardrails e validações externas bloqueiam ações perigosas
- Logs ajudam a detectar tentativas recorrentes
Exemplo Prático
Um documento enviado para análise contém uma frase oculta pedindo que a IA revele o prompt interno. Se o sistema não tiver proteção, o modelo pode tratar isso como instrução válida.
Por que isso é importante?
Prompt injection importa porque é uma das principais ameaças em aplicações com IA conectadas a dados e ferramentas. Proteger contra isso é requisito de produção, não detalhe técnico.
Perguntas Frequentes (FAQ) sobre Prompt Injection
Prompt injection só acontece em chatbots públicos?
Não. Também pode acontecer em sistemas internos que leem e-mails, PDFs, páginas web ou qualquer conteúdo produzido por terceiros.
Como reduzir prompt injection?
Use validação externa, permissões mínimas, isolamento de ferramentas, filtros de entrada, checagem de saída e aprovação humana para ações sensíveis.