Ataques de prompt

A aba Ataques de prompt protege o agente contra tentativas de manipulação via injeção de prompt — quando um usuário tenta forçar o agente a ignorar suas instruções ou executar ações não autorizadas.

Habilitar filtro de ataques de prompt

Ative o toggle Habilitar filtro de ataques de prompt para que o agente detecte e bloqueie mensagens com padrões de injeção ou manipulação.

Ao habilitar, a configuração de nível fica disponível.

Nível de moderação para injeção de prompt

Selecione a sensibilidade do filtro:

Nível	Comportamento
Nenhum	Sem filtragem
Baixo	Bloqueia apenas tentativas explícitas de injeção
Médio	Bloqueia padrões moderadamente suspeitos
Alto	Bloqueia qualquer mensagem com indício de manipulação (mais restritivo)

tip

Use o nível Alto para agentes que operam com dados sensíveis ou têm acesso a ações críticas, como envio de e-mails ou acionamento de robôs RPA.

Habilitar filtro de ataques de prompt​

Nível de moderação para injeção de prompt​

Habilitar filtro de ataques de prompt

Nível de moderação para injeção de prompt