Guardrails
A página Guardrails permite configurar filtros de segurança que são aplicados em cada mensagem enviada e recebida pelo agente. Use-os para bloquear conteúdo inadequado, proteger dados sensíveis e garantir que o agente permaneça dentro do escopo desejado.
Acesse pelo ícone Guardrails na navegação lateral do Editor.
Todas as configurações são salvas automaticamente e aplicadas à versão de trabalho atual.
Abas disponíveis
| Aba | O que configura |
|---|---|
| Geral | Ativar guardrails, análise por IA, mensagem de bloqueio |
| Conteúdo prejudicial | Discurso de ódio, insultos, conteúdo sexual, violência e conduta imprópria |
| Ataques de prompt | Detecção de injeção de prompt e manipulações maliciosas |
| Profanidade | Linguagem imprópria ou ofensiva |
| Verificação de fundamentação contextual | Respostas sem base no contexto dos documentos |
| Verificação de relevância | Respostas fora do contexto da conversa |
| Tópicos negados | Assuntos específicos que o agente não deve abordar |
| Informações sensíveis | Dados pessoais (PII): mascarar ou bloquear |
Aba Geral
Ativar guardrails
Habilita ou desabilita todos os guardrails do agente. Quando desativado, nenhuma filtragem é aplicada — o agente pode retornar respostas inadequadas ou inseguras.
Ativar os guardrails aumenta o tempo de resposta do agente, pois cada mensagem é avaliada em relação às regras definidas.
Usar IA para reforçar os guardrails
Quando ativo, um modelo de linguagem analisa mensagens e respostas para aplicar os guardrails em casos mais subjetivos ou contextuais — situações em que filtros determinísticos não são suficientes.
Esta opção faz chamadas extras ao LLM a cada interação, aumentando o consumo de tokens e o custo por conversa. Disponível apenas quando Ativar guardrails estiver habilitado.
Mensagem para prompts bloqueados
Texto exibido ao usuário quando uma mensagem é bloqueada pelos guardrails. Use para orientar o usuário sobre as políticas do agente.