Esta abordagem explora a forma como a inteligência artificial mantém o contexto ao longo da conversa, desviando-a gradualmente para conteúdos que violam políticas de segurança, mas disfarçados em narrativas aparentemente inocentes. Paralelamente, a SPLX usou ataques de ofuscação, nomeadamente o "StringJoin Obfuscation Attack", que fragmenta comandos e os apresenta como desafios criptográficos, revelando falhas importantes na segurança do GPT-5 em ambientes empresariais.
Estas vulnerabilidades preocupam especialmente as empresas, onde a privacidade e a conformidade são essenciais. Em testes, o modelo GPT-4o mostrou-se mais resistente, especialmente quando reforçado com camadas extras de proteção. Além disso, foram identificados ataques zero-click, como o "AgentFlayer", que permitem roubo de dados sensíveis de plataformas como Google Drive e SharePoint, sem interação do utilizador, usando injeções de prompt escondidas em documentos aparentemente inofensivos.
O principal problema reside na forma como os sistemas atuais avaliam as mensagens: analisam cada prompt isoladamente, sem considerar o contexto completo da conversa. Isso abre espaço para ataques que se desenrolam em múltiplas etapas, burlando os filtros existentes. Embora a Microsoft garanta que o GPT-5 tem uma segurança robusta em testes internos, avaliações independentes revelam que há uma distância significativa entre estes testes controlados e ameaças do mundo real.
Esta realidade mostra que, mesmo com melhorias no "raciocínio" da IA, a segurança precisa de evoluir rapidamente para acompanhar as novas técnicas de ataque. Para proteger dados e sistemas críticos, é fundamental investir em mecanismos de defesa mais avançados e uma vigilância constante.