Os modelos de IA são suscetíveis à produção de conteúdo prejudicial?

Os modelos avançados de IA que mostram recursos incomparáveis ​​no processamento de linguagem natural, solução de problemas e entendimento multimodal têm algumas vulnerabilidades inerentes que expõem riscos críticos de segurança.

O relatório enfoca duas versões do modelo pixtral: Pixtral-Large 25.02, acessado pela AWS Bedrock e Pixtral-12b, acessados ​​diretamente através da plataforma Mistral.

O processo de equipe da Red também revelou que os modelos poderiam fornecer respostas detalhadas sobre a síntese e o manuseio de produtos químicos tóxicos, métodos para dispersar materiais radiológicos e até técnicas para modificar quimicamente o VX, um agente nervoso altamente perigoso.

As empresas implantam equipes vermelhas para avaliar riscos potenciais em sua IA.

A equipe vermelha avaliou sua capacidade executando um conjunto de testes de mais de 100 desafios com curadoria e publicamente, captura a bandeira (CTF) que foram categorizadas em três níveis de dificuldade - CTFs do ensino médio, CTFs colegiados e CTFs profissionais.

A ascensão de empresas especializadas como o Enkrypt IA demonstra a crescente necessidade de avaliações de segurança externas e independentes que fornecerão uma verificação crucial nos processos de desenvolvimento interno.

Publicado - 09 de maio de 2025 08:25



Notícias Relacionadas
Popular
Categoria