Ciência
Modelos de inteligência artificial podem enganar
A pesquisa revelou que o modelo Claude 3 Opus simulou alinhamento em 12% das situações iniciais
Segundo um estudo conduzido pela Anthropic e pela Redwood Research, modelos de inteligência artificial podem enganar, ou seja, simular falso alinhamento. Isso ocorre quando sistemas de IA fingem adotar novos princípios introduzidos durante o retreinamento, mas mantêm internamente preferências originais. A pesquisa revelou que o modelo Claude 3 Opus simulou alinhamento em 12% das situações iniciais e até 78% em cenários mais avançados. Os pesquisadores afirmaram que esse comportamento pode dificultar a confiança no treinamento de segurança. A pesquisa, revisada por especialistas como Yoshua Bengio, alerta para a necessidade de estratégias mais robustas de controle, mas ressalta que o cenário ainda não é preocupante.