Informe de Anthropic: la tasa de victorias en decisiones de IA sube al 64%, optimización de código 52 veces

Mythos Preview模型優化

Anthropic 於 4 de junio publicou um relatório, revelando que seu modelo de Mythos Preview, nos testes para ajudar a decisões de pesquisa em IA, obteve decisões melhores do que pesquisadores humanos em 64% dos casos, enquanto testes semelhantes em 2024 tiveram apenas 22% de taxa de vitória. Nos testes-padrão de otimização de código de treinamento de modelos pequenos de IA, o Mythos Preview alcançou um aumento de velocidade de 52 vezes.

Metodologia e dados dos testes de decisão de pesquisa

O desenho do teste divulgado pela Anthropic: a equipe mostrou a Claude registros de conversas em que pesquisadores humanos estavam prestes a fazer julgamentos incorretos sobre o rumo da pesquisa, e perguntou à IA “como deve agir a seguir”. O Mythos Preview forneceu respostas melhores do que pesquisadores humanos em 64% dos casos; em 2024, a taxa de vitória de testes semelhantes foi de 22%.

No relatório, a Anthropic explica que esse resultado “sugere que a IA já começou a ter capacidade de orientar pesquisas de alto nível”, mas ao mesmo tempo afirma que ainda não consegue determinar se o Claude possui uma capacidade global de escolher autonomamente “as questões de pesquisa corretas”.

Dados de eficiência de código no relatório da Anthropic

Indicadores relacionados à eficiência de código da Anthropic:

Volume trimestral de entrega de código por engenheiros internos: 8 vezes o nível médio de 2021-2025

Taxa de sucesso de problemas de código abertos: aumento de 50 pontos percentuais em 6 meses, chegando a 76%

Velocidade de otimização do código de treinamento: aumento de 52 vezes com o Mythos Preview

Referência de comparação: Claude Opus 4 (maio de 2024) cerca de 3 vezes em média; engenheiros humanos experientes normalmente levam 4-8 horas para atingir cerca de 4 vezes

O relatório da Anthropic aponta que alguns engenheiros internos consideram que a qualidade do código do Claude está muito próxima do nível humano.

Pesquisa na Anthropic: confirmação de criação, possível impacto do RSI

A Anthropic anunciou que vai cooperar com partes interessadas externas para estabelecer o “Anthropic Institute”, dedicado a pesquisar os impactos profundos de sistemas de IA poderosos.

No relatório, a Anthropic afirma que o desenvolvimento acelerado da IA traz esperança de efeitos positivos para áreas como medicina, tecnologia e economia, mas também pode agravar o problema de alinhamento (Alignment) da IA e levar ao risco de “perda de controle (Loss of control)”; a Anthropic descreve que esse impacto “merece uma atenção ainda maior”.

Perguntas frequentes

Qual é o desenho específico do teste de taxa de vitória de decisões do Mythos Preview?

A Anthropic mostrou a Claude registros de conversas em que pesquisadores estavam prestes a seguir um rumo incorreto de pesquisa, e perguntou “como deve agir a seguir”, para testar a capacidade de julgamento de pesquisa da IA. Em 64% dos casos, o Mythos Preview deu respostas melhores do que pesquisadores humanos; em comparação com a taxa de vitória de 22% em testes semelhantes de 2024, houve um crescimento explosivo em dois anos.

O que é o “Rápido de Autoaperfeiçoamento Recursivo (RSI)” mencionado no relatório da Anthropic?

O Rápido de Autoaperfeiçoamento Recursivo (Recursive Self-Improvement) refere-se à capacidade de um sistema de IA de desenvolver autonomamente uma próxima geração de IA mais poderosa do que si mesmo. No relatório de 4 de junho de 2026, a Anthropic afirma que esse processo está avançando em uma “velocidade além do esperado” e, ao mesmo tempo, admite que atualmente não consegue determinar se o Claude possui uma capacidade global de escolher autonomamente “as questões de pesquisa corretas”.

Qual é a posição e os objetivos do Anthropic Institute?

A Anthropic anunciou que, em cooperação com partes interessadas externas, criará o Anthropic Institute, dedicado a pesquisar os impactos profundos de sistemas de IA poderosos. A Anthropic afirma que o objetivo da criação é garantir que os seres humanos possam fazer escolhas prudentes para o futuro das tecnologias de IA; as áreas específicas de pesquisa e o cronograma ainda não foram totalmente divulgados.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios