ARC-AGI-3 anuncia maior teste humano da história: todas as fases foram conquistadas por humanos, a IA ainda apresenta diferenças

robot
Geração do resumo em andamento

ME News Notícias, 15 de abril (UTC+8), de acordo com o monitoramento do Beating, a Fundação ARC Prize anunciou o conjunto de dados de desempenho humano do ARC-AGI-3, que é o maior estudo de testes humanos até agora na série ARC-AGI, com 458 participantes. O conjunto de dados inclui 342 registros completos de reprodução de operações humanas, cobrindo 25 ambientes públicos, todos de código aberto. O ARC-AGI-3 contém 135 ambientes de raciocínio abstrato, onde os testadores não recebem nenhuma instrução de jogo, devendo explorar, inferir regras e desenvolver estratégias por conta própria. Os testes são realizados no centro de testes presencial em São Francisco, com duração de 90 minutos cada, e os participantes recebem cerca de 130 dólares de salário base mais 5 dólares de recompensa por cada ambiente concluído. Todos os testes são sob condição de “primeira passagem”, ou seja, cada pessoa vê uma única vez e tenta uma única vez, medindo a capacidade de aprender e se adaptar a problemas totalmente novos. Humanos e IA recebem as mesmas informações, sem qualquer diferença de informação. Conclusão principal: todos os ambientes do ARC-AGI-3 foram concluídos por humanos, com pelo menos dois participantes independentes em cada ambiente, e a maioria dos ambientes foi concluída por mais de cinco pessoas. A Fundação ARC Prize afirma: “Ainda não alcançamos AGI, este conjunto de dados é uma prova disso”. Desde a pré-visualização do ARC-AGI-3, quase 1 milhão de submissões de avaliação de IA foram recebidas em ambientes públicos. Com base nesses dados, a fundação também anunciou duas mudanças nas regras de pontuação: primeiro, alterar o padrão humano de “o segundo melhor jogador” para “o jogador mediano”, reduzindo o impacto da sorte na pontuação; segundo, aumentar o limite de pontuação por fase de 100% para 115%, para evitar que um desempenho ruim em uma fase arraste a pontuação geral para baixo. O efeito líquido dessas duas mudanças é que as pontuações de humanos e IA aumentaram ligeiramente cerca de 0,5 pontos percentuais. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar