OpenAI Lança GPT-5.4 Dias Após a Última Versão, à Medida que a Fuga 'QuitGPT' Ganha Força

Decrypt

Resumo

  • A OpenAI lançou o GPT-5.4 em meio ao crescente movimento QuitGPT devido ao seu contrato de IA com o Pentágono.
  • O GPT-5.4 adiciona uma janela de contexto de 1 milhão de tokens, raciocínio mais forte e capacidades agenticas.
  • Os utilizadores empresariais beneficiam mais, pois o GPT-5.4 oferece agentes de IA mais rápidos com menos tokens.

A OpenAI começou a lançar o GPT-5.4—o seu modelo mais avançado até à data—na quinta-feira, enquanto a empresa tenta conter uma crise de relações públicas que levou cerca de 2,5 milhões de utilizadores a tomarem ações contra a empresa, seja cancelando a subscrição ou partilhando o boicote nas redes sociais. O movimento QuitGPT explodiu após a OpenAI revelar um acordo com o Departamento de Defesa dos EUA, horas depois de a Anthropic ter desistido publicamente do mesmo contrato—ganhando a Claude o desprezo público do Presidente Trump e de outros funcionários do governo. O ponto de discórdia da Anthropic: o DoD recusou-se a incluir uma linguagem que proibisse explicitamente o implantação de armas autónomas e a vigilância em massa de cidadãos americanos.

 A OpenAI aceitou o acordo na mesma. O CEO Sam Altman, que tem respondido a perguntas sobre a aparente discrepância entre as linhas vermelhas de segurança declaradas pela sua empresa e a linguagem real do contrato, precisa que esses utilizadores regressem. Entra o GPT-5.4… apenas dois dias após a introdução do GPT-5.3.

O novo modelo consolida capacidades de raciocínio, codificação e agentes numa única versão. Tem também uma capacidade de contexto de um milhão de tokens, o que significa que os utilizadores têm mais liberdade para lidar com grandes volumes de informação numa única sessão. Em teoria, os números parecem promissores. No GDPval—uma avaliação de trabalho de conhecimento em 44 profissões—o GPT-5.4 iguala ou supera profissionais do setor em 83,0% das comparações, contra 70,9% do GPT-5.2. O uso de computador é a maior melhoria: no OSWorld-Verified, que mede a capacidade de operar um desktop através de capturas de tela e ações de teclado/mouse, o GPT-5.4 atinge uma taxa de sucesso de 75,0%, contra 47,3% do GPT-5.2—e supera a linha de base humana de 72,4%. No BrowseComp, um teste de pesquisa na deep web, sobe 17 pontos percentuais em relação ao GPT-5.2. A janela de contexto de 1 milhão de tokens e uma funcionalidade de redirecionamento durante a resposta—que permite aos utilizadores reorientar o modelo enquanto ainda está a pensar—completam as principais funcionalidades. Esta funcionalidade poupa tempo e recursos computacionais, evitando a necessidade de descartar todos os tokens gerados anteriormente quando é detetado um erro.

Quem se beneficiará do GPT 5.4? É importante notar que alguns benchmarks comparam principalmente o GPT-5.4—e na maior parte do tempo, o raciocínio foi configurado para um esforço extra elevado, que utilizadores gratuitos e Plus não podem desfrutar—com o GPT-5.2, ignorando completamente o GPT-5.3. Para utilizadores já na versão GPT-5.3, várias melhorias podem parecer mais incrementais do que os gráficos sugerem.

Os programadores têm mais motivos para moderar as expectativas: no SWE-Bench Pro, a melhoria do GPT-5.3-Codex (56,8%) para GPT-5.4 (57,7%) é quase insignificante. O modelo também afirma que requer significativamente menos tokens para completar tarefas em comparação com o GPT-5.2. “O GPT‑5.4 é o nosso modelo de raciocínio mais eficiente em tokens até agora, usando significativamente menos tokens para resolver problemas em comparação com o GPT‑5.2”, disse a OpenAI. Dito isto, qualquer melhoria nesta área é positiva para os desenvolvedores que usam os modelos da OpenAI via API e são cobrados por token utilizado. Um modelo com uma cadeia de raciocínio eficiente pode fornecer os mesmos resultados a um custo muito menor, em comparação com um modelo que tende a pensar demais para garantir a conclusão correta. Há outro entrave para quem espera usar o novo modelo agora mesmo: a OpenAI afirma que o GPT-5.4 será lançado hoje, mas ainda não estava disponível à hora desta escrita, pelo que provavelmente está a ser lançado lentamente. Para a maioria dos utilizadores, o melhor modelo é o GPT 5.3, que só pode ser usado para respostas instantâneas, ou seja, fornece respostas que não exigem demasiado esforço. Utilizadores que dependem de raciocínio prolongado—a terminologia da OpenAI para raciocínio em cadeia em tarefas complexas—continuam a usar o GPT-5.2. Em outras palavras, os utilizadores mais propensos a explorar os limites do modelo são os últimos a recebê-lo.

Os beneficiários mais evidentes são os utilizadores empresariais que lidam com trabalhos que envolvem muitos documentos. Num teste interno de modelagem de folhas de cálculo, o GPT-5.4 obteve 87,3% contra 68,4% do GPT-5.2. A firma de pesquisa jurídica Harvey afirmou que obteve 91% na sua avaliação BigLaw. A Mainstay, que gere agentes em 30.000 portais de impostos sobre propriedades, reportou uma taxa de sucesso na primeira tentativa de 95% e sessões cerca de três vezes mais rápidas, usando cerca de 70% menos tokens. Este tipo de eficiência pode ser importante para equipas de aquisição empresarial—mas é mais difícil de convencer o utilizador individual a reconsiderar a exclusão da sua conta.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário