Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como “Spud” e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5.
Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos.
A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic (77.8%).
Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto.
O DeepSeek V4 foi avaliado como “acompanhando o ritmo da fronteira, mas não liderando,” posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que “Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade,” comentando que “Claude venceu o modelo chinês na própria língua.”
O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por “custo por tarefa” em vez de “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por um milhão de tokens), mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Executivos de Tecnologia do Vale do Silício Aumentam Detalhes de Segurança Após Ataques Recentes a Altman e Outros
Mensagem do Gate News, 27 de abril — Após ataques recentes a líderes proeminentes da tecnologia, incluindo a residência de São Francisco de Sam Altman e o CEO da UnitedHealthcare, executivos do Vale do Silício estão aprimorando significativamente as medidas de segurança pessoal. O aumento do sentimento anti-AI, combinado com esses incidentes de alto perfil, fez com que esses
GateNews35m atrás
Meta faz parceria com a Overview Energy e a Noon Energy para projetos de 1GW de solar e armazenamento
Mensagem do Gate News, 27 de abril — A Meta anunciou duas parcerias de energia para alimentar sua infraestrutura de IA e data centers com tecnologias inovadoras de geração renovável e armazenamento. A empresa vai colaborar com a Overview Energy em um projeto de energia solar espacial de 1 gigawatt projetado para permitir geração de energia 24 horas por dia e aprimorar a produtividade das fazendas solares existentes, rou
GateNews46m atrás
Kimi K3 da Moonshot AI previsto para lançamento no 3T de 2026 com 2,5T+ de parâmetros e contexto de 1M de tokens em testes
Mensagem da Gate News, 27 de abril — A Moonshot AI planeja lançar o Kimi K3 no 1M de 2026 (julho-setembro), de acordo com reportagens. O modelo terá mais de 2,5 trilhões de parâmetros, e testes internos revelaram capacidade de janela de contexto acima de 1 milhão de tokens.
No entanto, se o contexto de 1M estará ou não disponível no
GateNews1h atrás
Greg Brockman da OpenAI: IA mudando de conversa para execução autônoma de tarefas
Mensagem do Gate News, 27 de abril — Greg Brockman, presidente e cofundador da OpenAI, diz que a próxima onda de inteligência artificial vai tirar os usuários de conversas com bots de IA e levá-los a atribuir tarefas no mundo real. Essa mudança exige que as empresas repensem fluxos de trabalho operacionais e estabeleçam novos protocolos para segurança, gerenciamento e custos para se
GateNews1h atrás
B.AI Atualiza a Infraestrutura, Lança Principais Recursos de Skills
Mensagem do Gate News, 27 de abril — A B.AI anunciou vários avanços de produtos e do ecossistema nesta semana. A página de pouso do BAIclaw recebeu uma reformulação completa de visual e de interação, com suporte multilíngue do site expandido para 10 idiomas, fortalecendo sua usabilidade global.
Na frente da infraestrutura
GateNews1h atrás
Pequim exige revogação do bloqueio de negociações! A Meta investe US$ 2 bilhões para adquirir a nova empresa de IA da China, a Manus, e o negócio não se concretiza
A Comissão Nacional de Desenvolvimento e Reforma da China (hoje, 27 de abril) divulgou oficialmente um anúncio, por meio do escritório do “mecanismo de trabalho para a revisão de segurança de investimentos estrangeiros”, que “em conformidade com a lei e de acordo com as regras, tomou a decisão de proibir investimentos na aquisição do projeto Manus por capital estrangeiro, e exige que as partes envolvidas cancelem a referida transação de aquisição”. Este é um caso raro, desde a implementação das “Medidas para a Revisão da Segurança de Investimentos Estrangeiros”, em que foi utilizada a mais alta intensidade de tratamento “proibindo investimentos” e exigindo o cancelamento de uma transação já realizada.
A Meta investe 2 bilhões de dólares, comprando o aplicativo de IA mais barato
Voltemos no tempo para 29 de dezembro de 2025. A Meta anunciou a aquisição de uma startup chinesa de agentes de IA chamada Manus; as estimativas do mercado apontavam que o preço ficaria entre 2 e 3 bilhões de dólares. Manus é uma IA de uso geral desenvolvida pela Pequena Efeito Borboleta em Pequim; depois de ser lançada em 6 de março de 2025, devido ao desempenho notável no benchmark GAIA, em uma noite
ChainNewsAbmedia2h atrás