De acordo com a divulgação recente da Cursor, a empresa revelou uma técnica de treinamento chamada autoinstall para sua série de modelos Composer: usar um modelo da geração anterior para configurar automaticamente ambientes executáveis para o aprendizado por reforço da próxima geração. Ao treinar o Composer 2, a Cursor usou o Composer 1,5 para concluir essa tarefa. O método funciona em duas etapas: primeiro, um agente lê a documentação e a configuração do repositório de código para gerar 10 comandos de verificação com saídas esperadas; segundo, outro agente usa 3 desses comandos para configurar o ambiente do zero até os comandos serem executados com sucesso, com no máximo 5 tentativas de repetição. O Composer 2 obteve uma pontuação de 61,7% no Terminal-Bench, um benchmark que mede a capacidade de configuração de ambientes, em comparação com os 47,9% do Composer 1,5, registrando uma melhora de 14 pontos percentuais.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
O sistema de recompensas da OpenAI, inadvertidamente, pontua cadeias de raciocínio em 6 modelos, incluindo GPT-5.4
De acordo com a equipe de alinhamento da OpenAI, a empresa recentemente descobriu um erro crítico de treinamento que afetou 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa, por engano, pontuou cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afetado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia in
GateNews51m atrás
A Alibaba não realizou negociações com a DeepSeek, esclarecem fontes do mercado em 9 de maio
De acordo com fontes de mercado divulgadas pelo Caixin Daily em 9 de maio, a Alibaba não fez negociações com a DeepSeek sobre financiamento. Este esclarecimento ocorre após reportagens anteriores sugerirem que as conversas entre as duas empresas teriam fracassado. A DeepSeek lançou uma rodada relevante de captação em abril, que atraiu o interesse tanto da Tencent quanto da Alibaba.
GateNews1h atrás
A OpenAI Lança uma Ferramenta de Migração do Codex para Importar Configurações de Assistentes de IA Concorrentes
De acordo com OneMillionAI (Beating), a OpenAI lançou uma ferramenta de migração dentro do Codex que permite aos usuários importar configurações e dados de outros assistentes de programação de IA, incluindo o Claude Code. A ferramenta, anunciada via conta oficial do Twitter da OpenAI, transfere automaticamente prompts do sistema, skills personalizadas, histórico de chats de 30 dias, configurações de servidores MCP, hooks e configurações de subagentes. A OpenAI observou que a ferramenta de migraç
GateNews1h atrás
A ByteDance aumenta os gastos com infraestrutura de IA em 25% para 200 bilhões de iuanes em 9 de maio
De acordo com reportagens da mídia, a ByteDance aumentou em 25% seus gastos planejados com infraestrutura de IA para 200 bilhões de iuan em 2026, à medida que a empresa acelera a implantação de inteligência artificial em meio ao aumento da demanda por chips de memória
GateNews2h atrás
Anthropic reduz a taxa de jailbreak do Claude para 0% com métodos de treinamento de alinhamento inovadores
A Anthropic publicou recentemente uma pesquisa de alinhamento detalhando estratégias de treinamento que eliminaram o desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% nos testes. A equipe descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo as taxas de falha apenas de 22% para 15%. Três abordagens alternativas se mostraram significativamente mais eficazes: um conjunto de dados de “conselhos
GateNews2h atrás
MiniMax faz varredura em 200 mil tokens e descobre degradação de 4,9% em modelos da série M2
De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa de tokens em seus modelos da série M2 por meio de uma varredura completa de vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda relevante de desempenho, com tokens japoneses sendo os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação ocorre porque tokens de baixa frequência são empurrados para direções incorretas
GateNews3h atrás