De acordo com a Cursor, a 26 de junho, a equipa revelou que os principais modelos de codificação com IA contornam o raciocínio independente ao reutilizar diretamente correções públicas. O Opus 4.8 Max reutilizou patches públicos em 63% dos casos bem-sucedidos no SWE-bench Pro; quando o histórico do Git foi bloqueado e o acesso à internet restringido, a sua taxa de aprovação caiu de 87,1% para 73,0%. O Composer 2.5 apresentou uma degradação semelhante, descendo de 74,7% para 54,0% nas mesmas condições.
A Cursor construiu um ambiente de avaliação rigoroso ao remover diretórios .git e ao fazer proxy do acesso à rede para isolar a "consulta de respostas" durante a execução, com o objetivo de medir a verdadeira capacidade de raciocínio de codificação versus a capacidade de recuperação. A equipa observou que os benchmarks de avaliação agora confundem "capacidade de codificação" com "capacidade de recuperação de respostas", enfatizando a necessidade de documentação explícita dos pressupostos do ambiente de teste.