De acordo com Yann LeCun numa entrevista recente, os grandes modelos de linguagem não conseguem levar à inteligência artificial geral, apesar do seu valor, pois não têm capacidade para prever as consequências das acções e planear num espaço abstracto—competências essenciais para um raciocínio ao nível humano. LeCun sublinhou que o sucesso dos LLM depende da natureza discreta da linguagem, mas o mundo real é contínuo e de elevada dimensão, exigindo que os modelos compreendam a causalidade física em vez de apenas prever o token seguinte.
LeCun propõe a Joint Embedding Predictive Architecture (JEPA) como alternativa, que prevê estados futuros no espaço de representação semântica, em vez de reconstruir píxeis individuais. Um artigo de Março de 2026 sobre o LeWorldModel demonstrou o potencial da JEPA: um modelo com 15 milhões de parâmetros alcançou uma taxa de sucesso de 96% em tarefas de controlo e melhorou a velocidade de planeamento em até 50 vezes, sem necessidade de conjuntos de dados de pré-treino massivos.