O principal cientista de IA da Meta, Yang Likun, ataca novamente a IA generativa

2025-02-24 15:21:51

Fonte: Revista Empresarial Chinesa

Fonte da imagem: gerada pelo AI ilimitado

“Abandonar a geração de modelos, não estudar LLM (Large Language Model), não podemos fazer com que a IA alcance o nível de inteligência humana apenas por meio do treinamento de texto.” Recentemente, o principal cientista de IA da Meta, Yann LeCun, mais uma vez criticou duramente a IA geradora na cimeira de ação de IA de 2025 em Paris, França.

Yang Likun believes that although the existing large models run efficiently, the inference process is divergent, and the generated tokens may not be within the reasonable answer range, which is also why some large models can produce illusions. Although many current generative models allow AI to pass the bar exam and solve math problems, they cannot do housework, which is complex for generative AI to do things that humans can do without thinking.

Ele também afirmou que os modelos generativos não são adequados para a produção de vídeos. Atualmente, os modelos de IA que conseguem gerar vídeos não compreendem o mundo físico, eles apenas geram imagens bonitas. Yang Likun apoia modelos que compreendem o mundo físico e propôs a arquitetura de previsão de incorporação conjunta (JEPA) mais adequada para prever o conteúdo de vídeos. Ele sempre acreditou que apenas a IA que compreende verdadeiramente o mundo físico pode alcançar um nível de inteligência artificial comparável ao humano.

Finalmente, Yang Likun enfatizou a necessidade de uma plataforma de IA de código aberto e, no futuro, teremos assistentes virtuais universais que regularão todas as nossas interações com o mundo digital. Eles precisam ser capazes de falar todas as línguas do mundo, entender todas as culturas, todos os sistemas de valores e todos os centros de interesse, e esse sistema de IA não pode vir de um punhado de empresas no Vale do Silício, e tem que ser feito de forma colaborativa e eficaz.

Visões emocionantes são as seguintes:

Precisamos de inteligência a nível humano porque estamos habituados a interagir com as pessoas, e aguardamos com expectativa o surgimento de sistemas de IA com níveis de inteligência humana, e os omnipresentes assistentes de IA no futuro tornar-se-ão uma ponte entre os humanos e o mundo digital, ajudando os humanos a interagir melhor com o mundo digital.
Não é possível alcançar o nível de inteligência humana apenas através do treinamento de texto para a IA, isso é impossível.
Na Meta, chamamos a este tipo de IA avançada que atinge o nível de inteligência humana de Inteligência Máquina Avançada, não gostamos do termo “AGI” (Inteligência Artificial Geral), preferimos chamá-lo de “AMI”, que soa muito como a palavra “amigo” em francês.
Modelos generativos não são adequados para fazer vídeos, você pode ter visto modelos de IA que podem gerar vídeos, mas eles realmente não entendem física, eles estão apenas gerando belas imagens.
Se estiver interessado em alcançar o nível de inteligência humana da IA e estiver na academia, não pesquise LLM, pois estará competindo com centenas de pessoas que possuem dezenas de milhares de GPUs, o que não tem sentido. 6.AI plataformas precisam ser compartilhadas, elas precisam ser capazes de falar todas as línguas do mundo, precisam conhecer todas as culturas, todos os sistemas de valores e todos os centros de interesse, e não há uma única empresa no mundo que possa treinar um modelo tão fundamental, e isso tem que ser feito de forma colaborativa e eficaz. O modelo de código aberto está lentamente e firmemente superando o modelo fechado.

A seguir está o texto completo (com algumas partes omitidas):

Por que precisamos de IA ao nível da inteligência humana?

Como é amplamente conhecido, precisamos de inteligência artificial ao nível humano, o que não é apenas um problema científico interessante, mas também uma necessidade de produto. No futuro, usaremos dispositivos inteligentes, como óculos inteligentes, para interagir com assistentes de IA a qualquer momento.

Precisamos de inteligência artificial ao nível humano, porque estamos acostumados a interagir com pessoas e esperamos que surjam sistemas de IA com a inteligência humana no futuro. Assistentes de IA onipresentes serão a ponte entre os humanos e o mundo digital, ajudando as pessoas a interagir melhor com o mundo digital. No entanto, em comparação com humanos e animais, a aprendizagem automática atual ainda é muito ruim, e ainda não criamos máquinas com a capacidade de aprendizado humano, senso comum e compreensão do mundo material. Animais e humanos podem agir com base no senso comum, essencialmente impulsionados por objetivos.

Portanto, atualmente, quase todos os sistemas de inteligência artificial que as pessoas estão usando não possuem as características que desejamos. Isso ocorre porque eles geram recursivamente um token após o outro e, em seguida, usam os tokens marcados para prever o próximo token. A maneira como esses sistemas são treinados é colocar as informações na extremidade de entrada e tentar reproduzir as informações na extremidade de saída. É uma estrutura causal, não pode trapacear, nem usar entradas específicas para prever a si mesma, só pode ver os tokens ao redor. Portanto, é muito eficiente, as pessoas o chamam de modelo grande e geral, e podem usá-lo para gerar texto, imagens.

Mas esse processo de raciocínio é divergente, toda vez que você gera um token, ele pode estar fora do alcance de uma resposta razoável e pode distanciá-lo da resposta correta. Se isso acontecer, não há como corrigi-lo posteriormente, é por isso que alguns modelos grandes podem ter ilusões e falar bobagens.

Atualmente, estas inteligências artificiais não conseguem replicar a inteligência dos seres humanos, e não podemos sequer copiar a inteligência de animais como gatos ou ratos, todos eles compreendem as regras do mundo físico, e podem completar algumas ações que dependem do bom senso, sem planeamento. Uma criança humana de 10 anos pode completar as ações de guardar pratos e pauzinhos e limpar a mesa sem aprender, e um jovem de 17 anos pode aprender a dirigir em 20 horas, mas ainda não conseguimos construir um robô que possa ser usado em casa, o que mostra que nossa pesquisa e desenvolvimento atuais de inteligência artificial ainda carecem de algumas coisas muito importantes.

Nossa IA existente pode passar em exames de barra, resolver problemas de matemática e provar teoremas, mas não pode fazer tarefas domésticas. Coisas que achamos que podem ser feitas sem pensar são muito complexas para robôs de IA, e coisas que achamos que são exclusivas dos seres humanos, como linguagem, jogar xadrez, compor poesia, etc., agora podem ser facilmente feitas por IA e robôs.

Não podemos alcançar o nível de inteligência humana apenas treinando AI com texto. Isso é impossível. Alguns beneficiários dirão que a inteligência AI poderá atingir o nível de um doutor humano no próximo ano, mas isso é totalmente impossível. Talvez a AI possa atingir o nível de um doutor humano em áreas específicas, como xadrez e tradução, mas não em modelos gerais. Se apenas treinarmos modelos de AI para problemas específicos em determinadas áreas, se sua pergunta for padrão, a resposta poderá ser gerada em segundos. No entanto, se você modificar ligeiramente a formulação da pergunta, a AI poderá fornecer a mesma resposta, porque ela não pensou realmente sobre a questão. Portanto, ainda precisamos de tempo para desenvolver um sistema de inteligência artificial que possa alcançar o nível de inteligência humana.

Não “AGI”, mas “AMI”

Na Meta, chamamos esse tipo de IA que pode atingir o nível de inteligência humana de inteligência avançada de máquina, e não gostamos do termo “AGI” (inteligência geral artificial), mas o chamamos de “AMI”, que é pronunciado muito parecido com a palavra “amigo” em francês. Precisamos de modelos que coletem informações e aprendam com nossos sentidos, que possamos manipulá-las em nossas mentes e que possamos aprender física bidimensional a partir de vídeos. Por exemplo, um sistema com memória persistente, um sistema que pode planejar ações em camadas e um sistema que pode raciocinar e, em seguida, projetar em vez de ajustar para obter sistemas controláveis e seguros.

Agora, eu sei que a única maneira de construir um sistema desse tipo é mudar a maneira como os sistemas de IA atualmente fazem inferências. O método de inferência atual do LLM é executar um número fixo de camadas de rede neural (Transfomer) para gerar um token e inseri-lo e, em seguida, executar um número fixo de camadas de rede neural novamente. O problema com esse tipo de raciocínio é que não importa se você faz uma pergunta simples ou complexa, quando você pede ao sistema para responder “sim” ou “não”, será necessário tanto cálculo para respondê-las. Então, as pessoas têm trapaceado, dito ao sistema como responder, e os humanos conhecem essa técnica de raciocínio e pensamento, para que o sistema gere mais tokens, para que ele gaste mais poder de computação para responder perguntas.

Na verdade, o modo como o raciocínio funciona não é assim, em muitos diferentes campos, como inteligência artificial clássica, estatística e previsão de estruturas, o modo como o raciocínio funciona é o seguinte: tens uma função que mede a compatibilidade ou incompatibilidade entre as tuas observações e os valores de saída, o processo de raciocínio inclui encontrar o valor que comprime o espaço da informação para o mínimo e o devolve, a esta função chamamos função de energia. Quando os resultados não satisfazem os requisitos, o sistema apenas otimiza e raciocina, se o problema de raciocínio for mais difícil, o sistema gastará mais tempo a raciocinar, em outras palavras, gastará mais tempo a pensar em problemas complexos.

Em inteligência artificial clássica, muitas coisas estão relacionadas com raciocínio e busca, portanto, otimizar qualquer problema computacional pode ser simplificado para um problema de raciocínio ou de busca. Este tipo de raciocínio é mais semelhante ao que os psicólogos chamam de sistema 2, ou seja, pensar em como agir antes de agir, enquanto o sistema 1 refere-se às coisas que podem ser feitas sem pensar, tornando-se um tipo de subconsciente.

Fonte: Captura de tela do vídeo

Deixe-me explicar brevemente o modelo de energia, ou seja, podemos usar a função de energia para capturar as dependências entre variáveis, assumindo que o valor observado X e o valor de saída Y, quando X e Y são compatíveis, a função de energia leva o valor baixo, e quando X e Y são incompatíveis, a função de energia leva o valor alto. Você não quer calcular Y apenas a partir de X, você só quer uma função de energia para medir o grau de incompatibilidade, você apenas dá um X e encontra uma energia Y mais baixa.

Agora vamos dar uma olhada mais de perto em como o modelo de mundo é construído e como ele se relaciona com o pensamento ou planejamento. Este sistema é assim, para observar o mundo tem que passar por um módulo percetivo, este módulo vai fazer um resumo do estado do mundo, claro, o estado do mundo não é completamente observável, então talvez você precise combiná-lo com a memória, o conteúdo da memória contém seus pensamentos sobre o estado do mundo, e a combinação dos dois forma um modelo de mundo.

Então, o que é um modelo do mundo? Um modelo do mundo fornece um resumo do estado atual do mundo. Em um espaço de demonstração abstrato, ele fornece uma sequência de ações imaginadas. Seu modelo do mundo prevê o estado do mundo após você tomar essas ações. Se eu disser para você imaginar um cubo flutuando na sua frente e agora girá-lo verticalmente em 90°, como ele parece? Você pode facilmente imaginar sua aparência após a rotação em sua mente.

Acho que vamos ter inteligência de nível humano antes de termos áudio e vídeo que realmente funcionem. Se tivermos um modelo mundial que seja capaz de prever o resultado de uma série de ações, podemos alimentá-lo em um objetivo de tarefa que mede até que ponto o estado final previsto atende às metas que estabelecemos para nós mesmos. Esta é apenas uma função objetiva, e também podemos definir algumas restrições que precisam ser cumpridas para a operação segura do sistema. Com essas restrições, você pode garantir a segurança do sistema para que você não possa ultrapassá-las, elas são difíceis e rápidas prescritas, e estão fora do escopo de treinamento e inferência.

Agora, uma série de ações deve ser modelada em um modelo mundial, a ser usado repetidamente em vários passos de tempo. Se você realizar a primeira ação, ele prevê o estado após a conclusão da ação, e se você realizar a segunda ação, ele prevê o próximo estado ao longo deste caminho, onde você pode definir metas e restrições. Se o mundo não for completamente certo e previsível, o modelo mundial pode precisar de variáveis latentes para explicar tudo sobre o mundo que não observamos, o que leva a viés em nossas previsões. No final, o que queremos é um sistema que possa planejar em camadas. Ele pode ter vários níveis de abstração, onde planejamos ações de baixo nível, como controle muscular básico, em um nível inferior. Mas em um nível mais alto, podemos planejar ações macro abstratas. Por exemplo, estou sentado no escritório da Universidade de Nova Iorque, decidindo ir para Paris. Posso dividir essa tarefa em duas sub-tarefas: ir para o aeroporto e pegar o avião. Em seguida, planejo detalhadamente cada passo: pegar a mala, sair, pegar um táxi, pegar o elevador, comprar o bilhete de avião…

Muitas vezes não sentimos que estamos fazendo um planejamento hierárquico, é quase sempre uma ação instintiva, mas não sabemos como fazer o aprendizado de máquina fazer isso. Quase todo processo de aprendizado de máquina faz planejamento hierárquico, mas os prompts em cada nível são inseridos manualmente, e precisamos treinar uma arquitetura para que ela possa aprender essas demonstrações abstratas por conta própria, não apenas o estado mundial, mas também a previsão do modelo mundial, mas também a previsão de ações abstratas em diferentes níveis de abstração, para que o aprendizado de máquina possa inconscientemente fazer planejamento hierárquico como um humano.

Como fazer com que a inteligência artificial compreenda o mundo

Com todas essas reflexões em mente, escrevi um longo artigo há três anos explicando no que acho que a pesquisa em IA deve se concentrar. Eu escrevi este artigo antes do ChatGPT explodir, e até hoje, minha opinião sobre este assunto não mudou, o ChatGPT não mudou nada. Esse artigo era sobre o caminho para a inteligência de máquina autônoma, que agora chamamos de inteligência de máquina avançada, porque a palavra “autônomo” assusta as pessoas, e eu falei sobre isso em discursos em diferentes ocasiões.

Se um sistema pode prever o que vai acontecer em um vídeo, você mostra um pequeno vídeo, e então você o faz prever o que vai acontecer a seguir, e treiná-lo para fazer previsões realmente permite que o sistema entenda a estrutura subjacente do mundo. Funciona para texto porque prever palavras é relativamente simples, o número de palavras é limitado e o número de fichas também é limitado, e não podemos prever com precisão qual palavra seguirá outra palavra, ou qual palavra está faltando no texto, mas podemos calcular a probabilidade que cada palavra no dicionário pode gerar.

Mas não podemos fazer isso com imagens ou vídeos, não temos uma boa maneira de representar a distribuição de quadros de vídeo, e toda vez que tentamos fazer isso, basicamente nos deparamos com quebra-cabeças matemáticos. Então, você pode tentar resolver esse problema com estatística e matemática inventadas por físicos, na verdade, é melhor abandonar a ideia de fazer modelagem probabilística completamente.

Porque não podemos prever com precisão o que vai acontecer no mundo. Se treinarmos um sistema para prever apenas um quadro, ele não vai se sair bem. Então, a solução para este problema é desenvolver uma nova arquitetura, que eu chamo de arquitetura de previsão de incorporação conjunta (JEPA). Modelos generativos simplesmente não são adequados para criar vídeos, talvez você tenha visto modelos de IA que podem criar vídeos, mas eles não entendem verdadeiramente a física, eles apenas geram imagens bonitas. A ideia por trás da JEPA é executar simultaneamente os valores de observação e de saída, de modo que não estamos mais apenas prevendo pixels, mas sim o que está acontecendo nos vídeos.

Fonte: Captura de tela de vídeo

Vamos comparar essas duas arquiteturas. À esquerda, temos a arquitetura de geração, onde você insere a observação X no codificador e faz uma previsão para Y, o que é uma previsão simples. Já na arquitetura JEPA à direita, você executa X e Y ao mesmo tempo, possivelmente com codificadores iguais ou diferentes, e depois prevê a representação de Y com base na representação de X nesse espaço abstrato. Isso levará o sistema a basicamente aprender um codificador que pode eliminar tudo o que não pode ser previsto, que é o que realmente estamos fazendo.

Quando estamos a filmar num quarto, a câmara começa a mover-se, e tanto os humanos como a inteligência artificial são incapazes de prever quem ou o que estará na próxima imagem, ou como serão as texturas das paredes ou do chão. Há tantas coisas que simplesmente não podemos prever. Por isso, em vez de insistir em fazer previsões de probabilidade sobre o imprevisível, é melhor desistir de prever e aprender uma forma de representação em que todos estes detalhes sejam essencialmente eliminados, tornando a previsão muito mais simples - simplificamos o problema.

As arquiteturas JEPA vêm em todos os tipos de sabores, mas em vez de falar sobre as variáveis latentes, vamos falar sobre as condições de ação, que é a parte mais interessante, porque são realmente modelos mundiais. Você tem uma observação de que X é o estado atual do mundo, e você coloca a ação que você planeja fazer no codificador, e esse codificador é o modelo do mundo, e deixa que ele lhe dê uma representação do estado do mundo depois que a ação é feita, e é assim que você planeja.

Recentemente, realizamos uma investigação aprofundada sobre o Video JEPA. Como funciona este modelo? Por exemplo, primeiro são extraídos 16 quadros contínuos de um vídeo como amostra de entrada, em seguida, alguns quadros são bloqueados e danificados, e esses quadros de vídeo localmente danificados são introduzidos no codificador, treinando simultaneamente um módulo de previsão para reconstruir a representação completa do vídeo com base nas informações de imagem incompletas. Experimentos mostram que este método de aprendizagem auto-supervisionado tem vantagens significativas e que as características profundas aprendidas podem ser transferidas diretamente para tarefas downstream, como classificação de ações em vídeo, obtendo um desempenho excelente em vários testes de referência.

Há algo muito interessante acontecendo aqui. Se você mostrar este sistema, algo muito estranho acontecerá no vídeo, o que significa que o erro de previsão do sistema está aumentando. Você gravou um vídeo e usou 16 quadros dele para medir o erro de previsão do sistema. Se algo estranho acontecer, como um objeto desaparecer ou mudar de forma espontaneamente, o erro de previsão aumentará. Ele está lhe dizendo que, embora o sistema seja simples, ele aprendeu um certo senso comum e pode dizer se algo muito estranho está acontecendo no mundo.

Gostaria de partilhar o nosso trabalho mais recente - DINO-WM (um novo método para construir modelos visuais dinâmicos sem reconstruir o mundo visual). Treine um preditor com uma imagem do mundo, depois execute-o com o codificador DINO, e o robô poderá então tomar uma ação para obter o próximo quadro do vídeo. Coloque esse quadro de volta no codificador DINO para obter uma nova imagem, e treine o seu preditor para prever o que vai acontecer com base na ação tomada.

O planejamento é muito simples, você observa um estado inicial, coloca-o no codificador DINO e executa-o, e então executa o modelo de mundo em vários pontos de tempo e etapas com ações imaginárias, e então você tem um estado de destino, que é representado pela imagem de destino, por exemplo, você o executa para o codificador e, em seguida, calcula a lacuna entre o estado previsto e o estado da imagem de destino no espaço de demonstração, e encontra uma sequência de ação com o menor custo de execução.

Fonte: Captura de tela do vídeo

Este é um conceito muito simples, mas muito eficaz. Suponha que tenha este pequeno padrão em forma de T e queira movê-lo para uma posição específica. Você sabe para onde ele precisa ir, porque colocou a imagem desse lugar no codificador, que lhe dará um estado alvo no espaço de demonstração. Quando toma uma série de ações planeadas, o que realmente acontece no mundo real é a sequência de ações planeadas do sistema, que é uma previsão psicológica interna. Colocar isto no descodificador irá gerar uma representação gráfica do estado interno.

Abandonar o estudo dos modelos generativos

Por fim, tenho algumas sugestões para partilhar convosco. A primeira é abandonar o modelo generativo. Este é o método mais popular no momento, e todos estão trabalhando nisso. JEPA pode ser estudado, que não são modelos generativos, eles preveem o que vai acontecer no mundo em um espaço de demonstração. Abandonar a aprendizagem por reforço, venho dizendo há muito tempo, é ineficiente. Se você está interessado em IA que atinge o nível de inteligência humana, e você está na academia, não olhe para LLMs, porque você está competindo com centenas de pessoas com dezenas de milhares de GPUs, e isso não faz qualquer sentido. Ainda há muitos problemas a serem resolvidos na comunidade acadêmica, o algoritmo de planejamento é muito ineficiente, devemos encontrar um caminho melhor, e JEPA com variáveis latentes é um problema completamente não resolvido no planejamento hierárquico de incerteza, que os estudiosos são bem-vindos a explorar.

No futuro, teremos assistentes virtuais universais que nos acompanharão em todas as interações com o mundo digital. Não podemos permitir que esses sistemas de IA venham de algumas poucas empresas do Vale do Silício ou da China, o que significa que as plataformas para construir esses sistemas precisam ser de código aberto e amplamente acessíveis. O custo de treinar esses sistemas é alto, mas uma vez que você tenha um modelo base, ajustá-lo para aplicações específicas se torna muito mais barato, algo que muitas pessoas podem pagar.

As plataformas de IA precisam ser compartilhadas, elas precisam ser capazes de falar todas as línguas do mundo, entender todas as culturas, todos os sistemas de valores e todos os centros de interesse, e não há uma única empresa no mundo que possa treinar um modelo tão fundamental, e isso deve ser feito de forma colaborativa e eficaz.

Portanto, uma plataforma de IA de código aberto é necessária. A crise que tenho visto na Europa e em outros lugares é que a competição geopolítica induziu alguns governos a essencialmente proibir o lançamento de modelos de código aberto porque querem manter a ciência em segredo para se manterem à frente da curva. É um grande erro, quando você faz sua pesquisa em segredo, você vai ficar para trás, é inevitável, o que vai acontecer é que o resto do mundo está adotando tecnologia de código aberto e nós vamos superá-lo. Isso é o que está acontecendo atualmente, e o modelo de código aberto está lenta mas seguramente superando o modelo de código fechado.

TOKEN31,85%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.