Kai-Fu Lee tropeçou no modelo grande

Fonte original: Lunch Finance

Autor: Zhao Jinjie

Fonte da imagem: Gerado por Unbounded AI

Kai-Fu Lee, que está determinado a desenvolver uma base geral de modelos grandes, está caindo em uma questão sobre o shell Meta open source large model LLaMA.

Recentemente, Jia Yangqing, que deixou o Alibaba em março deste ano para se juntar ao negócio de modelos grandes de IA, deu a notícia de que, ao ajudar clientes estrangeiros a se adaptarem a um novo modelo na China, foi informado por um amigo que o modelo realmente usa a arquitetura LLaMA, e apenas alguns nomes de variáveis foram alterados no código.

Embora Jia Yangqing não tenha citado o nome da empresa específica que desenvolveu o novo modelo, todos os indícios apontam para o zero e um de Kai-Fu Lee. Em 6 de novembro, Zero One acaba de lançar a série “Yi” de modelos de código aberto - Yi-34B e Yi-6B.

Em resposta a perguntas do mundo exterior, em 15 de novembro, Zero One Everything admitiu em resposta ao Lunch Finance que no processo de treinamento do modelo, a arquitetura básica do GPT/LLaMA foi usada, mas "em termos de observação e análise do Zero One Things, a grande comunidade de modelos está agora em um estágio próximo da convergência gradual da generalização em termos de arquitetura técnica, e basicamente os grandes modelos mainstream internacionais são baseados na arquitetura do Transformer…A grande maioria dos modelos de código aberto lançados na China também usam GPT, que gradualmente se tornou um padrão da indústria. Arquitetura LLaMA. "

Se o processo de formação do modelo for comparado com um prato, "a arquitetura apenas determina as matérias-primas e os passos aproximados da cozedura (…) Para treinar um bom modelo, você também precisa de melhores ‘matérias-primas’ (dados) e controle dos detalhes de cada etapa (métodos de treinamento e parâmetros específicos). Zero Uma Coisa mais explicada.

Antes de Jia Yangqing vir a público dar a notícia, as acusações de que o Zero One Things imitava a arquitetura LLaMA começaram a fermentar na comunidade de código aberto. **

Nove dias atrás, Eric Hartford, especialista sênior em aplicações de IA da Convai, postou no Huggingface: "O modelo Yi-34B basicamente adota a arquitetura do LLaMA, mas renomeia dois tensores. "

Oito dias depois, em 14 de novembro, Richard Lin, diretor de código aberto da equipe Yi, respondeu ao post que Hartford estava certo sobre nomes tensores e que Zero Um iria renomeá-los de Yi para Llama.

Na última resposta recebida hoje pela Lunch Finance, o Zero One Everything mencionou: "Pela negligência de seguir a renomeação de alguns dos códigos de inferência do LLaMA após experimentos, o ponto de partida original foi testar totalmente o modelo, não ocultar deliberadamente a fonte. Estamos no processo de reenviar o modelo e o código e complementar a cópia do protocolo LLaMA em várias plataformas de código aberto, e prometemos concluir a atualização de versão de cada comunidade de código aberto o mais rápido possível. "

Li Kaifu respondeu pessoalmente a este assunto no Moments esta tarde.

Kai-Fu Lee, conhecido como o “Padrinho da IA” na China, não só ganhou maiores expectativas do mundo exterior na onda de grandes modelos, mas também inevitavelmente inaugurou um escrutínio mais rigoroso do mundo exterior.

**Embora 0100000 tenha admitido publicamente que pega emprestado da arquitetura LLaMA, não pode rotular diretamente o grande modelo de Kai-Fu Lee como uma “concha” ou “plágio”. **

Li Zhen, um empresário doméstico que também desenvolveu um modelo grande, disse à Boxlunch Finance que definir se um modelo grande tem um comportamento de invólucro depende dos detalhes específicos da implementação e da tecnologia subjacente. **"Se o modelo grande zero-one-thing usa a mesma arquitetura de modelo, métodos de treinamento e conjuntos de dados que o Meta LLaMA, então ele pode estar um pouco descascado. No entanto, se ele usa uma tecnologia diferente ou tem melhorias adicionais, então não se pode simplesmente dizer que é um invólucro. "

De acordo com a declaração de 01000000 coisas, investiu a maior parte de sua energia no ajuste de métodos de treinamento, correspondência de dados, engenharia de dados, parâmetros detalhados, baby sitting, etc.

**Mesmo que a arquitetura do modelo seja semelhante, o desempenho do modelo grande treinado final ainda variará com o suporte de diferentes fontes de dados e métodos de treinamento de dados. **"Na era dos modelos pré-grandes, o mainstream da IA era um sistema de tarefa única centrado no modelo, e os dados permaneceram basicamente inalterados. Na era dos grandes modelos, o algoritmo é basicamente constante, e os dados estão constantemente aumentando. Na visão do especialista da indústria Liu Fei, em comparação com algoritmos e poder de computação, os dados podem ser uma lacuna maior que impede os grandes modelos domésticos de alcançar a OpenAI: “O diabo está escondido nos detalhes desses treinamentos de dados.” "

Em particular, vale a pena mencionar que, entre o tamanho do número de parâmetros e o efeito apresentado pelo modelo final, os dois “não são proporcionais à entrada e saída, mas não são lineares”. Ding Lei, especialista em inteligência artificial, disse: “Os dados são apenas uma coisa qualitativa, e é mais importante testar a capacidade da equipe de limpar dados, caso contrário, com o aumento dos dados, a interferência de dados também se tornará maior”. "

**Isso também fornece uma possibilidade teórica para a nova equipe de modelo grande superar o modelo com um maior número de parâmetros em termos de desempenho com um número menor de parâmetros. **

Após o lançamento do modelo pré-treinado Yi-34B em 6 de novembro, Kai-Fu Lee o descreveu como “o modelo de código aberto mais forte do mundo”, superando modelos de código aberto em grande escala como LLaMA2-70B e Falcon-180B na avaliação de tamanhos de modelos menores.

Yi-34B

No entanto, à medida que cada vez mais modelos nacionais de grande porte alcançaram o topo de várias listas de testes, superando o GPT-4, que é reconhecido como o mais forte da indústria, um a um, quer esses grandes modelos tenham conquistado altas pontuações em virtude da força, ou com a ajuda dos meios de escovar a lista, mais uma vez causou controvérsia do mundo exterior. **

O conhecido grande conjunto de testes de modelos C-está no topo do site oficial, dizendo que a avaliação nunca pode ser abrangente, e qualquer lista de classificação pode ser hackeada de forma pouco saudável, e dá vários métodos comuns de escovar a lista, como destilar os resultados de previsão de modelos poderosos (como GPT-4), encontrar anotação manual e, em seguida, destilar, encontrar a pergunta original na Internet para se juntar ao modelo de ajuste fino no conjunto de treinamento, e assim por diante. **

**Uma das principais razões objetivas para a repetida lista de testes topo de linha de modelos nacionais de grande porte, na opinião de Liu Fei, é porque, até agora, não há padrões e métodos de avaliação objetivos verdadeiramente reconhecidos. **O “modelo de tarefa única” da geração anterior de IA tinha um conjunto de dados reconhecido como o padrão ouro, mas na era dos modelos grandes emergentes, “devido às novas características dos grandes modelos que são multitarefas e abertos, tornou-se difícil definir com antecedência, e o teste da qualidade dos dados é oneroso e difícil de compreender”. Liu Fei disse.

No entanto, mesmo que muitos modelos nacionais de grande porte sejam treinados por empréstimo da arquitetura LLaMA, eles ainda têm valor insubstituível para as empresas nacionais.

Li Zhen disse que quando empresas externas acessam uma grande plataforma de modelo, além de considerar o desempenho e o efeito do modelo, a abertura e a customizabilidade do modelo também são fatores importantes a serem considerados.

**Embora as empresas nacionais possam acessar diretamente o modelo Meta LLaMA, uma vez que o Meta LLaMA é uma plataforma internacional de modelos em larga escala, ela precisa estar em conformidade com mais regulamentações e restrições internacionais. **Além disso, se áreas ou dados sensíveis estiverem envolvidos, autorizações ou licenças específicas também são necessárias, e o risco de desligar tecnologias de código aberto no exterior a qualquer momento, mudar para taxas altas ou restringir o acesso em regiões não pode ser descartado. Portanto, na opinião de Li Zhen, é uma escolha mais econômica e econômica para as empresas nacionais chamar diretamente grandes modelos domésticos do que arriscar o acesso ao Meta LLaMA.

Pegando emprestado da arquitetura básica do LLaMA, o zero e um de Kai-Fu Lee tiveram um início rápido em termos de velocidade de treinamento do modelo.

Em março deste ano, Kai-Fu Lee anunciou oficialmente que iria liderar pessoalmente a equipe para estabelecer uma empresa AI2.0 para desenvolver um modelo geral de grande porte. Após um período de preparação de três meses, em julho, a empresa foi oficialmente nomeada “Zero One Everything” e criou uma equipe de pesquisa e desenvolvimento de modelos em larga escala de dezenas de pessoas. **Quatro meses depois que a equipe foi formada, a Zero One Everything lançou a série “Yi” de produtos de modelos em grande escala em novembro, e dominou uma série de conjuntos de testes de modelos em grande escala com a ajuda do Yi-34B. **

De acordo com relatos da comunidade de investimentos, por ocasião da estreia do produto modelo em larga escala, a 010000 concluiu uma nova rodada de financiamento liderada pelo Alibaba Cloud, com uma avaliação pós-investimento de mais de 1 bilhão de dólares, classificando-se entre os unicórnios das startups modelo de grande escala da China.

**Por trás da rápida ascensão de 0100000 coisas, é inseparável da bênção do IP pessoal de Kai-Fu Lee, e até mesmo o site oficial agradece publicamente “a pesquisa científica e a experiência industrial do Dr. Kai-Fu Lee no campo da inteligência artificial nos últimos 40 anos”. **

Site Oficial do Zero One Everything

Kai-Fu Lee, que atuou como Vice-Presidente Global do Google e Presidente da Grande China, e fundou a Microsoft Research Asia durante seu mandato como Vice-Presidente Global da Microsoft, completou a transformação de um gerente profissional estrela para um investidor de capital de risco ao fundar a Sinovation Ventures em 2009.

Ao longo da última década, a Sinovation Works investiu em mais de 300 projetos, incluindo empresas bem conhecidas no setor, incluindo Megvii, Meitu, Zhihu, 4Paradigm e Horizon.

Quando perguntado no final de 2019 qual fundo era o melhor retorno para a Sinovation Works, Kai-Fu Lee respondeu: "Os projetos de IA mais investidos têm os melhores retornos… Por exemplo, Megvii retorna 400 vezes e VIPKID retorna 1200 vezes. "

**Contando com décadas de pregação sobre IA, Kai-Fu Lee já foi conhecido como o “Padrinho da IA” da China. Apesar de seu impressionante investimento em IA, Lee claramente não está desempenhando um papel diferente de um empreendedor como Sam Altman, que está liderando a indústria de IA com seus produtos que marcam época. **

Em seu novo livro “AI: The Future”, lançado em setembro de 2018, Kai-Fu Lee falou sobre a lacuna de concorrência entre a China e os Estados Unidos, e corajosamente previu: “O equilíbrio da competitividade na era da inteligência artificial será inclinado para a execução comercial, qualidade do produto, velocidade de inovação e big data, e esses fatores são precisamente onde a China é superior aos Estados Unidos.” No livro, Kai-Fu Lee escreve mesmo que "as startups chinesas da Internet que começaram a ‘aprender’ há 15 anos inspiraram-se nos modelos de negócio americanos e competiram ferozmente entre si… Quando esta geração de empreendedores chineses aprender a usar a inteligência artificial, mudará completamente as regras do jogo. "

**Diante da realidade de uma nova rodada de mudanças disruptivas de IA desencadeadas pelo ChatGPT, cada vez mais pessoas estão começando a reexaminar a lacuna entre a China e os Estados Unidos em termos de IA. **

Em termos de grandes modelos, Ding Lei acredita mesmo que, em comparação com algoritmos, poder de computação e dados, “gestores de IA verdadeiramente líderes, talentos de gestão técnica como Sam Altman, que têm a capacidade de promover a aplicação de novas tecnologias, são uma lacuna que faz mais falta na China”. "

Além da necessidade de mostrar ao mundo exterior a excelente capacidade de gestão técnica como Altman, o sonho de Kai-Fu Lee de um modelo grande também encontrou muitos desafios. **

**Como alcançar a OpenAI o mais rápido possível é a maior tortura na frente de Kai-Fu Lee e outros seguidores do empreendedorismo modelo em larga escala. **

No último meio ano, a OpenAI também fez um rápido progresso no rápido desenvolvimento de grandes modelos nacionais, e lançou sucessivamente GPT-4, GPT-4V e GPT-4 Turbo.

Altman ainda está liderando a OpenAI para continuar seu passeio selvagem. Em outubro deste ano, Altman deixou claro pela primeira vez que a OpenAI iniciou o treinamento de GPT-5 e GPT-6, e continuará a iterar na direção da multimodalidade.

Enquanto os grandes modelos nacionais ainda estão tentando alcançar o ChatGPT, a lacuna entre seus modelos mais avançados e os modelos da OpenAI aumentou gradualmente.

Vale ressaltar que quando o GPT-3 foi lançado em 2020, a OpenAI divulgou todos os detalhes técnicos do treinamento do modelo em detalhes. Wen Jirong, reitor executivo da Escola Hillhouse de Inteligência Artificial da Universidade Chinesa, disse que muitos modelos grandes na China realmente têm a sombra do GPT-3.

No entanto, à medida que a OpenAI mudou sua estratégia de código aberto no GPT-4 e gradualmente se moveu para o fechamento, alguns grandes modelos domésticos perderam seus caminhos de recuperação para replicação.

Olhando para a China, mesmo que afirme ter alcançado o primeiro lugar na lista de testes, ainda é difícil ser otimista sobre os desafios deixados a zero e uma coisa.

Após o lançamento do modelo de pré-treinamento Yi-34B, Kai-Fu Lee anunciou que o treinamento do próximo modelo de 100 bilhões de parâmetros foi lançado internamente. Em contraste, muitas grandes empresas de modelos na China completaram a listagem e lançamento de 100 bilhões de modelos.

**Além da necessidade de acelerar para alcançar os pioneiros, como vencer no pouso comercial será um desafio maior que Kai-Fu Lee precisa resolver. **

Kai-Fu Lee, que experimentou a era da IA 1.0, mencionou que depois de se dedicar ao empreendedorismo de modelos em larga escala, ele mencionou que “a aplicação que ele faz deve ser orientada para ser capaz de gerar renda rapidamente, e pode gerar lucros muito bons, e a renda é de alta qualidade e sustentável, em vez de colocar um pedido em uma determinada empresa ao mesmo tempo”. "

Kai-Fu Lee também acredita que a era AIGC dará origem a oportunidades de plataforma que são dez vezes maiores do que a Internet móvel, e haverá novas oportunidades para reescrever o software, interfaces de usuário e aplicativos existentes, e reescrever a interação e entrada do usuário. "Assim como o Windows impulsionou a popularização dos PCs, o Android deu origem ao ecossistema da Internet móvel, o AIGC também dará origem a um novo lote de aplicativos que priorizam a IA e modelos de negócios liderados por IA. "

A fim de realizar a grande visão acima, além de construir seu modelo geral grande para ser avançado o suficiente, ele também precisa se destacar da concorrência de grandes modelos nacionais.

Jiang Yi, sócio-fundador da Hengye Capital, acredita que, nesta onda de grandes modelos de IA, os grandes modelos gerais que podem sobreviver na China acabarão por conseguir sobreviver, “pode haver 3 que já são bons”. Como treinar um modelo grande requer muito investimento, custa muito dinheiro e pode não ser capaz de alcançar o GPT-4. "

Seja Windows ou Android, há apenas uma luta em cada era, como Kai-Fu Lee deve fazer zero e uma coisa a “única” na era AIGC?

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)