O LLM de nível de byte finalmente teve um progresso sério, com 1,7 bilhões podendo se aproximar do efeito de segmentação de palavras, a guerra de vocabulários pode estar obsoleta.

Ver original
CoinNetwork
Nous Research confirma que os benefícios da segmentação podem ser totalmente simulados por ByteDance, levando a uma grande inovação em modelos de grande escala sem segmentação
Nós pesquisas de pesquisa afirmam que a dependência de longo prazo dos modelos de linguagem grande em tokenizadores pode ser substituída no futuro.
Testes controlados com 1,7 bilhões de parâmetros mostram que os benefícios do mecanismo de tokenização podem ser simulados na camada de bytes pura por meio de métodos de engenharia.
Experimentos indicam que, em modelos nativos de bytes, aumentar o throughput e inserir fronteiras morfológicas podem reduzir significativamente a diferença em relação aos modelos de tokenização;
Sob a mesma capacidade computacional, a simulação de compressão melhora a quantidade de gradientes processados por passo, tornando-se a maior fonte de contribuição.
Ao sobrepor fronteiras de subpalavras aos bytes de entrada, foi estabelecida uma preferência de indução de longo prazo que não revela informações futuras.
Embora o efeito de sinergia de parâmetros maiores ainda precise ser verificado, em 1,7 bilhões, os benefícios de parâmetros de vocabulário e previsão do próximo subpalavra são limitados.
Isso oferece uma ideia para modelos grandes que evitam tokenização, e futuras arquiteturas devem focar em aumentar o throughput e incorporar explicitamente o prior morfológico de forma que não revele informações.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado