Há um artigo de pesquisa perspicaz que merece atenção se estiver a explorar como os sistemas de IA modernos funcionam realmente a um nível fundamental.



Trabalhos académicos recentes descobriram algo fascinante: o treino padrão de transformadores não aprende padrões aleatoriamente—está implicitamente a executar um algoritmo de Expectation-Maximization por baixo dos panos. Aqui está a explicação que faz tudo fazer sentido:

Os mecanismos de atenção realizam a etapa E, essencialmente fazendo atribuições suaves de quais posições de tokens realmente importam e merecem foco computacional. Entretanto, as transformações de valor executam a etapa M, refinando e atualizando iterativamente as representações aprendidas com base nesses pesos de atenção.

Esta ligação entre a arquitetura do transformer e os algoritmos EM tem implicações importantes para quem constrói infraestruturas de IA ou estuda como as redes neurais processam dados sequenciais. Sugere que estes modelos resolvem problemas de otimização de uma forma muito específica e estruturada—não através de uma busca exaustiva por padrões, mas através de uma estrutura probabilística elegante.

Para desenvolvedores que trabalham em sistemas blockchain ou protocolos distribuídos, compreender estas mecânicas subjacentes pode orientar melhores decisões arquitetónicas. O artigo oferece uma perspetiva matemática que explica por que os transformers funcionam tão bem.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • Repostar
  • Compartilhar
Comentário
0/400
SeeYouInFourYearsvip
· 5h atrás
ngl Do ponto de vista do algoritmo EM, ainda é um pouco interessante, o transformer na verdade está jogando um jogo de probabilidades.
Ver originalResponder0
QuietlyStakingvip
· 5h atrás
Por isso, o transformer na verdade está a executar secretamente o algoritmo EM... Se soubesse isto mais cedo, sentiria que muitas coisas ficaram de repente mais claras.
Ver originalResponder0
GasFeeVictimvip
· 5h atrás
Um pouco confuso... o transformer na verdade é executado pelo algoritmo EM? Parece um pouco acadêmico demais, só quero saber por que isso não ajuda nas taxas de gas.
Ver originalResponder0
Lonely_Validatorvip
· 5h atrás
Oh, esta tese parece estar bem, já ouvi falar do uso do transformer no algoritmo EM antes, parece um pouco exagerado na explicação Não diga mais, só quero saber como essa coisa ajuda nos modelos na cadeia... Esse quadro matemático parece bom, mas na prática, quanto pode otimizar? emm, mais uma explicação sobre os princípios básicos, quando é que vamos ver melhorias de desempenho... Só conhecer o algoritmo EM é inútil, o mais importante é a implementação prática É interessante, mas sinto que a academia costuma complicar coisas simples
Ver originalResponder0
DegenRecoveryGroupvip
· 5h atrás
A expressão "transformer rodando o algoritmo EM" é um pouco interessante, mas parece que o meio acadêmico está apenas reembalando conceitos já conhecidos como se fossem novidades...
Ver originalResponder0
ShibaSunglassesvip
· 6h atrás
O mecanismo de atenção roda com o algoritmo EM? Essa lógica é meio absurda, nunca tinha pensado nisso sob essa perspectiva...
Ver originalResponder0
ReverseTradingGuruvip
· 6h atrás
O transformer é basicamente o algoritmo EM? Agora o algoritmo vai ficar desempregado hahaha
Ver originalResponder0
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)