2025-12-31 16:27:11

Há um artigo de pesquisa perspicaz que merece atenção se estiver a explorar como os sistemas de IA modernos funcionam realmente a um nível fundamental.

Trabalhos académicos recentes descobriram algo fascinante: o treino padrão de transformadores não aprende padrões aleatoriamente—está implicitamente a executar um algoritmo de Expectation-Maximization por baixo dos panos. Aqui está a explicação que faz tudo fazer sentido:

Os mecanismos de atenção realizam a etapa E, essencialmente fazendo atribuições suaves de quais posições de tokens realmente importam e merecem foco computacional. Entretanto, as transformações de valor executam a etapa M, refinando e atualizando iterativamente as representações aprendidas com base nesses pesos de atenção.

Esta ligação entre a arquitetura do transformer e os algoritmos EM tem implicações importantes para quem constrói infraestruturas de IA ou estuda como as redes neurais processam dados sequenciais. Sugere que estes modelos resolvem problemas de otimização de uma forma muito específica e estruturada—não através de uma busca exaustiva por padrões, mas através de uma estrutura probabilística elegante.

Para desenvolvedores que trabalham em sistemas blockchain ou protocolos distribuídos, compreender estas mecânicas subjacentes pode orientar melhores decisões arquitetónicas. O artigo oferece uma perspetiva matemática que explica por que os transformers funcionam tão bem.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

16 Curtidas

Recompensa
16
7
Repostar
Compartilhar

Comentário

0/400

SeeYouInFourYears

· 5h atrás

ngl Do ponto de vista do algoritmo EM, ainda é um pouco interessante, o transformer na verdade está jogando um jogo de probabilidades.

Ver originalResponder0

QuietlyStaking

· 5h atrás

Por isso, o transformer na verdade está a executar secretamente o algoritmo EM... Se soubesse isto mais cedo, sentiria que muitas coisas ficaram de repente mais claras.

Ver originalResponder0

GasFeeVictim

· 5h atrás

Um pouco confuso... o transformer na verdade é executado pelo algoritmo EM? Parece um pouco acadêmico demais, só quero saber por que isso não ajuda nas taxas de gas.

Ver originalResponder0

Lonely_Validator

· 5h atrás

Oh, esta tese parece estar bem, já ouvi falar do uso do transformer no algoritmo EM antes, parece um pouco exagerado na explicação Não diga mais, só quero saber como essa coisa ajuda nos modelos na cadeia... Esse quadro matemático parece bom, mas na prática, quanto pode otimizar? emm, mais uma explicação sobre os princípios básicos, quando é que vamos ver melhorias de desempenho... Só conhecer o algoritmo EM é inútil, o mais importante é a implementação prática É interessante, mas sinto que a academia costuma complicar coisas simples

Ver originalResponder0

DegenRecoveryGroup

· 5h atrás

A expressão "transformer rodando o algoritmo EM" é um pouco interessante, mas parece que o meio acadêmico está apenas reembalando conceitos já conhecidos como se fossem novidades...

Ver originalResponder0

ShibaSunglasses