Título original: "Onde estão os oito pais do Transformer hoje?" Fonte original: Machine Heart
No dia 18 de junho, Noam Shazeer, um dos coautores do artigo Transformer, anunciou a sua saída do Google no X e juntou-se à OpenAI. Dois dias depois, John Jumper, vencedor do Prémio Nobel da Química de 2024 e responsável pela equipa AlphaFold, também anunciou a sua saída do Google DeepMind, com destino à Anthropic.
As duas notícias, uma após a outra, provocaram uma forte reação no mercado de capitais: as ações da Alphabet, empresa-mãe da Google, chegaram a cair mais de 7%, com uma perda de valor de mercado superior a 300 mil milhões de dólares. Várias agências de análise atribuíram esta venda ao "êxodo de talentos". Gil Luria, analista da D.A. Davidson, afirmou que a saída de Shazeer para a OpenAI e de Jumper para a Anthropic, praticamente ao mesmo tempo, fez o mercado recear que a Google esteja a perder terreno na guerra por talentos em IA.
A saída de Shazeer é particularmente interessante — esta já é a segunda vez que sai da Google.
Em 2021, insatisfeito por a empresa se recusar a lançar publicamente o chatbot que liderou, saiu para fundar a Character.AI; em agosto de 2024, a Google pagou cerca de 2,7 mil milhões de dólares pelos direitos de tecnologia da Character.AI, aproveitando para o trazer de volta ao DeepMind, nomeando-o Vice-Presidente de Engenharia do projeto Gemini, co-liderando-o com Jeff Dean. Menos de dois anos depois, voltou a sair, desta vez para a rival OpenAI.
Até agora, todos os oito coautores do artigo "Attention Is All You Need", publicado há nove anos, já saíram da Google.
O utilizador Tyler Maran fez uma imagem com os destinos atuais de cada um, que foi amplamente partilhada nas redes sociais.
No entanto, esta imagem pode ficar desatualizada rapidamente. Nos últimos dois dias, surgiram rumores no mercado de que a NVIDIA está discretamente a recrutar a equipa principal da Essential AI, incluindo Ashish Vaswani, coautor do artigo Transformer e cofundador e CEO da Essential AI. Até ao momento da redação, nem a NVIDIA nem a Essential AI responderam oficialmente a esta notícia.
Aproveitando esta oportunidade, vamos fazer um balanço completo dos percursos profissionais destas oito pessoas, conhecidas como os "pais do Transformer", ao longo dos últimos nove anos, e dos seus verdadeiros destinos atuais.
É importante referir que a ordem dos autores no artigo "Attention Is All You Need" é aleatória. A nota de rodapé do artigo indica claramente: Todos os autores contribuíram igualmente, a ordem é aleatória, não existindo, portanto, um "primeiro autor" ou "autor correspondente". Este artigo segue a ordem original de assinatura do artigo para apresentar estas oito pessoas.
Para entender os seus destinos atuais, é preciso recuar a 2017. Na altura, a abordagem dominante na tradução automática era a Rede Neural Recorrente (RNN), onde o modelo processava as palavras uma a uma sequencialmente, como a atravessar uma rua numa faixa única, sem capacidade de computação paralela, tornando o treino lento e caro.
Oito pessoas do Google Brain decidiram testar uma ideia quase ousada: eliminar completamente a estrutura recorrente, mantendo apenas o "mecanismo de atenção", permitindo que o modelo visse a frase inteira de uma só vez e decidisse por si próprio quais palavras mereciam mais atenção. O título do artigo, "Attention Is All You Need", é uma adaptação da música "All You Need Is Love" dos Beatles, tornando-se mais tarde um formato imitado por muitos outros títulos de artigos.
A secção de contribuições dos autores no artigo regista brevemente o que cada um fez especificamente:
· Jakob Uszkoreit foi o primeiro a propor a substituição das estruturas recorrentes por auto-atenção e liderou a validação inicial desta ideia;
· Ashish Vaswani e Illia Polosukhin conceberam e implementaram em conjunto o modelo Transformer original, participando em praticamente todas as fases do projeto;
· Noam Shazeer propôs a atenção de produto escalar, o mecanismo de atenção multi-cabeça e o método de representação posicional sem parâmetros, sendo outra pessoa que esteve envolvida em quase todos os detalhes;
· Niki Parmar concebeu, implementou e depurou inúmeras variantes do modelo na base de código original e no posterior framework tensor2tensor;
· Llion Jones também experimentou um grande número de novas variantes do modelo e foi responsável pela base de código original, otimização da eficiência de inferência e trabalho de visualização;
· Łukasz Kaiser e Aidan N. Gomez passaram inúmeros dias e noites a construir os vários módulos do tensor2tensor, substituindo a base de código inicial, melhorando significativamente os resultados experimentais e a eficiência da investigação.
Esta descrição também revela indiretamente um detalhe: embora a ordem de assinatura do artigo seja aleatória, Uszkoreit, Vaswani, Polosukhin e Shazeer assumiram claramente papéis mais centrais ao nível da arquitetura, enquanto Parmar, Jones, Kaiser e Gomez lideraram a implementação da engenharia e a construção do sistema — isto é precisamente uma nota inicial das diferenças de personalidade e especialização que mais tarde levaram os oito a seguir caminhos distintos.
O próprio nome "Transformer" também tem uma história curiosa. Uszkoreit gostava da sonoridade da palavra, e a equipa começou a autodenominar-se "Team Transformer", com a capa dos primeiros documentos de design a apresentar seis personagens do anime Transformers.
Desde a sua publicação, o artigo já foi citado mais de 260.000 vezes, sendo um dos artigos mais citados do século XXI.
Vaswani nasceu em 1986, na Índia, obteve o bacharelato em Ciências da Computação no Instituto de Tecnologia Birla da Índia (BIT Mesra) em 2002, e depois foi para os EUA, onde fez o doutoramento na Universidade do Sul da Califórnia sob a orientação de David Chiang, com investigação em tradução automática estatística e modelação de linguagem com redes neuronais. Após concluir o doutoramento, trabalhou como cientista informático no Instituto de Ciências da Informação da USC durante dois anos, antes de se juntar oficialmente ao Google Brain como cientista de investigação em 2016, onde permaneceu até 2021.
De acordo com a secção de contribuições do artigo, Vaswani, juntamente com Illia Polosukhin, concebeu e implementou o modelo Transformer original, sendo uma das figuras centrais que "participou em praticamente todas as fases do projeto".
Depois de deixar a Google, Vaswani cofundou a Adept AI em 2021 com Niki Parmar e David Luan, antigo Vice-Presidente de Engenharia da OpenAI, onde foi Cientista Chefe, com o objetivo de criar "modelos de ação" capazes de executar operações de forma autónoma em qualquer software.
A Adept chegou a angariar mais de 400 milhões de dólares, com uma avaliação de cerca de mil milhões, mas o produto nunca se concretizou e surgiram divergências internas. Vaswani e Parmar saíram cedo — o seu mandato como Cientista Chefe na Adept terminou em novembro de 2022.
No início de 2023, Vaswani e Parmar uniram-se novamente para fundar a Essential AI, com ele como CEO. A empresa recebeu investimentos estratégicos da Google, NVIDIA e AMD: uma ronda inicial de 8,3 milhões de dólares liderada pela Thrive Capital, e uma ronda Série A de 56,5 milhões de dólares no final de 2023, liderada pela March Capital, com a participação da Google, NVIDIA, AMD, KB Investment, Franklin Templeton, entre outros.
No início de 2026, a empresa concluiu uma ronda Série B de 175 milhões de dólares, liderada pela Lightspeed Venture Partners, com a participação da Thrive Capital, atingindo uma avaliação de mil milhões de dólares, tornando-se oficialmente um unicórnio.
No final de 2025, a empresa lançou a sua primeira série de modelos de código aberto, Rnj-1 (em homenagem ao matemático indiano Ramanujan).
No entanto, nos últimos dois dias, a situação mudou. Segundo relatos, a NVIDIA está a recrutar a equipa principal da Essential AI, incluindo o próprio Vaswani, que irá participar no desenvolvimento do modelo de código aberto da NVIDIA, Nemotron.
Fontes revelam que a razão é bastante prática: a Essential AI está a enfrentar dificuldades de financiamento, e atrair Vaswani e a sua equipa do campo da AMD (a AMD sempre foi uma das primeiras investidoras estratégicas da Essential AI, e a empresa dependia fortemente das GPUs da AMD) é, por si só, um negócio vantajoso.
Vários investigadores da Essential AI (incluindo Alok Tripathy e Saurabh Srivastava) já atualizaram os seus perfis no LinkedIn, indicando que se juntaram à NVIDIA. No entanto, até ao momento, nem a NVIDIA nem a Essential AI confirmaram oficialmente esta notícia.
Shazeer nasceu em 1976 em Filadélfia, é um judeu ortodoxo; o seu pai, Dov Shazeer, era um engenheiro de formação em matemática, e a sua irmã foi ordenada rabina pelo Hebrew College. Desde cedo demonstrou talento excecional, tendo sido membro da equipa dos EUA nas Olimpíadas Internacionais de Matemática de 1994, onde ganhou uma medalha de ouro com pontuação máxima. Frequentou a Universidade Duke, onde estudou Matemática e Ciências da Computação, foi bolseiro do Angier B. Duke Memorial Scholarship e obteve prémios na Competição de Matemática Putnam.
Em 2000, Shazeer juntou-se à Google, onde o seu primeiro grande sucesso foi melhorar a função de correção ortográfica da pesquisa do Google.
De acordo com a secção de contribuições do artigo Transformer, ele propôs a atenção de produto escalar, o mecanismo de atenção multi-cabeça e a representação posicional sem parâmetros, sendo, além de Vaswani e Polosukhin, outra pessoa que "participou em praticamente todos os detalhes".
Após coautorar o artigo Transformer em 2017, ele e o colega Daniel De Freitas criaram o chatbot Meena, mas a Google, por prudência, não o lançou publicamente. Os dois optaram por sair em 2021 e fundaram a Character.AI, que angariou mais de 150 milhões de dólares de entidades como a a16z, tornando-se uma aplicação de chat de role-playing bastante popular.
Em agosto de 2024, a história deu uma reviravolta: a Google celebrou um acordo de licenciamento com a Character.AI, alegadamente no valor de 2,7 mil milhões de dólares, e Shazeer e De Freitas regressaram ao Google DeepMind com um pequeno grupo de colegas. Ele foi nomeado Vice-Presidente de Engenharia, co-liderando o projeto Gemini com Jeff Dean e Oriol Vinyals.
Como detinha entre 30% a 40% das ações da Character.AI, estima-se que esta transação lhe tenha rendido entre 750 milhões a mil milhões de dólares. Em 2026, foi eleito membro da Academia Nacional de Engenharia dos EUA, com um currículo aparentemente em ascensão.
No entanto, apenas alguns meses depois, voltou a sair, desta vez para a OpenAI, onde alegadamente será responsável por uma área chamada "Investigação em Arquitetura", coincidindo com o período em que a OpenAI se prepara para o IPO (a empresa apresentou confidencialmente o formulário S-1 à SEC a 8 de junho, com avaliações rumoradas de até 852 mil milhões de dólares).
Sam Altman, CEO da OpenAI, fez uma declaração pública invulgar: "Ele é uma das pessoas com quem mais desejei trabalhar desde o primeiro dia da OpenAI", acrescentando que esta contratação "foi planeada durante uma década inteira".
Para a Google, esta foi uma "recompra fracassada" de alto custo: a pessoa que trouxeram de volta por 2,7 mil milhões de dólares há dois anos, agora juntou-se ao principal concorrente, e isto foi um dos catalisadores diretos da forte queda das ações da Google esta semana.
Parmar nasceu em Pune, na Índia, licenciou-se em Tecnologias da Informação no Instituto de Tecnologia Informática de Pune (Pune Institute of Computer Technology). Durante os seus estudos, desenvolveu interesse pela Inteligência Artificial e Machine Learning através de cursos online abertos de Andrew Ng e Peter Norvig, tendo depois ido para os EUA fazer um mestrado em Ciências da Computação na Universidade do Sul da Califórnia, onde investigou problemas de ciências sociais usando métodos de machine learning sob a orientação do professor Morteza Dehghani.
Em 2015, Parmar juntou-se à Google Research como engenheira de software, e em 2017 transferiu-se para o Google Brain como engenheira de software de investigação — segundo relatos, era na altura a investigadora mais jovem e a única sem doutoramento na equipa do Google Brain.
De acordo com a secção de contribuições do artigo, ela concebeu, implementou e depurou inúmeras variantes do modelo na base de código original e no posterior framework tensor2tensor. Após a publicação do artigo, continuou a expandir o Transformer para Além da linguagem, participando em investigação sobre a extensão do mecanismo de auto-atenção para geração de imagens e visão computacional.
Em 2021, Parmar saiu da Google e cofundou a Adept AI com Ashish Vaswani, David Luan e outros, onde foi Chief Technology Officer. Tal como Vaswani, saiu cedo da Adept e, no início de 2023, voltou a fundar a Essential AI com Vaswani, continuando como cofundadora.
No entanto, não ficou até à ronda Série B e ao estatuto de unicórnio da Essential AI. No final de 2024, Parmar saiu silenciosamente da Essential AI e juntou-se à Anthropic, anunciando a notícia publicamente em fevereiro de 2025. Escreveu no X: "Hoje é um dia tão bom como qualquer outro para partilhar: juntei-me à Anthropic em dezembro passado."
Posteriormente, participou no desenvolvimento do Claude 3.7 Sonnet — um dos lançamentos de modelo mais importantes da história da Anthropic. Atualmente, é Membro da Equipa Técnica (Member of Technical Staff) na Anthropic, focada em investigação de capacidades de ponta e trabalho em aprendizagem por reforço.
As duas coautoras que antes eram inseparáveis e parceiras em duas startups, acabaram por seguir destinos completamente diferentes: Parmar retirou-se discretamente mais de um ano antes, integrando-se silenciosamente num laboratório de topo; enquanto Vaswani optou por continuar a impulsionar a Essential AI, até ser apanhado esta semana pela mão estendida de um concorrente.
Uszkoreit nasceu numa família de linguistas. O seu pai, Hans Uszkoreit, é um conhecido linguista computacional. Quando o filho propôs a hipótese de que "apenas o mecanismo de atenção é suficiente", até o próprio pai tinha dúvidas. Uszkoreit obteve o doutoramento na Universidade Técnica de Berlim e, mais tarde, atingiu o nível de "Cientista Distinto" (Distinguished Scientist) no Google Brain.
De acordo com a secção de contribuições do artigo, foi Uszkoreit quem primeiro propôs substituir as Redes Neuronais Recorrentes pelo mecanismo de auto-atenção e liderou a validação inicial desta ideia — a semente desta hipótese já estava presente no seu artigo de 2016 sobre o "Modelo de Atenção Decomponível", coautorado com Ankur Parikh, Oscar Täckström e Dipanjan Das.
O nome "Transformer" foi decidido porque ele gostava da sonoridade da palavra; a equipa autodenominava-se "Team Transformer", e a capa dos primeiros documentos de design apresentava seis personagens do anime Transformers.
No final de 2020, o AlphaFold2 da DeepMind provou que modelos do tipo Transformer podiam resolver problemas como a dobragem de proteínas, um "Santo Graal" da biologia. Ele também se tornou cada vez mais consciente de que o que faltava para a aprendizagem profunda transformar verdadeiramente a biologia não eram algoritmos, mas dados. "Quase se tornou uma obrigação moral," recordou mais tarde.
Assim, em 2021, cofundou a Inceptive com Rhiju Das, professor de Bioquímica na Universidade de Stanford e criador do famoso jogo de design de RNA Eterna. A sede da empresa fica em Berkeley, a equipa de investigação permanece em Berlim — ele próprio vive em Berlim, com funcionários distribuídos por Zurique, Londres, Vancouver e várias cidades da costa leste dos EUA.
A ideia central da empresa é inverter a abordagem experimental: em vez de primeiro ter dados e depois treinar o modelo, utilizam robôs e trabalho humano para gerar em grande escala novos dados experimentais de RNA, que são depois alimentados ao modelo para aprendizagem.
A Inceptive já angariou cerca de 120 milhões de dólares de entidades como a NVIDIA, a16z, Obvious Ventures e Section 32. O desenvolvimento mais recente ocorreu este mês: no início de junho, a Alnylam Pharmaceuticals, pioneira em terapias de interferência de RNA, assinou uma parceria estratégica com a Inceptive, utilizando os modelos fundamentais da Inceptive para acelerar a conceção de candidatos a fármacos de siRNA, com um pagamento inicial de 30 milhões de dólares e um valor total potencial de cerca de 2 mil milhões de dólares, segundo relatos.
Uszkoreit disse numa declaração: "A maioria dos designs de medicamentos ainda se baseia em tentativa e erro — testar milhares de moléculas e esperar que uma funcione. A abordagem da Inceptive é diferente: a vida segue regras extremamente complexas que só a IA pode aprender."
Dos oito autores, ele é o único que mudou completamente de área para a biotecnologia, o que confirma uma profecia deixada pelo artigo na altura: o potencial do mecanismo de atenção vai muito Além da tradução automática.
Jones é galês, licenciou-se na Universidade de Birmingham e juntou-se à Google como engenheiro de software em 2011, onde permaneceu por mais de uma década, sendo um dos poucos autores sem doutoramento, que encontrou o seu caminho puramente através do instinto de engenharia.
De acordo com a secção de contribuições do artigo, ele experimentou um grande número de novas variantes do modelo e foi responsável pela base de código original, otimização da eficiência de inferência e trabalho de visualização.
Mais tarde, recordou o momento decisivo: "Estávamos a começar a tentar eliminar diretamente algumas partes do modelo para ver o quanto isso degradava o desempenho. Para nossa surpresa, o desempenho melhorou." Foi este o momento em que a hipótese de que "a estrutura recorrente é redundante" foi verificada pela primeira vez.
Em 2023, Jones e David Ha, também antigo funcionário da Google, fundaram a Sakana AI em Tóquio. "Sakana" significa "peixe" em japonês. Ha é CEO, Jones é CTO, e o outro cofundador, Ren Ito, é COO.
Jones reside atualmente em Tóquio e descreve-se nas redes sociais como "investigador de IA galês a viver em Tóquio". A linha de investigação da empresa tem um caráter claramente contracorrente: em vez de acumular potência computacional e parâmetros, preferem inspirar-se na lógica da evolução natural, fazendo com que um grupo de modelos mais pequenos colabore como um cardume de peixes. Os resultados representativos da empresa incluem a Continuous Thought Machine e o projeto "AI Scientist", capaz de realizar investigação de ponta a ponta de forma autónoma.
Recentemente, a empresa lançou o modelo Sakana Fugu, com desempenho de ponta.
A Sakana AI já angariou um total de 379 milhões de dólares, incluindo uma ronda Série B concluída em março de 2026, com a Mitsubishi Electric como um dos investidores. Em março de 2026, a empresa também garantiu um acordo de colaboração de vários anos com o Mitsubishi UFJ Financial Group (MUFG). Este planeia utilizar a tecnologia da Sakana para reformar o seu sistema bancário, e segundo relatos, este acordo poderá tornar a empresa, avaliada em cerca de 1,5 mil milhões de dólares, lucrativa num ano.
O próprio Jones expressou em várias ocasiões o seu ceticismo em relação ao simples "scaling".
Em março de 2026, num evento interno do setor bancário, disse que a investigação em IA enfrenta uma realidade embaraçosa: com a entrada massiva de investimento e talento, seria de esperar que surgissem mais avanços, mas o efeito real pode ser o oposto: os investidores pressionam por resultados, a concorrência pressiona por primazia, e o espaço para os investigadores "explorarem livremente" está a ser comprimido.
Mencionou que a Sakana sempre manteve uma pequena parte de liberdade de investigação "sem KPIs", porque a próxima grande descoberta virá certamente deste tipo de investimento a longo prazo sem consideração de resultados — é exatamente assim que o Transformer nasceu naquele gabinete do Google Brain.
Também disse uma frase frequentemente citada: para que uma nova arquitetura substitua verdadeiramente o Transformer, não basta ser "melhor", tem de ser "significativamente, indiscutivelmente melhor".
Gomez é o mais jovem dos oito autores. No ano da publicação do artigo, era apenas um estagiário de licenciatura de 20 anos no Google Brain, a fazer um duplo curso de Ciências da Computação e Matemática na Universidade de Toronto.
De acordo com a secção de contribuições do artigo, ele e Łukasz Kaiser passaram inúmeros dias e noites a construir os vários módulos do framework tensor2tensor, substituindo a base de código inicial, melhorando significativamente os resultados experimentais e a eficiência da investigação. "Na altura, só queria perceber como funcionava exatamente o mecanismo de atenção," recordou mais tarde, "nunca imaginei que se tornaria a 'arquitetura de tudo'." Após o artigo, foi para Oxford fazer o doutoramento, interrompeu os estudos para empreender, e só em 2024 obteve oficialmente o doutoramento — pode dizer-se que concluiu o doutoramento enquanto empreendia.
Em 2019, Gomez, juntamente com Ivan Zhang e Nick Frosst, fundou a Cohere, posicionando a empresa como fornecedora de serviços de IA para empresas, evitando deliberadamente a guerra de despesas dos chatbots de consumo, focando-se na privacidade dos dados, implementação localizada e capacidades multilingues, com clientes maioritariamente grandes empresas e governos.
Em 2023, Gomez foi incluído na lista das 100 pessoas mais influentes em IA da revista Time, e ele e os dois cofundadores também lideraram a tabela de tendências de IA do ano da revista Maclean's; em abril de 2025, foi eleito para o conselho de administração da empresa de veículos elétricos Rivian.
Esta abordagem relativamente "pouco sexy" permitiu à empresa obter bons resultados financeiros: até meados de 2026, a Cohere tinha uma receita anual recorrente superior a 200 milhões de dólares, com um crescimento de 6 vezes no último ano, uma margem bruta de cerca de 70%, e um financiamento total acumulado de quase 1,7 mil milhões de dólares, com uma avaliação de cerca de 7 mil milhões; em agosto de 2025, a empresa contratou François Chadwick, que participou no IPO da Uber, como seu primeiro CFO, e já abriu uma janela para os funcionários venderem ações no mercado secundário. O próprio Gomez disse várias vezes que o IPO está "próximo", mas até ao momento a empresa ainda não apresentou o prospeto à entidade reguladora.
Gomez tornou-se cada vez mais um porta-voz da IA em termos geopolíticos. Esta semana, escreveu um artigo na revista Fortune, apelando aos países para que enfrentem a questão da "soberania digital".
O artigo refere diretamente o recente aperto no acesso ao modelo Anthropic, alertando os países para não "alugarem" o seu futuro a um punhado de gigantes tecnológicos centralizados, e propõe a criação de um ecossistema verdadeiramente diversificado, onde os países possam depender de diferentes fornecedores de IA, mantendo ao mesmo tempo os seus próprios valores, línguas e sistemas jurídicos.
Também declarou publicamente que as preocupações com riscos existenciais do tipo "apocalipse da IA" são exageradas, e que o risco real que mais o preocupa é a desinformação amplificada automaticamente nas redes sociais. Gomez já não fala apenas dos modelos em si, mas de quem tem o direito de decidir que tipo de IA o mundo inteiro utiliza.
Kaiser é polaco, com formação inicial em lógica, teoria dos autómatos, teoria dos modelos algorítmicos e teoria dos jogos, áreas da ciência da computação teórica: obteve um duplo mestrado em Matemática e Ciências da Computação na Universidade de Wrocław, e concluiu o doutoramento na Universidade Técnica de Aachen, na Alemanha. Mais tarde, teve um cargo de professor catedrático no Centro Nacional de Investigação Científica (CNRS) e na Universidade Paris VII, focado em investigação teórica pura em lógica e teoria dos autómatos.
Mais tarde, orientou-se para a aplicação, trabalhando no Google Brain durante quase 8 anos, onde foi também coautor do TensorFlow e publicou artigos iniciais como "Pode a memória ativa substituir a atenção?" com Samy Bengio, e "Algoritmo de aprendizagem Neural GPU" com Ilya Sutskever.
De acordo com a secção de contribuições do artigo, ele e Aidan N. Gomez passaram inúmeros dias e noites a construir o framework tensor2tensor, melhorando significativamente os resultados experimentais e a eficiência da investigação.
Dos oito autores, ele é o único que não empreendeu, permanecendo sempre em grandes laboratórios a fazer investigação pura.
Em 2021, juntou-se à OpenAI, antes do lançamento do ChatGPT. Na OpenAI, participou no desenvolvimento do Codex (que mais tarde se tornou a base técnica do GitHub Copilot) e no benchmark de programação HumanEval, bem como na investigação do conjunto de dados de problemas matemáticos GSM8K, que mostrou que "deixar o modelo pensar um pouco mais durante a inferência, amostrando várias vezes" podia melhorar significativamente a precisão — este foi o protótipo do paradigma dos modelos de raciocínio posteriores.
Foi também um dos autores assinantes do relatório técnico do GPT-4, e mais tarde tornou-se um contribuidor principal do primeiro modelo de raciocínio da OpenAI, o o1 (lançado em setembro de 2024), sendo considerado um papel ao nível de "responsável de investigação", continuando depois com o o3 e paradigmas de raciocínio mais recentes, até à atual série GPT-5.
Recentemente, no podcast MAD, conduzido por Matt Turck, disse que o Transformer já foi matematicamente provado capaz de resolver qualquer problema, desde que se permita ao modelo gerar passos de raciocínio intermédios suficientes. De certa forma, esta é uma anotação tardia e mais precisa do artigo de há nove anos.
Polosukhin é de Kharkiv, na Ucrânia, licenciou-se em Matemática Aplicada e foi campeão do Concurso Internacional de Programação Universitária (ICPC). Segundo o próprio, depois de ver o filme "Matrix" aos dez anos, desenvolveu um interesse quase obsessivo pela inteligência artificial. Em 2014, juntou-se à Google, participando em investigação relacionada com o TensorFlow e também em investigação sobre compreensão de leitura automática e sistemas de perguntas e respostas.
De acordo com a secção de contribuições do artigo, ele e Ashish Vaswani conceberam e implementaram em conjunto o modelo Transformer original, sendo a sua parte principal a validação da eficácia desta arquitetura em tarefas de tradução automática.
Após a publicação do artigo, saiu da Google em 2017 e cofundou com Alexander Skidanov uma empresa de inteligência artificial inicialmente chamada NEAR.AI. No entanto, rapidamente perceberam que construir infraestrutura descentralizada poderia ser mais interessante do que modelos, e a empresa transformou-se, por volta de 2018, no projeto blockchain NEAR Protocol.
O NEAR utiliza uma tecnologia de fragmentação chamada Nightshade e, através da Aurora, oferece uma camada dois compatível com Ethereum. A mainnet foi lançada oficialmente em 2020, tendo angariado mais de 530 milhões de dólares de entidades como a16z, Coinbase, Tiger Global Management, Hashed e Dragonfly Capital.
Atualmente, Polosukhin tenta reunir as suas duas identidades iniciais: em março de 2026, disse aos meios de comunicação que "os futuros utilizadores do blockchain serão agentes de IA, não humanos", posicionando o NEAR como a "camada de liquidação" para a economia de agentes.
Em abril do mesmo ano, apelou publicamente à criação de um quadro regulamentar mais robusto para lidar com agentes de IA autónomos; considera que as instituições e sistemas existentes ainda não estão preparados para lidar com as questões de responsabilidade e riscos sistémicos trazidos por estes sistemas, apelando a mecanismos de responsabilização mais claros e supervisão do tipo "human-in-the-loop".
Atualmente reside em Portugal. Entre as identidades de "autor de um artigo fundacional sobre LLMs" e "gestor de uma empresa de blockchain avaliada em milhares de milhões de dólares", ele é provavelmente a única pessoa no mundo que pode ter ambas.
Em março de 2024, na conferência GTC da NVIDIA, sete dos oito autores (Niki Parmar esteve ausente por razões pessoais) apareceram juntos pela primeira vez como grupo, numa entrevista conduzida por Jensen Huang.
Jensen Huang disse: "Tudo o que desfrutamos hoje remonta a esse momento."
No final da conversa, ofereceu a cada um uma placa comemorativa autografada de uma DGX-1 da NVIDIA, gravada com as palavras "You transformed the world". Em novembro do mesmo ano, a Fundação C&C da NEC no Japão atribuiu o prémio C&C desse ano à "Equipa Transformer" composta por estas oito pessoas, partilhando o palco com três engenheiros seniores que investigam tecnologias de cabos submarinos transoceânicos. Construtores de infraestruturas de duas áreas completamente diferentes foram colocados no mesmo prémio.
Nove anos passados, estas oito trajetórias de vida dispersaram-se por pontos que quase nunca mais se cruzarão: o setor de serviços empresariais em Silicon Valley, o laboratório de algoritmos evolutivos em Tóquio, a empresa de biologia molecular em Berlim, o protocolo blockchain em Portugal, e os vários laboratórios de IA de topo que ainda esta semana se estão a reorganizar.
No entanto, se juntarmos tudo o que disseram ao longo dos anos, encontra-se um julgamento comum que se repete: ninguém acredita realmente que o Transformer será o ponto final.
Aidan N. Gomez disse que o mundo precisa de algo melhor do que o Transformer; Llion Jones disse que a próxima arquitetura terá de ser "significativamente, indiscutivelmente melhor" para o substituir; Łukasz Kaiser continua a tentar explicar, em linguagem matemática, até onde esta arquitetura, nascida há nove anos, pode levar a humanidade.
Talvez seja este o legado mais duradouro deixado por este artigo: os seus oito autores espalharam-se pelo mundo, mas nenhum deles parou de procurar a próxima resposta.
Link original
Clique para conhecer as vagas de emprego no Rhythm BlockBeats
Bem-vindo a juntar-te à comunidade oficial do Rhythm BlockBeats:
Grupo de subscrição Telegram: https://t.me/theblockbeats
Grupo de discussão Telegram: https://t.me/BlockBeats_App
Conta oficial Twitter: https://twitter.com/BlockBeatsAsia