Elon Musk (馬斯克) anunciou a 15 de maio, na X, que o mais recente algoritmo da X já foi publicado no GitHub. De acordo com o repositório xai-org/x-algorithm tornado público pela xAI no GitHub, o foco principal do que foi agora divulgado é o sistema de recomendação que serve de motor para a caixa de informações “For You” da plataforma X. Este sistema combina conteúdo do utilizador dentro da plataforma que já foi seguido, com conteúdo fora da plataforma descoberto por machine learning a partir de uma base global de conteúdos; por fim, entrega essa avaliação a um modelo transformer baseado na arquitetura Grok para ordenação.

O projeto é licenciado sob a Apache 2.0 e é escrito principalmente em Rust e Python; à data da consulta, o GitHub mostrava cerca de 21 mil estrelas e 3.800 forks.

Arquitetura das recomendações “For You”: Thunder para seguir conteúdos, Phoenix para buscar conteúdos fora da rede

De acordo com a documentação do repositório, o feed For You da X é composto por duas fontes principais de conteúdo candidato.

A primeira é conteúdo dentro da plataforma, que fica a cargo do módulo Thunder. O Thunder é uma área de armazenamento em memória de publicações e um pipeline de ingestão de dados em tempo real: consome publicações de Kafka para criar e remover eventos, acompanha as publicações recentes de todos os utilizadores e fornece aos solicitantes candidatos de conteúdo provenientes das contas que seguem. A documentação sublinha que o Thunder consegue fazer consultas ao nível de sub-milissegundos para candidatos de conteúdo dentro da plataforma, sem precisar de consultar bases de dados externas.

A segunda é conteúdo fora da plataforma, gerido pelo Phoenix Retrieval. O Phoenix encontra, a partir da base global de conteúdos, publicações que os utilizadores poderão achar interessantes, mas que não são provenientes de contas seguidas. Na sua fase de recuperação, utiliza um modelo de dois torres (Two-Tower Model): o User Tower codifica as características do utilizador e o histórico de interações em vetores, enquanto o Candidate Tower codifica as publicações candidatas em vetores; depois, através do produto interno com base na similaridade, encontra-se o conteúdo mais relevante.

Esses conteúdos candidatos entram no Home Mixer, que é a camada de coordenação do feed For You. O Home Mixer é responsável por consultar o contexto do utilizador, obter os conteúdos candidatos, completar informações sobre publicações e autores, filtrar conteúdos inadequados, chamar modelos de ordenação, aplicar ajustes de pontuação e, por fim, escolher as publicações a mostrar na página For You do utilizador. A documentação também indica que o Home Mixer disponibiliza externamente o endpoint gRPC ScoredPostsService, para devolver publicações ordenadas para um utilizador específico.

A arquitetura Grok torna-se o núcleo do sistema de recomendações

O ponto que mais tem chamado a atenção desta vez é o facto de o sistema de recomendações da X introduzir claramente a Grok.

O README do GitHub indica que o conteúdo do feed For You é ordenado pelo Phoenix, que é um modelo transformer baseado em Grok. Este modelo prevê a probabilidade de cada publicação gerar interações e, por fim, combina essas previsões com ponderações para obter a pontuação final. O documento também nota que a implementação de transformer neste repositório foi porting do Grok-1 open-source da xAI e ajustada ao contexto de utilização do sistema de recomendações, por exemplo adicionando embeddings de input personalizados e uma attention mask para isolar os candidatos.

Mas isto não equivale a dizer que a X publicou todo o modelo de ambiente de produção. O README do Phoenix escreve de forma explícita que o que foi disponibilizado é uma versão mini; na produção usa-se um modelo maior, com mais camadas e embeddings mais largos. Além disso, o checkpoint publicado é um snapshot congelado num ponto temporal retirado de um processo de treino contínuo, enquanto o Phoenix em produção continua a ser treinado continuamente com dados em tempo real.

Atualização de 15 de maio: inferência ponta a ponta executável, modelo mini Phoenix, sistema de mistura de anúncios

De acordo com as notas de atualização do GitHub, a versão de 15 de maio adicionou vários componentes-chave.

Em primeiro lugar, surge um fluxo de inferência ponta a ponta. O novo phoenix/run_pipeline.py substitui os anteriormente separados run_ranker.py e run_retrieval.py: permite encadear “recuperação → ordenação” com uma única entrada e executar com checkpoints exportados, simulando como os dois estágios são combinados no ambiente de produção.

Em segundo lugar, surgem os artefactos do modelo pré-treinado. O mini Phoenix model agora divulgado é disponibilizado via Git LFS; a documentação afirma que contém 256 dimensões de embeddings, 4 heads de attention e 2 camadas de transformer, com cerca de 3GB. Isto permite aos programadores fazer out-of-the-box inference sem precisarem de treinar o modelo por conta própria. O Phoenix README indica ainda que o demo corpus público é um conjunto de dados de publicações temáticas de desporto, com cerca de 537 mil entradas, proveniente de uma janela de 6 horas, para demonstrar a fase de retrieval.

Além disso, o repositório também adicionou o Grox content-understanding pipeline, para tarefas de compreensão de conteúdo como deteção de spam, classificação de categoria de posts e enforcement da política PTOS; em paralelo, foi adicionado o sistema de mistura de anúncios do Home Mixer, que cuida da inserção de anúncios e da sua colocação no feed, e integra também o acompanhamento de segurança de marca.

O modelo de ordenação prevê 15 tipos de interações de uma só vez, e não apenas uma pontuação abstrata de “relevância”

O modelo de ordenação do Phoenix não gera apenas um único valor abstrato de “relevância”. Em vez disso, prevê em conjunto a probabilidade de várias ações de interação.

De acordo com o documento, o modelo prevê probabilidades de ocorrência de 15 comportamentos, incluindo favorite, reply, repost, quote, click, profile click, video view, photo expand, share, dwell, follow author e também not interested, block author, mute author, report.

Em seguida, o Weighted Scorer combina essas probabilidades de interação com ponderações para formar a pontuação final: comportamentos positivos como gostar (favorite) e partilhar (repost/quote) recebem pesos positivos, enquanto comportamentos negativos como bloquear, silenciar e denunciar recebem pesos negativos, empurrando para baixo o conteúdo que o utilizador possa não apreciar.

Depois de calcular a pontuação do modelo, o sistema aplica ainda outros ajustes. Por exemplo, o Author Diversity Scorer reduz a pontuação de autores repetidos para manter a diversidade do feed; o OON Scorer ajusta o out-of-network content, ou seja, o conteúdo que não provém de contas seguidas.

Isto significa que o “For You” da X não é simplesmente empurrar para cima as publicações com maior probabilidade de serem gostadas. Em vez disso, as várias ações de interação são previstas separadamente e depois combinadas para a ordenação final através do desenho das ponderações. Também implica que o verdadeiro juízo de valor do algoritmo não está apenas no modelo em si, mas também nas ponderações e nas regras de pós-processamento.

Isolamento de candidatos: a pontuação das publicações não deve ser influenciada por outras publicações do mesmo lote

Um ponto particularmente digno de nota na documentação é o “Candidate Isolation” (isolamento de candidatos).

O Phoenix README indica que, na fase de ranking, os candidatos de publicações não podem atender-se mutuamente (não podem attend entre si); só podem atender ao utilizador e ao seu histórico. O objetivo desta arquitetura é garantir que a pontuação de uma publicação individual não mude em função de quais outras publicações forem incluídas no batch. Em outras palavras: a pontuação de uma publicação deve depender da relação entre ela e o utilizador, e não de quais publicações concorrentes, por coincidência, aparecem no mesmo lote.

Isto pode ter implicações para criadores. No passado, muitas práticas em comunidades sugeriam que o horário de publicação devia evitar eventos populares ou publicações com alta interação, para não ser “sobrepujado” por conteúdos fortes dentro do pool de recomendação. Mas se o Candidate Isolation for implementado como descrito, então pelo menos ao nível da inferência do modelo, a pontuação de uma publicação individual não deve mudar diretamente só porque outras publicações fortes aparecem no mesmo batch.

No entanto, isto não significa que o horário de publicação deixe de ser importante. Porque fatores na fase anterior de recall de candidatos, frescura das publicações, horários em que o utilizador está online, filtros de conteúdo já visto, atenção competitiva em eventos populares, entre outros, ainda podem influenciar a exposição final.

Narrativa “sem características artificiais” ainda gera controvérsia: além da ordenação do modelo, existem ainda regras manuais

A xAI afirma no documento que o sistema eliminou todas as características artificiais desenhadas por humanos e a maior parte das regras heurísticas, baseando-se principalmente num Grok-based transformer para aprender relevância a partir de sequências de interações do utilizador. O documento também lista cinco elementos de design centrais, incluindo ausência de características desenhadas por humanos, isolamento de candidatos na fase de ranking, embeddings por hashing, previsão de múltiplos comportamentos e uma arquitetura de pipeline composta.

Mas esta afirmação precisa de uma interpretação mais precisa. Também é possível ver, no mesmo documento, que antes de o feed For You entrar na ordenação, passa por um grande conjunto de pre-scoring filters, por exemplo: remover publicações duplicadas, publicações demasiado antigas, publicações do próprio utilizador, contas bloqueadas ou em silêncio, palavras-chave silenciadas, conteúdos já vistos ou que surgiram recentemente, e conteúdos de subscrições que não cumprem requisitos. Depois da ordenação, ainda existem post-selection filters como remoções, spam, conteúdos violentos e sangrentos e remoções de ramificações de conversas duplicadas, etc.

Por isso, uma formulação mais exata seria: a X afirma que o “ranking de candidatos de relevância de conteúdo” é aprendido principalmente por um Grok-based transformer, sem depender de características manuais tradicionais de conteúdo; mas o feed For You como um todo ainda tem muitas regras de produto, filtros, ponderações e mecanismos de pós-processamento. Estas regras também moldam o conteúdo final que o utilizador vê.

Aprendizagem prática: como usar o algoritmo da X para gerir uma conta

Na prática, se os criadores quiserem “seguir o algoritmo” para gerir uma conta na X, o foco deixa de ser apenas procurar gostos ou re-posts: é preciso compreender que o sistema For You avalia em simultâneo vários sinais de interação. Os sinais positivos incluem tempo de permanência, cliques, respostas, re-posts, seguir autores, ver vídeos e expandir imagens; os sinais negativos incluem não ter interesse, silenciar, bloquear e denunciar.

Isto significa que o conteúdo não pode basear-se apenas em títulos chamativos para obter cliques. Se o utilizador entrar e sair rapidamente ao deslizar (scroll), se clicar “não tenho interesse” ou até bloquear o autor, isso pode acabar por piorar o desempenho das recomendações subsequentes.

Para quem gere contas, a estratégia mais eficaz tende a ser aumentar a “qualidade da interação”: nos primeiros segundos, captar a atenção; no corpo do conteúdo, conseguir que a pessoa permaneça a ler; e no fim, desenhar pontos de vista que levem o leitor a responder ou a partilhar naturalmente, em vez de forçar interações. Além disso, como o sistema ajusta a diversidade de autores, publicar de forma densa num curto período não necessariamente amplifica a exposição de forma linear — pode até ser diluído por redução de prioridade a partir do mesmo autor. Uma abordagem mais razoável é controlar o ritmo de publicação, para que cada conteúdo tenha um tema claro, densidade informativa suficiente e posicionamentos que possam ser partilhados.

Por fim, recomendar conteúdo fora da rede significa que a conta não precisa depender apenas de fãs existentes: desde que o conteúdo faça com que novos públicos permaneçam, cliquem e adotem comportamentos como seguir, existe a oportunidade de ser empurrado para um pool maior de tráfego For You. No entanto, a condição é evitar textos de baixa qualidade tipo “fábrica”, conteúdo repetido e manipulações excessivamente controversas; porque, quando essas ações levam a silenciamento, bloqueio ou denúncia, a penalização que o algoritmo aplica costuma ser mais pesada do que o benefício de tráfego de curto prazo.

Este artigo disponibiliza publicamente o código-fonte do algoritmo de recomendação “For You” da X: tutorial prático sobre como gerir contas de Twitter usando o algoritmo. Foi o primeiro a aparecer em Canais de notícias ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

05-16 09:40

Elon Musk Afirma que o Grok V9 (1,5 biliões de parâmetros) Mostra um Salto de Desempenho Significativo Face ao V8 a 16 de Maio

05-16 02:03

A X lança uma grande atualização do algoritmo com lógica de ad-mixtura, com 187 ficheiros alterados desde janeiro

05-15 15:01

A Grok V9 de Elon Musk conclui o treino com 1,5 biliões de parâmetros, mostrando um grande salto de desempenho face à V8

A SpaceX poderá vir a ser listada a 6/12 e a ser incluída no índice Nasdaq 100.

ChainNewsAbmedia05-16 03:04

Codex instala-se na app móvel do ChatGPT, permitindo controlar remotamente tarefas de desenvolvimento num Mac

ChainNewsAbmedia05-15 12:34

Pi Network PiScan regressa, atualização de KYC AI reduz em 50% a fila manual