Investigação de Mind Lab LoRA: um aumento de 0,12% nos parâmetros melhora a memória da IA 1,31 vezes

Mind Lab AI研究

A Máquina de Coração (Ji Qi Zhi Xin) noticiou a 2 de junho que a Mindverse, subsidiária da Mindverse Technology, tem vindo a publicar recentemente resultados de investigação sobre LoRA e microafinamento eficiente via PEFT de forma consecutiva. O principal indicador do δ-mem é: com incrementos de parâmetros tão baixos como 0,12%, foram obtidas melhorias de desempenho de 1,31x e 1,20x nos testes intensivos de Memory Agent Bench e LoCoMo.

δ-mem: mecanismos técnicos confirmados e números dos testes de referência

O δ-mem é uma arquitetura de atenção linear mista paralela concebida para as características do LoRA. O KV cache tradicional de um Transformer fica congelado na inferência e, por si só, não tem capacidade de atualização; o δ-mem introduz o “Online State of Associative Memory” (estado online de memória associativa), mantendo uma matriz 8×8 que, durante a entrada de tokens, é atualizada continuamente por regras incrementais (delta-rule learning). Na geração, são aplicadas correções de baixa patente (low-rank corrections) às Attention Query e ao Output da rede-mãe.

De acordo com os dados oficiais da Mind Lab:

Incremento de parâmetros: tão baixo como 0,12%

Melhoria no Memory Agent Bench: 1,31x

Melhoria no LoCoMo: 1,20x

Mesmo removendo contexto histórico explícito: ainda consegue recuperar grande quantidade de informação relevante

MinT: indicadores de desempenho confirmados para infraestruturas base de treino LoRA em escala de milhões

O MinT é um sistema de infraestrutura gerida concebido especificamente para treino LoRA e serviços online. Núcleo da conceção: o modelo base permanece alojado de forma permanente nos serviços de treino e inferência; após cada treino, é exportado um leve LoRA Adapter (com configuração Rank-1 pode ser tão baixo como cerca de 0,1% do modelo base) e, ao colocar novas estratégias online, não é necessário fazer merge do modelo completo nem voltar a carregá-lo.

De acordo com os dados oficiais da Mind Lab:

Tempo de passagem de treino para disponibilidade no serviço de inferência: reduzido até 18,3x

Aumento da velocidade de carregamento imediato do motor (via empacotamento de tensores de MoE LoRA): 8,5x a 8,7x

No mecanismo de rollout em dois estágios: o p95 de carregamento visível para o utilizador desce para 0

Redução do TTFT p95 no primeiro pedido: 2,3x

O artigo “On the Scaling of PEFT”, sobre a lei de expansão do LoRA, propõe três eixos principais de escalabilidade: Scale up (corrige o problema em que o mecanismo de reprodução de routing falha numa MoE esparsa de 1T), Scale down (inicialização OLoRA-tail, usando vetores singulares secundários para melhorar a estabilidade do Rank-1, sem aumentar parâmetros) e Scale out (LoRA as Memory: com votação de vários modelos, a taxa de acerto cresce segundo uma regra de aumento proporcional ao logaritmo da quantidade de modelos k).

Macaron-A2UI: resultados de testes de referência confirmados

O Macaron-A2UI é baseado na plataforma MinT e, sobre bases de modelos de linguagem grandes de 30B, 235B e 754B, utiliza sequencialmente treino de reforço com aprendizagem por SFT baseada em LoRA e GRPO. O modelo consegue, para além da geração de texto, produzir ações executáveis A2UI estruturadas (caixas de seleção múltipla, sliders, cartões de confirmação, etc.).

De acordo com os dados oficiais da Mind Lab: o Macaron-A2UI-Venti obteve 75,6 pontos no A2UI-Bench e, usando apenas prompts de esquema leves, ultrapassou a melhor linha de base de modelos de ponta que utilizam o esquema longo completo de entrada (comprimento ~27x).

Questões frequentes

Como é que o δ-mem, com um incremento de 0,12% de parâmetros, consegue obter uma melhoria de desempenho em memória com um custo tão baixo?

O δ-mem introduz uma matriz de estado de memória associativa online de 8×8 (em vez do KV cache estático tradicional), que é atualizada de forma contínua com regras incrementais e, durante a geração, aplica correções de baixa patente ao Transformer da rede-mãe. Este desenho permite que o modelo recupere informação relevante sem depender de contexto histórico explícito, alcançando uma melhoria de memória de 1,31x com apenas 0,12% de incremento de parâmetros.

Como é que o MinT gere LoRA em escala de milhões sem voltar a carregar o modelo completo?

O MinT mantém o modelo base alojado permanentemente nos serviços de treino e inferência; em cada atualização, apenas são movidos e carregados os leves LoRA Adapters, cujo tamanho normalmente é inferior a 1% do modelo base. O empacotamento de tensores de MoE LoRA resolve muitos dos gargalos de leitura e escrita de inúmeros pequenos objetos; o mecanismo de rollout em dois estágios garante que o LoRA só fica visível para o tráfego do utilizador depois de um pré-aquecimento concluído sob controlo de admission, fazendo com que a latência de carregamento p95 desça para 0.

Qual é a diferença fundamental entre o Macaron-A2UI e os assistentes de IA tradicionais apenas com texto?

Para além do texto gerado, o Macaron-A2UI consegue gerar, em interações em tempo real, ações executáveis A2UI estruturadas (caixas de seleção múltipla, sliders, cartões de confirmação, etc.), com o objetivo de reduzir a carga cognitiva de tarefas complexas e de continuar a aprender com base nas preferências personalizadas dos utilizadores.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário