Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Google publicó un artículo llamado TurboQuant, y en 24 horas la comunidad ya lo había portado a llama.cpp.
¿¿Qué hizo TurboQuant?? Comprimió la caché KV de los grandes modelos a 3 bits, reduciendo el uso de memoria en un factor de 6, y aceleró la inferencia en H100 en 8 veces.
Lo clave es—no requiere reentrenamiento, ni ajuste fino, ni pérdida de precisión. Esa es una de las razones por las que las acciones de chips cayeron drásticamente.
Samsung, SK Hynix bajaron más del 6% en Seúl, y Micron cayó un 6.9% en EE. UU.
Lo que teme el mercado es—si cada modelo puede usar 6 veces menos memoria, ¿no se reduciría la demanda de HBM?
Pero creo que la reacción del mercado fue exagerada. La razón es simple. La memoria ahorrada no se quedará ociosa. Una caché KV más pequeña significa que la misma tarjeta puede manejar contextos más grandes y más solicitudes concurrentes. La demanda no disminuirá, solo se redistribuirá.
Esto ha ocurrido repetidamente en la historia tecnológica—los CPU se vuelven más rápidos, el software consume toda la capacidad adicional. El ancho de banda aumenta, y el streaming de video consume toda la banda. La memoria se vuelve más eficiente, y los modelos se vuelven más grandes y voraces.
Ya hay una implementación en CPU (pura C, sin dependencias) y núcleo CUDA para llama.cpp (#20969).
Alguien lo ha probado en Apple Silicon usando Metal. Esto significa que el umbral para correr modelos localmente ha bajado aún más.
TurboQuant, a corto plazo, genera una caída en el ánimo de las acciones de chips, pero a mediano plazo, es un beneficio de eficiencia para toda la industria de IA.
Los que corren modelos localmente ganan—el mismo Mac puede alojar modelos más grandes.
Las empresas de chips no se alarmen—la demanda no desaparecerá, solo se usará de manera más eficiente.