Huawei та Університет Китайської академії наук спільно подолали монополію NVIDIA, прискоривши обчислення для великих моделей на Ascend A3 на 58%

За даними моніторингу Beating, у процесі еволюції масштабних архітектур MoE використання вітчизняних чипів Ascend для тренування великих моделей стало ключовим напрямком у створенні автономної та контрольованої AI обчислювальної потужності. Однак, більшість популярних фреймворків великих моделей базуються на екосистемі CUDA від NVIDIA, і при прямій міграції на платформу Ascend стикаються з проблемами нерівномірного розподілу черг апаратного забезпечення та низької ефективності використання обчислювальних ресурсів. Спільно з Університетом Цінхуа, Huawei та Пекінським університетом було запущено фреймворк для компіляції та планування HyperParallel-MoE, який орієнтований на унікальні черги апаратного забезпечення A3 від Ascend, здійснюючи управління на рівні плитки (tile-level), з метою подолання енергетичних вузьких місць у гетерогенних обчислювальних ресурсах при паралельному плануванні.

Ascend A3 має два типи ядер: AIC відповідає за матричне множення, а AIV — за векторні обчислення та комунікацію. Однак у традиційній послідовній схемі планування операторів ці два типи ядер працюють по черзі, чергуючись у простоях. За результатами тестування, при запуску великої моделі у стилі DeepSeek обсягом 671 млрд параметрів на кластері з 256 вузлами, рівень використання AIC становив лише 67%, а 39% маршрутизаційних затримок у маршрутах експертів були виявлені на критичних шляхах обчислень.

Основні зміни у ядрі HyperParallel-MoE включають три напрямки. По-перше, розроблено односторонню команду запису, керовану AIV, яка активує обчислення одразу після надходження даних плитки без очікування повного набору. По-друге, введено генерацію плиткових завдань з урахуванням залежностей, що об’єднує комунікаційні та обчислювальні оператори у єдину абстракцію. По-третє, використовується статичний планувальник для попереднього створення послідовності завдань, що дозволяє одночасно керувати двома типами ядер у межах одного ядра (kernel), а також використовувати швидку кеш-пам’ять L2 для спільного збереження проміжних результатів, зменшуючи затримки при записі та зчитуванні з повільної пам’яті HBM.

Тестування показало, що при балансуванні маршрутизації на 64 вузлах затримка ядра, відповідального за обчислення експертів (MoE-FFN), скоротилася приблизно на 36%, що відповідає підвищенню швидкості обробки даних до 58% (зростання з 1.49 до 1.58 разів). У режимі кінцевого запуску моделі швидкість тренування на одному кроці також підвищилася на 8% — 9%. Це свідчить про те, що реальна енергоефективність Ascend залежить не лише від технічних характеристик апаратного забезпечення, а й від здатності компілятора та середовища виконання ефективно керувати ядрами AIC/AIV.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
TreatEarningsAsSnacks
· 1год тому
Країна-екосистема CUDA занадто глибока, заміна національними рішеннями не може бути простою, потрібна така глибинна переробка на рівні основ.
Переглянути оригіналвідповісти на0
CapitalFlowInATeacup
· 1год тому
Самостійне контролювання — це не гасло, а те, що витягується з кожного рядка коду
Переглянути оригіналвідповісти на0
LiquidityLifeguard
· 1год тому
Пекінський університет займається системами, Китайський університет науки і технологій — архітектурою, Huawei реалізує, ця модель співпраці між виробництвом, навчанням і наукою — саме те, що потрібно.
Переглянути оригіналвідповісти на0
BridgeSideEyes
· 1год тому
Низкий рівень використання обчислювальної потужності завжди був болючою проблемою для Ascend. Скільки цього разу можна підвищити? Є дані?
Переглянути оригіналвідповісти на0
GateUser-de0b9e3b
· 1год тому
Huawei серйозно займається компіляторами, від MindSpore до цього фреймворку, екосистема поступово доповнюється.
Переглянути оригіналвідповісти на0
GateUser-26374bb4
· 1год тому
MoE спочатку залежить від управління, щоб вітчизняні чипи змогли наздогнати, потрібно докладати зусиль у таких деталях
Переглянути оригіналвідповісти на0
  • Закріплено