За даними моніторингу Beating, у процесі еволюції масштабних архітектур MoE використання вітчизняних чипів Ascend для тренування великих моделей стало ключовим напрямком у створенні автономної та контрольованої AI обчислювальної потужності. Однак, більшість популярних фреймворків великих моделей базуються на екосистемі CUDA від NVIDIA, і при прямій міграції на платформу Ascend стикаються з проблемами нерівномірного розподілу черг апаратного забезпечення та низької ефективності використання обчислювальних ресурсів. Спільно з Університетом Цінхуа, Huawei та Пекінським університетом було запущено фреймворк для компіляції та планування HyperParallel-MoE, який орієнтований на унікальні черги апаратного забезпечення A3 від Ascend, здійснюючи управління на рівні плитки (tile-level), з метою подолання енергетичних вузьких місць у гетерогенних обчислювальних ресурсах при паралельному плануванні.

Ascend A3 має два типи ядер: AIC відповідає за матричне множення, а AIV — за векторні обчислення та комунікацію. Однак у традиційній послідовній схемі планування операторів ці два типи ядер працюють по черзі, чергуючись у простоях. За результатами тестування, при запуску великої моделі у стилі DeepSeek обсягом 671 млрд параметрів на кластері з 256 вузлами, рівень використання AIC становив лише 67%, а 39% маршрутизаційних затримок у маршрутах експертів були виявлені на критичних шляхах обчислень.

Основні зміни у ядрі HyperParallel-MoE включають три напрямки. По-перше, розроблено односторонню команду запису, керовану AIV, яка активує обчислення одразу після надходження даних плитки без очікування повного набору. По-друге, введено генерацію плиткових завдань з урахуванням залежностей, що об’єднує комунікаційні та обчислювальні оператори у єдину абстракцію. По-третє, використовується статичний планувальник для попереднього створення послідовності завдань, що дозволяє одночасно керувати двома типами ядер у межах одного ядра (kernel), а також використовувати швидку кеш-пам’ять L2 для спільного збереження проміжних результатів, зменшуючи затримки при записі та зчитуванні з повільної пам’яті HBM.

Тестування показало, що при балансуванні маршрутизації на 64 вузлах затримка ядра, відповідального за обчислення експертів (MoE-FFN), скоротилася приблизно на 36%, що відповідає підвищенню швидкості обробки даних до 58% (зростання з 1.49 до 1.58 разів). У режимі кінцевого запуску моделі швидкість тренування на одному кроці також підвищилася на 8% — 9%. Це свідчить про те, що реальна енергоефективність Ascend залежить не лише від технічних характеристик апаратного забезпечення, а й від здатності компілятора та середовища виконання ефективно керувати ядрами AIC/AIV.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

9 лайків

Нагородити
9
6
Репост
Поділіться

Прокоментувати

Додати коментар

TreatEarningsAsSnacks

· 1год тому

Країна-екосистема CUDA занадто глибока, заміна національними рішеннями не може бути простою, потрібна така глибинна переробка на рівні основ.