1 июня 2026 года компания NVIDIA объявила на конференции GTC Taipei о начале полномасштабного массового производства платформы Vera Rubin. В этот же день облачный провайдер искусственного интеллекта CoreWeave первым в отрасли завершил облачное развертывание и валидацию Vera Rubin NVL72. Акции компании закрылись на отметке $124,82 — рост составил 13,96 %, а объем торгов был примерно на 90 % выше среднего за последние три месяца. Одновременное появление этих двух новостей не случайно: это очередной шаг в развитии поставок вычислительных ресурсов для ИИ, переход от лабораторных экспериментов к производственным средам.
Рассматривать Vera Rubin NVL72 исключительно как обновление чипа — значит серьезно недооценивать ее значение для индустрии. Главный вопрос, который решает этот новый этап: когда параметры моделей превышают триллион, нагрузка на инференс опережает обучение, а Agentic AI требует отклика на уровне миллисекунд, как организовать, развернуть, использовать и оценивать вычислительную мощность? Blackwell ввел концепцию вычислений на уровне стойки; Vera Rubin доводит ее до предела — шесть одновременно обновляемых чипов, компактная стойка с 100% жидкостным охлаждением и снижение затрат на инференс на порядок — переопределяя границы эффективности инфраструктуры ИИ.
От эволюции чипов к интеграции систем: как Vera Rubin меняет конкурентные параметры
Традиционная схема обновления поколений GPU строится по цепочке: улучшение техпроцесса → больше транзисторов → выше вычислительная мощность → ниже энергопотребление. Vera Rubin NVL72 нарушает этот шаблон. Теперь в центре внимания не отдельный GPU, а целая стойка, которая становится минимальной единицей поставки суперкомпьютеров для ИИ.
Каждая стойка Vera Rubin NVL72 объединяет 72 Rubin GPU и 36 Vera CPU, обеспечивая масштабируемую пропускную способность 260 ТБ/с на уровне стойки через шестое поколение NVLink. NVIDIA утверждает, что эта пропускная способность превышает общий мировой интернет-трафик. Система использует полностью жидкостное охлаждение, сокращая время установки с двух часов (в традиционных архитектурах) до пяти минут. Главное изменение: ключевой показатель конкурентоспособности вычислений смещается от «TFLOPS одной карты» к «эффективности системы на уровне стойки».
Blackwell NVL72 уже продемонстрировал потенциал вычислений на уровне стойки — 1,44 EFLOPS инференса, 130 ТБ/с встроенной пропускной способности, частичное жидкостное охлаждение. Vera Rubin NVL72 продвигает эту концепцию дальше: мощность инференса увеличивается до 3,6 EFLOPS (в 2,5 раза), мощность обучения — с 10 PFLOPS до 35 PFLOPS (в 3,5 раза), память GPU обновляется с HBM3e до HBM4, объем удваивается с 141 ГБ до 288 ГБ, а пропускная способность возрастает примерно с 8 ТБ/с до 22 ТБ/с. Эти показатели — не просто «удвоение производительности», а системная перестройка эффективности. Особенно заметно, что рост мощности инференса (в 5 раз) значительно опережает рост мощности обучения (в 3,5 раза). Такое различие в дизайне отражает четкую позицию отрасли: инференс становится основной сферой потребления вычислительных ресурсов ИИ.
Синергия шести чипов и полное жидкостное охлаждение: логика цепочки поставок и затрат
Инновации Vera Rubin NVL72 на уровне чипов — это не просто обновление одного GPU, а одновременная разработка шести новых чипов: Vera CPU, Rubin GPU, коммутатор NVLink 6, сетевой адаптер ConnectX-9 SuperNIC, DPU BlueField-4 и коммутатор Spectrum-6 Ethernet. Все эти чипы проектировались и тестировались одновременно, а не объединялись после независимой разработки. Такой подход «полного стека и одновременной итерации» позволяет устранить давние разрывы в производительности между вычислениями, хранением и сетями на техническом уровне, а также создать более высокие барьеры для входа на рынок по сравнению с эпохой Blackwell — потенциальным конкурентам нужно не только освоить дизайн GPU, но и развиваться в CPU, межсоединениях, сетевых адаптерах, DPU и коммутаторах.
100% жидкостное охлаждение — еще один важный технический выбор. Одна стойка Vera Rubin NVL72 потребляет примерно 440 кВт, работает с PUE около 1,1 и допускает входящую воду температурой до 45°C. Для сравнения, Blackwell NVL72 использует частичное жидкостное охлаждение с PUE примерно 1,25. На уровне одной стойки разница кажется небольшой, но при масштабировании до тысяч стоек снижение PUE с 1,25 до 1,1 дает значительную экономию на электричестве и инфраструктуре охлаждения. Именно поэтому CoreWeave разработал Valvey (программируемый модуль жидкостного охлаждения на уровне стойки) и Racky (универсальное устройство управления стойкой) специально для Vera Rubin — жидкостное охлаждение превращается из «опционального решения» в «необходимую инфраструктуру».
Важное ограничение цепочки поставок: полное жидкостное охлаждение и синергия шести чипов Vera Rubin создают несколько узких мест в производстве. Память HBM4 сейчас поставляется в основном Samsung Electronics и SK Hynix. Скорость наращивания производства компонентов охлаждения и синхронная поставка системных компонентов могут ограничивать темпы проникновения Vera Rubin на рынок.
Снижение затрат на инференс до одной десятой: новая экономика приложений ИИ
Среди всех технических характеристик Vera Rubin NVL72 наиболее значимы экономически: по сравнению с Blackwell, стоимость инференса на миллион токенов снижается примерно до одной десятой, производительность инференса на ватт увеличивается до 10 раз, а количество GPU, необходимых для аналогичной нагрузки, может уменьшиться на три четверти.
Эти результаты обеспечены тремя технологическими достижениями: техпроцесс 3 нм увеличивает плотность транзисторов (33,6 млрд транзисторов, примерно на 60 % больше, чем у Blackwell), HBM4 удваивает пропускную способность памяти, а шестое поколение NVLink дополнительно снижает узкие места в коммуникации между GPU. Еще важнее, что снижение затрат на инференс делает ранее невыгодные сценарии применения экономически оправданными.
Пример — работа автономных агентов в реальном времени: когда ИИ становится постоянно функционирующей, самостоятельно принимающей решения службой, а не однократным инференсом по запросу пользователя, стоимость миллиона токенов напрямую определяет жизнеспособность бизнес-модели. Та же логика применима к инференсу с миллионным контекстом — анализ целых книг, длинных стенограмм встреч или понимание больших кодовых баз, где один запрос потребляет огромное количество токенов. Снижение затрат в десять раз переводит такие продукты из «демо-версии» в «масштабируемую версию».
По данным TrendForce, в 2026 году пять крупнейших CSP Северной Америки увеличат вычислительные мощности для инференса на 122 %, а для обучения — только на 56 %. Инференс растет более чем в два раза быстрее обучения. Эта структурная перемена делает оптимизацию Vera Rubin для инференса коммерчески актуальной, а не только технической демонстрацией.
Ранние сигналы облачного развертывания: запуск CoreWeave и эффекты для отрасли
CoreWeave объявил об успешном облачном развертывании Vera Rubin в день начала массового производства — этот момент заслуживает отдельного анализа. Он отражает несколько параллельных факторов: раннюю поставку оборудования, готовность программного стека и операций, а также глубокое стратегическое партнерство между CoreWeave и NVIDIA.
Важный вопрос достоверности: заявление CoreWeave о «первенстве» оспаривается. Microsoft еще в марте 2026 года заявила, что первой среди гипермасштабных облачных провайдеров провела валидацию Vera Rubin NVL72 в облаке (для целей тестирования). Разница между «первым развертыванием» и «первой валидацией» отражает сложность определения «первенства» в конкурентной борьбе за инфраструктуру ИИ. Критерии таких заявлений могут трактоваться по-разному участниками рынка.
С точки зрения отраслевой цепочки, развертывание Vera Rubin CoreWeave основано на серверах Dell Technologies PowerEdge XE9812 с жидкостным охлаждением, а сетевой архитектуре поддерживает как NVIDIA Quantum-X800 InfiniBand, так и Spectrum-X Ethernet. Многоплоскостная архитектура RoCE обеспечивает 1,6 Тб/с пропускной способности на GPU в бэкэнде. Это означает, что готовность экосистемы Vera Rubin выходит за рамки одного поставщика и формирует многоуровневое сотрудничество от OEM серверов до сетевого оборудования.
CoreWeave официально войдет в индекс Russell 3000 27 июня 2026 года. По состоянию на 31 марта 2026 года NVIDIA владеет примерно 11 % акций CoreWeave. Согласно FactSet, медианный прогноз выручки 31 аналитика для CoreWeave на 2026 год составляет $12,589 млрд, а долгосрочный медианный прогноз на 2029 год — $50,458 млрд. Рост выручки тесно связан с поставками вычислительных ресурсов Vera Rubin — прогресс в развертывании новой архитектуры напрямую влияет на расширение мощностей и реализацию доходов CoreWeave.
Многообразие отраслевого влияния: от снижения затрат на инференс к перестройке организации вычислений
Если рассматривать запуск Vera Rubin NVL72 в более широком отраслевом контексте, можно выделить три взаимосвязанных эволюционных направления.
Первое — развитие спроса и предложения вычислительных ресурсов. Кривая роста смещается от «обучения» к «инференсу». Для Agentic AI необходимы непрерывная работа, низкая задержка и высокая пропускная способность, что расширяет потребность в вычислениях от нескольких сверхкрупных кластеров обучения к распределенным сетям инференса. План Supermicro по созданию дата-центров Vera Rubin (от 5 МВт до 1 ГВт) отвечает этому тренду — поставка вычислений больше не должна быть монополией мегадата-центров, средние «фабрики ИИ» могут экономически внедрять топовые мощности.
Второе — перестройка конкурентной среды. Одновременная итерация шести чипов означает, что NVIDIA системно строит барьеры для входа: для потенциальных конкурентов освоение GPU — только первый этап, далее требуется координированная оптимизация CPU, межсоединений, DPU, сетевых адаптеров и коммутаторов. Сложность и глубина технологического стека растут экспоненциально, увеличивая давление на догоняющих игроков.
Третье — изменение коммерческих условий для приложений ИИ. Снижение затрат на инференс может сделать ранее невыгодные сценарии жизнеспособными, особенно те, где требуются длительные и непрерывные нагрузки. Однако этот процесс не автоматический — адаптация программного стека, совместимость архитектуры моделей с новым оборудованием и ценовая политика облачных сервисов будут определять, насколько выгоды от снижения затрат на инференс реализуются на уровне приложений.
В рамках сценарного анализа, базовый (наиболее вероятный) сценарий — линейное снижение затрат на инференс, ведущее к постепенной оптимизации структуры расходов приложений ИИ и системному улучшению в 2027–2028 годах. Агрессивный (умеренно вероятный) сценарий — рынок заранее учитывает тенденцию к снижению затрат, стандарты закупки вычислений смещаются с «пиковых показателей» к «токенам на ватт» и «стоимости миллиона токенов», стойки заменяют серверы как минимальную единицу вычислений, а облачные провайдеры, первыми внедрившие системные решения, получают явное преимущество. Рискованный (менее вероятный, но не исключенный) сценарий — проблемы массового производства или стабильности цепочки поставок: поставки HBM4, производственные мощности компонентов охлаждения и синхронная доставка шести чипов; задержки на любом этапе могут замедлить проникновение на рынок.
Заключение
Запуск Vera Rubin NVL72 меняет логику конкурентной борьбы в ИИ: от «эволюции чипов» к «интеграции систем». Синергия шести чипов, концепция «стойки как компьютера» и снижение затрат на инференс на порядок — вместе формируют новую волну вычислительной революции. Blackwell открыл окно для вычислений на уровне стойки; Vera Rubin стремится довести этот подход до максимума — не просто более быстрые GPU, а новая организация, развертывание и ценообразование вычислений для ИИ.
Для участников рынка ключевые вопросы теперь не «насколько быстрым будет следующий GPU», а «как быстро выгоды снижения затрат на инференс дойдут до приложений» и «насколько сильно изменения в организации вычислений преобразят дизайн дата-центров и конкуренцию облачных провайдеров». Отраслевая валидация Vera Rubin NVL72 дает первые ответы, но реальная эффективность после масштабного внедрения, стабильность цепочки поставок и поглощение спроса на нижних уровнях требуют дальнейшего наблюдения.
FAQ
Какие основные улучшения Vera Rubin NVL72 по сравнению с Blackwell?
Vera Rubin NVL72 обеспечивает инференс на уровне стойки мощностью 3,6 EFLOPS — в 2,5 раза больше, чем Blackwell NVL72 (1,44 EFLOPS), и снижает стоимость инференса на миллион токенов примерно до одной десятой.
Почему рост мощности обучения Vera Rubin (3,5 раза) ниже, чем рост мощности инференса (5 раз)?
Это отражает стратегическое видение NVIDIA: нагрузка на инференс сейчас растет быстрее, чем на обучение, и новая архитектура более агрессивно оптимизирована под сценарии инференса.
Что означает для CoreWeave статус первого облачного провайдера, развернувшего Vera Rubin?
Инженерное сотрудничество CoreWeave и NVIDIA выходит далеко за рамки традиционных отношений поставщик-покупатель; первое развертывание подтверждает готовность программного стека и операций Vera Rubin.
Какое значение имеет решение о 100% жидкостном охлаждении для дата-центров?
Полное жидкостное охлаждение Vera Rubin NVL72 снижает PUE с примерно 1,25 (Blackwell) до примерно 1,1, что дает значительную экономию на электричестве и инфраструктуре охлаждения при масштабировании до тысяч стоек.
Какие риски цепочки поставок могут возникнуть при массовом производстве Vera Rubin?
Память HBM4 в основном поставляется Samsung Electronics и SK Hynix; скорость производства компонентов охлаждения и синхронная поставка шести чипов могут ограничивать проникновение на рынок.
Какие новые сценарии применения откроет десятикратное снижение затрат на инференс?
Непрерывная работа агентов в реальном времени, инференс с миллионным контекстом, масштабируемые распределенные инференс-сети — ранее невыгодные из-за высокой стоимости токенов — станут экономически оправданными.
Как повлияет включение CoreWeave в индекс Russell 3000?
Включение в индекс Russell 3000 приведет к пассивному распределению через ETF, повысит доступность и ликвидность CoreWeave среди институциональных инвесторов.
Изменила ли архитектура Vera Rubin инвестиционную логику для инфраструктуры ИИ?
Логика инвестиций смещается от «гонки производительности отдельных карт» к «конкуренции за эффективность на уровне систем», где плотность вычислений на стойку, токены на ватт и стоимость миллиона токенов становятся ключевыми метриками.




