Секрет интеллекта раскрыт: Почему все топовые нейросети перешли на архитектуру MoE и как Nvidia ускорила их в 10 раз

Если заглянуть «под капот» самых умных современных нейросетей, от DeepSeek-R1 до Mistral Large 3, вы обнаружите одну и ту же архитектуру — Mixture-of-Experts (MoE) или «Смесь экспертов». Nvidia выпустила подробный разбор того, почему эта технология стала стандартом индустрии и как новые чипы Blackwell NVL72 совершают революцию в её скорости.

Как работает MoE?

Традиционные «плотные» (dense) модели при каждом запросе активируют все свои миллиарды параметров. Это как если бы вы использовали весь свой мозг, чтобы просто моргнуть — неэффективно и энергозатратно.

Модели MoE работают иначе, подражая человеческому мозгу:

  • Они состоят из множества специализированных нейросетей-«экспертов».
  • Специальный «маршрутизатор» (router) выбирает, какие именно эксперты нужны для решения конкретной задачи (например, один для математики, другой для перевода).
  • Итог: Модель может быть огромной, но для генерации каждого слова используется лишь малая часть её ресурсов.

Проблема масштабирования

Главная беда MoE — сложность запуска. Эксперты разбросаны по разным видеокартам, и им нужно мгновенно обмениваться данными. На старых системах (H100) это создавало «пробки» в памяти и задержки.

Решение от Nvidia: Blackwell NVL72

Новая система GB200 NVL72 объединяет 72 видеокарты в один гигантский суперкомпьютер, где все чипы общаются друг с другом со скоростью 130 ТБ/с.

Результаты тестов впечатляют:

  • Kimi K2 Thinking (самая умная open-source модель) работает в 10 раз быстрее.
  • Энергоэффективность: Производительность на ватт выросла также в 10 раз.

Вердикт: Индустрия движется к созданию гигантских моделей, которые будут работать быстро и дешево благодаря тому, что активируют только нужные «извилины». И Nvidia Blackwell — это железо, созданное специально для этого мозга.

Оставьте комментарий