Alibaba представила более эффективную модель искусственного интеллекта Qwen3-Next
Jinse Finance сообщает, что Tongyi Qianwen, дочерняя компания Alibaba, выпустила архитектуру следующего поколения базовой модели Qwen3-Next и открыла исходный код серии моделей Qwen3-Next-80B-A3B, основанных на этой архитектуре. По сравнению с архитектурой MoE модели Qwen3, были внесены следующие ключевые улучшения: гибридный механизм внимания, высокоразреженная структура MoE, ряд оптимизаций, способствующих стабильности обучения, а также механизм многотокенового предсказания для повышения эффективности вывода. На основе архитектуры модели Qwen3-Next Alibaba обучила модель Qwen3-Next-80B-A3B-Base, которая содержит 80 миллиардов параметров, из которых активируются только 3 миллиарда. Эта базовая модель достигает производительности, сопоставимой или даже немного лучшей, чем у плотной модели Qwen3-32B, при этом стоимость обучения (GPU hours) составляет менее одной десятой от Qwen3-32B, а пропускная способность вывода при контексте более 32k превышает Qwen3-32B более чем в десять раз, что обеспечивает исключительное соотношение эффективности обучения и вывода.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
Galaxy Digital вновь приобрела 706 790 SOL на сумму 160 миллионов долларов
Популярное
ДалееЦены на крипто
Далее








