Alibaba представила Qwen3-Next: альтернатива Gemini 2.5 Flash с более эффективными возможностями

Китайская компания Alibaba презентовала новую серию больших языковых моделей под названием Qwen3-Next, которая включает в себя три модели: Base, Instruct и Thinking. Эти модели становятся ответом на Gemini 2.5 Flash и представляют собой значительный скачок в развитии технологий искусственного интеллекта.

Модель Base разработана для исследовательских целей и позволяет легко дообучать её на сторонних данных. Instruct ориентирована на мгновенную интеграцию в приложения и оптимизирована для взаимодействия, а модель Thinking идеальна для использования в точных науках, включая логику и математику. Каждая из них обоснована архитектурой Mixture-of-Experts, что позволяет модели выбрать определённых «экспертов» для выполнения задач, эффективно используя всего 3 миллиарда параметров из возможных 80 миллиардов. Это обеспечивает более быструю работу и меньшие затраты ресурсов.

Контекстное окно моделей увеличено до 262 000 токенов, и это значение может быть расширено до миллиона токенов, что является значительным улучшением по сравнению с предыдущими версиями. Впечатляет и тот факт, что затраты на обучение новой модели составляет в 10 раз меньше, чем у предыдущей модели Qwen3-32B.

Несмотря на существенное увеличение количества параметров до 235 миллиардов, ресурсы, требуемые для запуска Qwen3-235B, как отмечает Alibaba, значительно меньше по сравнению с Gemini 2.5 Flash. Модели Qwen3-Next уже доступны на платформе Hugging Face и могут быть развернуты даже без подключения к интернету при наличии мощного оборудования.

Фото аватара

Денис Семенов

Работаю с голосовыми помощниками и AI. Тестирую интеграцию Alexa, Google Assistant и ChatGPT в бизнес-процессы.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *