Команда Qwen, входящая в состав Alibaba, представила передовую модель распознавания речи Qwen3-ASR-Flash, способную эффективно работать с 11 языками, включая русский. Новая система обучена на десятках миллионов часов аудио и характеризуется поддержкой акцентов, диалектов и работы в условиях шумного фона, а также с пением под музыку.
Модель Qwen3-ASR-Flash поддерживает гибкий ввод контекста, который позволяет пользователям загружать ключевые слова или текст для повышения точности транскрипции в рамках определённых тем. Это особенно ценно при работе с узкоспециализированной терминологией или нестандартными выражениями. В эталонных тестах модель демонстрирует превосходные результаты по распознаванию китайского, английского и других языков.
Дополнительно Qwen3-ASR-Flash автоматически определяет язык, устраняет шум и фильтрует неречевые звуки, что делает её устойчивой к сложным условиям записи. Система поддерживает языки, включая русский, китайский с диалектами, английский, французский, немецкий, испанский, итальянский, португальский, японский, корейский и арабский.
Пользователи могут протестировать возможности Qwen3-ASR-Flash через демо на платформе Hugging Face, а интеграция в сервисы доступна через API в Alibaba Cloud Model Studio. Предусмотрена бесплатная квота — до 10 часов аудио на 180 дней — и доступна поддержка контекста до 10 000 токенов.