Qwen презентует новейшую модель распознавания речи с поддержкой 11 языков

Команда Qwen, входящая в состав Alibaba, представила передовую модель распознавания речи Qwen3-ASR-Flash, способную эффективно работать с 11 языками, включая русский. Новая система обучена на десятках миллионов часов аудио и характеризуется поддержкой акцентов, диалектов и работы в условиях шумного фона, а также с пением под музыку.

Модель Qwen3-ASR-Flash поддерживает гибкий ввод контекста, который позволяет пользователям загружать ключевые слова или текст для повышения точности транскрипции в рамках определённых тем. Это особенно ценно при работе с узкоспециализированной терминологией или нестандартными выражениями. В эталонных тестах модель демонстрирует превосходные результаты по распознаванию китайского, английского и других языков.

Дополнительно Qwen3-ASR-Flash автоматически определяет язык, устраняет шум и фильтрует неречевые звуки, что делает её устойчивой к сложным условиям записи. Система поддерживает языки, включая русский, китайский с диалектами, английский, французский, немецкий, испанский, итальянский, португальский, японский, корейский и арабский.

Пользователи могут протестировать возможности Qwen3-ASR-Flash через демо на платформе Hugging Face, а интеграция в сервисы доступна через API в Alibaba Cloud Model Studio. Предусмотрена бесплатная квота — до 10 часов аудио на 180 дней — и доступна поддержка контекста до 10 000 токенов.

Фото аватара

Денис Семенов

Работаю с голосовыми помощниками и AI. Тестирую интеграцию Alexa, Google Assistant и ChatGPT в бизнес-процессы.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *