Alibaba представила Qwen2.5-Omni: нейросеть, работающую с текстом, изображениями, аудио и видео

Исследовательская группа Qwen (подразделение Alibaba) представила новую мультимодальную модель Qwen2.5-Omni, способную обрабатывать и генерировать контент в текстовом, аудио-, видео- и графическом форматах. Модель уже интегрирована в Qwen Chat, где пользователи могут взаимодействовать с ней через текст, голосовые вызовы и видеосообщения.

Технологические особенности Qwen2.5-Omni

Ключевая инновация модели — архитектура Thinker-Talker, которая позволяет нейросети одновременно анализировать разнородные данные и генерировать ответы в режиме реального времени, адаптируясь к формату взаимодействия.

Еще одной важной особенностью стала технология TMRoPE, обеспечивающая синхронизацию временных меток аудио- и видеоконтента. Это дает возможность более точного анализа мультимодальных данных, улучшая качество расшифровки речи, обработки видеофрагментов и сопоставления визуальных элементов с аудиорядом.

По результатам тестов, Qwen2.5-Omni превзошла существующие одномодальные решения по всем ключевым показателям, включая:

Распознавание речи
Перевод
Понимание изображений и аудиофайлов

Модель демонстрирует производительность, сопоставимую с закрытыми крупными моделями, такими как Gemini 1.5 Pro.

Будущее Qwen2.5-Omni: что дальше?

Разработчики Alibaba планируют дальнейшее совершенствование модели, уделяя особое внимание:

Улучшению понимания голосовых команд
Расширению возможностей анализа аудио- и видеоматериалов
Внедрению в Qwen Chat ИИ-агентов на основе протокола MCP, которые смогут выполнять сложные мультимодальные задачи в реальном времени

Запуск Qwen2.5-Omni подчеркивает стремление Alibaba развивать передовые технологии обработки мультимедийных данных и конкурировать с крупнейшими разработчиками ИИ на мировом рынке.

Alibaba представила Qwen2.5-Omni: нейросеть, работающую с текстом, изображениями, аудио и видео

Технологические особенности Qwen2.5-Omni

Будущее Qwen2.5-Omni: что дальше?

Проверить франшизу

Спасибо
Ваша заявка отправлена
Скоро мы свяжемся с Вами

Alibaba представила Qwen2.5-Omni: нейросеть, работающую с текстом, изображениями, аудио и видео

Технологические особенности Qwen2.5-Omni

Будущее Qwen2.5-Omni: что дальше?

Проверить франшизу

СпасибоВаша заявка отправленаСкоро мы свяжемся с Вами

Спасибо
Ваша заявка отправлена
Скоро мы свяжемся с Вами