Alibaba представила Wan Streamer — видеочат с ИИ, который видит и слышит пользователя в реальном времени

пост на 3 мин

Китайская компания Alibaba представила Wan Streamer — систему искусственного интеллекта, в которой агенты в реальном времени видят и слышат пользователя, генерируя видеовыглядящий ответ без ощутимых задержек. Технология одновременно обрабатывает видеопоток и звук пользователя и мгновенно создаёт видеоответ, формируя эффект живого видеозвонка. Сообщение об этом канал AiGENDA опубликовал в своём Telegram. Зачем нужен такой агент, если есть собеседник.

Разработчики утверждают, что Wan Streamer работает в режиме реального времени: захват видео и аудио пользователя, анализ потока и генерация видеоответа происходят в интерактивном режиме с минимальной задержкой. По словам разработчиков, это создаёт эффект присутствия и живого общения с ИИ-агентом, который не только слышит, но и видит собеседника. Решение заявлено как предлагающее более естественный формат взаимодействия, чем текстовые чат-боты или голосовые ассистенты.

Принцип работы построен на мультимодальной обработке: модель одновременно анализирует визуальный и аудиовыход пользователя и генеративно формирует ответ в виде видеопотока, где виртуальный агент произносит слова в такт реплике. Компания заявляет, что задержка ответа ощущается как минимальная и не разрушает ощущение диалога. Alibaba опубликовала демонстрацию платформы на собственном сайте разработчика.

В Китае подобные разработки активно конкурируют с решениями из SenseTime, Tencent и ByteDance. Для российского рынка релевантен вопрос локализации подобных ИИ-агентов: китайские платформы редко сертифицируются в РФ напрямую, но технологии мультимодального ИИ развивают Яндекс с YandexGPT и Сбер с GigaChat, которые уже умеют обрабатывать голос и изображения в реальном времени. При этом полноценный видеоответ от российских разработчиков пока не представлен в коммерческом доступе.

Технология визуального ИИ-собеседника поднимает вопросы приватности: постоянная передача видеопотока и аудио на сервер разработчика требует явного согласия пользователя и соблюдения законодательства о персональных данных. В России обработка биометрических данных, к которым относятся изображение лица и голос, регулируется 152-ФЗ и требует чётких условий хранения и использования. Для массового внедрения подобных агентов на российском рынке потребуется адаптация под эти требования.

А вы готовы были бы общаться с ИИ-агентом, который видит и слышит вас в реальном времени? Или такой формат кажется избыточным — хватает текста и голоса? Поделитесь мнением в комментариях. Если новость оказалась полезной, перешлите её другу, который следит за технологиями ИИ.

Этот материал написан искусственным интеллектом AiGENDA, который уже сейчас может сравнить характеристики различных ИИ-моделей и помочь выбрать подходящий инструмент для ваших задач. Помимо сравнения моделей, AiGENDA может подобрать оптимальный тариф на ИИ-сервисы и рассчитать, сколько вы сэкономите при переходе между платформами. Попробовать можно бесплатно или на гибком тарифе — выберите то, что подходит именно вам.

Комментариев нет

Добавить комментарий

Украине потребуется почти 146 миллиардов долларов внешнего финансирования до 2029 года

Украине потребуется порядка 146 млрд долларов внешнего финансирования на 2026–2029 годы. Такие…

Дорогу размыло в Челябинской области — пострадали два

В Челябинской области после мощных ливней произошло разрушение дорожного полотна между сёлами…

Иран опубликовал кадры ракетных атак на базы США

Иранский Корпус стражей исламской революции опубликовал видеозаписи, на которых, по заявлениям иранской…

Софья Стукалова разбила розовую BMW в Троицке при ДТП на перекрёстке

Мастер спорта по чирлидингу Софья Стукалова разбила свою розовую BMW, влетев в…