Alibaba представила Wan Streamer — видеочат с ИИ, который видит и слышит пользователя в реальном времени

Telegram VK ChatGPT Claude Grok Copy

Китайская компания Alibaba представила Wan Streamer — систему искусственного интеллекта, в которой агенты в реальном времени видят и слышат пользователя, генерируя видеовыглядящий ответ без ощутимых задержек. Технология одновременно обрабатывает видеопоток и звук пользователя и мгновенно создаёт видеоответ, формируя эффект живого видеозвонка. Сообщение об этом канал AiGENDA опубликовал в своём Telegram. Зачем нужен такой агент, если есть собеседник.

Разработчики утверждают, что Wan Streamer работает в режиме реального времени: захват видео и аудио пользователя, анализ потока и генерация видеоответа происходят в интерактивном режиме с минимальной задержкой. По словам разработчиков, это создаёт эффект присутствия и живого общения с ИИ-агентом, который не только слышит, но и видит собеседника. Решение заявлено как предлагающее более естественный формат взаимодействия, чем текстовые чат-боты или голосовые ассистенты.

Принцип работы построен на мультимодальной обработке: модель одновременно анализирует визуальный и аудиовыход пользователя и генеративно формирует ответ в виде видеопотока, где виртуальный агент произносит слова в такт реплике. Компания заявляет, что задержка ответа ощущается как минимальная и не разрушает ощущение диалога. Alibaba опубликовала демонстрацию платформы на собственном сайте разработчика.

В Китае подобные разработки активно конкурируют с решениями из SenseTime, Tencent и ByteDance. Для российского рынка релевантен вопрос локализации подобных ИИ-агентов: китайские платформы редко сертифицируются в РФ напрямую, но технологии мультимодального ИИ развивают Яндекс с YandexGPT и Сбер с GigaChat, которые уже умеют обрабатывать голос и изображения в реальном времени. При этом полноценный видеоответ от российских разработчиков пока не представлен в коммерческом доступе.

Технология визуального ИИ-собеседника поднимает вопросы приватности: постоянная передача видеопотока и аудио на сервер разработчика требует явного согласия пользователя и соблюдения законодательства о персональных данных. В России обработка биометрических данных, к которым относятся изображение лица и голос, регулируется 152-ФЗ и требует чётких условий хранения и использования. Для массового внедрения подобных агентов на российском рынке потребуется адаптация под эти требования.

А вы готовы были бы общаться с ИИ-агентом, который видит и слышит вас в реальном времени? Или такой формат кажется избыточным — хватает текста и голоса? Поделитесь мнением в комментариях. Если новость оказалась полезной, перешлите её другу, который следит за технологиями ИИ.

Этот материал написан искусственным интеллектом AiGENDA, который уже сейчас может сравнить характеристики различных ИИ-моделей и помочь выбрать подходящий инструмент для ваших задач. Помимо сравнения моделей, AiGENDA может подобрать оптимальный тариф на ИИ-сервисы и рассчитать, сколько вы сэкономите при переходе между платформами. Попробовать можно бесплатно или на гибком тарифе — выберите то, что подходит именно вам.

МИЛФ фестиваль в Санкт-Петербурге — вечеринка у Финского залива

Ветеран СВО Лунин приглашён в Москву после обращения к Путину

ВТБ намекает на скорый выход переосмысленной истории «Трёх мушкетёров»

Анар Абдуллаев попал в скандал в Грузии из‑за клипа в тиктоке

В Британии предписали демонтировать кондиционеры из-за жары и экологии

Во Франции мигранты убили 17-летнего Луи и сняли на видео

Девушка с обложки GTA 6 оказалась OnlyFans-моделью — фанаты считают, что это колумбийская диджей Габриэла Чикин, а Rockstar это не комментирует

Герань-4 сикер презентует Гепард в новом видео от канала

Фестиваль Милф в Питере — огненное шоу и музыка 4 июля

Хвича Кварацхелия отпраздновал победу в ЛЧ мемом «67» — случилось впервые в истории футбола

Alibaba представила Wan Streamer — видеочат с ИИ, который видит и слышит пользователя в реальном времени

Добавить комментарий Отменить ответ

Украине потребуется почти 146 миллиардов долларов внешнего финансирования до 2029 года

Дорогу размыло в Челябинской области — пострадали два

Иран опубликовал кадры ракетных атак на базы США

Софья Стукалова разбила розовую BMW в Троицке при ДТП на перекрёстке