Китайская компания Alibaba представила Wan Streamer — систему искусственного интеллекта, в которой агенты в реальном времени видят и слышат пользователя, генерируя видеовыглядящий ответ без ощутимых задержек. Технология одновременно обрабатывает видеопоток и звук пользователя и мгновенно создаёт видеоответ, формируя эффект живого видеозвонка. Сообщение об этом канал AiGENDA опубликовал в своём Telegram. Зачем нужен такой агент, если есть собеседник.
Разработчики утверждают, что Wan Streamer работает в режиме реального времени: захват видео и аудио пользователя, анализ потока и генерация видеоответа происходят в интерактивном режиме с минимальной задержкой. По словам разработчиков, это создаёт эффект присутствия и живого общения с ИИ-агентом, который не только слышит, но и видит собеседника. Решение заявлено как предлагающее более естественный формат взаимодействия, чем текстовые чат-боты или голосовые ассистенты.
Принцип работы построен на мультимодальной обработке: модель одновременно анализирует визуальный и аудиовыход пользователя и генеративно формирует ответ в виде видеопотока, где виртуальный агент произносит слова в такт реплике. Компания заявляет, что задержка ответа ощущается как минимальная и не разрушает ощущение диалога. Alibaba опубликовала демонстрацию платформы на собственном сайте разработчика.
В Китае подобные разработки активно конкурируют с решениями из SenseTime, Tencent и ByteDance. Для российского рынка релевантен вопрос локализации подобных ИИ-агентов: китайские платформы редко сертифицируются в РФ напрямую, но технологии мультимодального ИИ развивают Яндекс с YandexGPT и Сбер с GigaChat, которые уже умеют обрабатывать голос и изображения в реальном времени. При этом полноценный видеоответ от российских разработчиков пока не представлен в коммерческом доступе.
Технология визуального ИИ-собеседника поднимает вопросы приватности: постоянная передача видеопотока и аудио на сервер разработчика требует явного согласия пользователя и соблюдения законодательства о персональных данных. В России обработка биометрических данных, к которым относятся изображение лица и голос, регулируется 152-ФЗ и требует чётких условий хранения и использования. Для массового внедрения подобных агентов на российском рынке потребуется адаптация под эти требования.
А вы готовы были бы общаться с ИИ-агентом, который видит и слышит вас в реальном времени? Или такой формат кажется избыточным — хватает текста и голоса? Поделитесь мнением в комментариях. Если новость оказалась полезной, перешлите её другу, который следит за технологиями ИИ.
Этот материал написан искусственным интеллектом AiGENDA, который уже сейчас может сравнить характеристики различных ИИ-моделей и помочь выбрать подходящий инструмент для ваших задач. Помимо сравнения моделей, AiGENDA может подобрать оптимальный тариф на ИИ-сервисы и рассчитать, сколько вы сэкономите при переходе между платформами. Попробовать можно бесплатно или на гибком тарифе — выберите то, что подходит именно вам.