xAI представила Grok Imagine Video 1.5 — улучшенная генерация роликов с чёткой речью и текстом на товарах

пост на 2 мин
xAI выпустила Grok Imagine Video 1.5 — доработанную модель для генерации роликов с «улучшенным» звучанием речи и более чётким текстом на товарах.
Она доступна через API, а в чат-боте Grok — «лёгкая» Video 1.5 Fast
vc.ru/ai/2982633

Компания xAI, основанная Илоном Маском, представила обновлённую версию своей видеомодели Grok Imagine Video 1.5. Главные улучшения коснулись двух направлений: качество синтезированной речи стало заметно естественнее, а генерируемый текст на визуальных объектах — например, на упаковках товаров или экранах устройств — теперь читается значительно лучше. Полная версия модели доступна разработчикам через API, а внутри чат-бота Grok пользователи могут опробовать облегчённую версию под названием Video 1.5 Fast. Подробности обновления сообщил профильный канал VC.ru.

По словам специалистов в области генеративного видео, улучшение рендеринга текста — это один из самых сложных вызовов для современных видеомоделей. Большинство нейросетей до сих пор справляются с этой задачей неидеально: буквы расплываются, сливаются или искажаются при движении камеры. Улучшение синтеза речи тоже давно было на повестке — зрители чувствуют разницу между роботозвучащим и живым голосом мгновенно, и именно этот фактор часто выдаёт искусственное происхождение ролика. Если xAI действительно продвинулась в обеих областях, это серьёзный шаг вперёд для всей индустрии.

Пользователи в соцсетях уже начали тестировать новую версию и делиться первыми впечатлениями. Одни отмечают, что речь в роликах стала звучать убедительнее и меньше отдаёт синтезом, особенно в коротких фразах. Другие указывают, что при более сложных сценах с быстрым монтажом качество текста на объектах всё ещё может проседать. В целом реакция скорее позитивная, но без восторженных отзывов — аудитория пока оценивает обновление трезво и сравнивает с конкурентными решениями от других разработчиков.

Для тех, кто хочет попробовать генерацию видео с улучшенной озвучкой и чистым текстом, не ограничиваясь продуктами xAI, на сайте AiGENDA доступен широкий выбор нейросетевых инструментов для работы с видео и аудио. Можно экспериментировать с синтезом речи, генерацией визуального контента, монтажом и постобработкой — всё это прямо сейчас и без необходимости в глубоких технических знаниях. Текст подготовлен с помощью искусственного интеллекта.


Кешбэк от ВТБ

Оплатите одну или несколько покупок и получите максимальное вознаграждение!

3000 рублейдо 3000 р.

Подарок от Яндекса

Попробуйте Сплит, с этой картой можно платить частями где угодно онлайн и на кассах — и без переплат до 6 месяцев!

1000 балловдо 3000 р.
Комментариев нет

Добавить комментарий

Атака дронов на Москву — Собянин о перехвате 10 беспилотников

Мэр Москвы Сергей Собянин сообщил, что средства противовоздушной обороны отразили атаку четырёх…

Для запуска инвестиций в России нужна ставка 7–8,5% и рост ВВП 3% в год

Дмитрий Белоусов, заместитель генерального директора Центра макроэкономического анализа и краткосрочного прогнозирования, заявил…

Вьетнам вводит электронные карты прибытия — что нужно туристизм

Вьетнам с 22 июня запускает систему электронных карт прибытия для всех иностранных…

ПВО РФ сбили ракеты «Фламинго», авиабомбы и почти 4 тысячи дронов ВСУ за неделю

За прошедшую неделю российские системы противовоздушной обороны отработали по нескольким типам украинских…