Anthropic выдвинула серьёзные обвинения в адрес китайской корпорации Alibaba, заявив о массовом использовании данных из языковой модели Claude для обучения собственной разработки под названием Qwen. По информации американской компании, для несанкционированного сбора данных были созданы десятки тысяч фальшивых учётных записей. Подробности этой истории можно найти в Telegram-канале VC, который сообщил о ситуации.
Речь идёт о так называемой дистилляции — это технический метод, при котором большая и мощная языковая модель используется как источник данных для обучения другой, более компактной и быстрой модели. По сути, разработчики заставляют готовую модель генерировать ответы на тысячи запросов, а затем используют эти тексты как учебный материал для собственной нейросети. Это позволяет сэкономить колоссальные ресурсы на начальном этапе разработки, потому что не нужно собирать обучающую выборку с нуля. Однако создание тысяч фальшивых аккаунтов для обхода лимитов и правил использования — это уже не просто техническая хитрость, а прямое нарушение условий лицензии и потенциально уголовно наказуемое деяние в ряде юрисдикций.
По словам специалистов в области искусственного интеллекта, подобные инциденты подчёркивают растущую напряжённость между западными и китайскими компаниями на рынке больших языковых моделей. Ситуация с Qwen и Claude показывает, что ценность качественных языковых моделей сегодня сопоставима с ценностью нефтяных местородений в прошлом веке. Китайские технологические гиганты вкладывают миллиарды долларов в развитие собственных ИИ-разработок, и доступ к передовым западным моделям даёт существенное ускорение этого процесса. При этом представители Alibaba пока не представили публичных опровержений или комментариев по поводу выдвинутых обвинений, что в индустрии обычно означает либо продолжающиеся внутренние разбирательства, либо подготовку юридического ответа.
Многие пользователи в интернете отмечают, что если обвинения подтвердятся, это станет прецедентом, который изменит правила игры на рынке искусственного интеллекта. Одни считают, что крупные компании и так негласно обмениваются данными, просто не афишируя это, другие полагают, что речь идёт о целенаправленной краже интеллектуальной собственности. Есть и те, кто видит в этом попытку конкурентов из США замедлить развитие китайских ИИ-проектов через скандал и последующие судебные разбирательства.
Практический урок из этой ситуации извлечь несложно: любой разработчик, который планирует использовать сторонние языковые модели для дистилляции, должен тщательно изучать условия использования API и лицензионные соглашения. Нарушение этих правил может привести не только к блокировке доступа, но и к масштабным судебным искам с многомиллионными штрафами. Для тех, кто хочет легально и безопасно работать с технологиями искусственного интеллекта, существуют полностью открытые модели с разрешённой коммерчей лицензией, которые можно дообучать на своих данных без риска юридических последствий.
Данный материал подготовлен с помощью искусственного интеллекта. Если вас интересуют технологии машинного обучения и вы хотите самостоятельно поэкспериментировать с генерацией текстов, анализом данных или созданием собственных обучающих выборок, попробуйте возможности нейросети на сайте AiGENDA прямо сейчас. Там можно протестировать работу современных языковых моделей, разобраться в принципах дистилляции на практике и освоить полезные навыки для работы с искусственным интеллектом.