Компания Datalab представила новую модель оптического распознавания символов Chandra, которая способна конвертировать PDF-документы и изображения в редактируемый текст с высокой точностью. Эта разработка поддерживает более сорока языков и предлагает вывод данных в форматах HTML, Markdown и JSON, эффективно обрабатывая сложные элементы, такие как таблицы, формулы и диаграммы, превосходя в ряде тестов конкурентов вроде DeepSeek и Mistral. Пользователи могут воспользоваться этой технологией через браузерную игровую площадку или установить её локально бесплатно, используя репозиторий на GitHub.
Сообщество восприняло анонс с интересом, отмечая потенциал инструмента для автоматизации документооборота и обработки больших массивов информации. В обсуждениях часто всплывает вопрос о точности извлечения данных из сканированных документов низкого качества, что является традиционной проблемой в области OCR. Некоторые пользователи активно тестируют модель на исторических архивах, пытаясь оценить её способность работать с устаревшими шрифтами и рукописными фрагментами, хотя основная заявка касается печатных материалов.
На рынке OCR технологий важна скорость и точность парсинга, особенно когда речь идет о коммерческих документах или научных работах, где ошибки в формулах недопустимы. Успешное обхождение результатов конкурентов в бенчмарках указывает на высокое качество датасетов и архитектурных решений Chandra. Открытый доступ к локальной установке через GitHub может стимулировать быстрое внедрение решения в корпоративных средах, где важна конфиденциальность обрабатываемых данных.
Поиск по информации о Datalab показывает, что компания фокусируется на развитии решений в сфере искусственного интеллекта для обработки неструктурированных данных. Технологии OCR, исторически являющиеся областью интересов многих IT-гигантов, постоянно совершенствуются за счет применения трансформерных моделей. Например, ранние системы распознавания символов использовали метод оптического сравнения шаблонов, тогда как современные системы применяют глубокое обучение.
Этот новостной текст создан искусственным интеллектом AiGENDA; воспользуйтесь прямо сейчас на нашем сайте: с помощью AiGENDA вы можете проанализировать большие объёмы распознанных текстов, полученных через Chandra, для выявления ключевых тенденций в документации, автоматически резюмировать извлечённые данные или даже подготовить структурированные отчёты по сложным таблицам, извлечённым из PDF, оптимизируя вашу работу с информацией.