3 февраля 2010 г.

Распознавание текста в .NET

Понадобилось тут по работе внедрить систему распознавания текста с изображения. Так как программа совсем небольшая, да и как такого полноценного распознавания (вроде FineReader) не требовалось, а требовалось лишь результат распознавания текста сохранить в базу, как индекс для последующего полнотекстового поиска по изображениям, то я старался найти бесплатное простое решение. И оно нашлось - Puma.NET.
Что такое Puma.NET?
Puma.NET представляет собой оболочку для библиотеки распознавания Cognitive Technologies CuneiFrom, которая позволяет легко включать функций распознавания в любом NET Framework 2.0 (или выше) приложении. API предоставляется через ряд простых классов. Высокая производительность и точность результатов распознавания может быть достигнута с помощью пары строчек кода.

Возможности распознавания:
1. Технология Omni Font - распознавание практически всех печатных шрифтов
2. Поддержка 27 языков (английский, немецкий, хорватский, польский, датский, португальский, голландский, цифры, чешский, французский, румынский, венгерский, болгарский, словенский, латышском, литовском, эстонском, турецкий, русский, шведский, испанский, итальянский, русский/английский, украинский, сербский)
3. Проверка орфографии и автоматическая корректировка
4. Обнаружение форматирования шрифта (размер, курсив, жирность, подчеркивание)
5. Фрагментация и сохранение структуры документа: параграфы, пробелы, изображения, таблицы и т.д.
6. Улучшенное распознавание искаженных и пестрых изображений, специальные режимы для документов с матричных принтеров и факсов
7. Входные форматы изображений: BMP, GIF, EXIG, JPG, PNG и TIFF
8. Выходные форматы: txt, RTF, HTML


Что приятно, разработчик наш соотечественник.

Удаленное сопровождение 1С Бухгалтерия, 1С Торговля. Регламентированная отчетность Симферополь

1 комментарий:

  1. Респект те и уважуха, месяц искал нечто подобное! С уважением EDWS.

    ОтветитьУдалить