Какое самое лучшее и простое решение для распознавания текста?

Я бы хотел отсканировать большое количество бумаг, которые у меня валяются, с наименьшими возможными хлопотами. Я хотел бы преобразовать их в изображения с помощью простого сканирования, а затем преобразовать их в текст с помощью распознавания текста. Есть ли хорошее приложение для распознавания текста с графическим интерфейсом, которое даст мне хорошие результаты одним нажатием кнопки?

  • GOCR отэто программа OCR (оптического распознавания символов).Он преобразует отсканированные изображения текста обратно в текстовые файлы.

  • КЛАРА это еще один хороший графический вариант.

  • OCRAD отis OCR может использоваться как автономное консольное приложение или как серверная часть для других программ.

  • КУКА отэто приложение KDE, но работает нормально, кроме того, вам необходимо установить настоящие программы распознавания текста, такие как GOCR и OCRAD.После установки Kooka и программ распознавания текста вы должны указать Kooka на место установки OCR, чтобы он мог конвертировать JPEG в текст.

  • Устройство для распознавания текста отпредставляет собой систему анализа макета документа и оптического распознавания символов.

  • Тессеракт отэто утилита командной строки, и она очень проста в использовании.Вы можете установить языковой пакет тессеракт-ocr-eng от здесь.

Взгляните на это страница.

Примечание:
Бежать тессеракт перейдите к терминалу и введите следующее

tesseract imagefile.tif outputfile.txt

Tesseract может читать только TIFF-файл - если у вас есть JPEG, PDF или что-то еще, вам придется его конвертировать. Кроме того, расширение имени файла должно быть .tif, а не .tiff, в противном случае tesseract выдает ошибку.

Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, есть ли у них графический интерфейс).:

  • Тессеракт (Прочитай меня, часто задаваемые вопросы) (Python)

    Также доступны для: Тессеракт .NET, Тессеракт iOS

    Механизм распознавания текста, разработанный в HP Labs в период с 1985 по 1995 год... а теперь в Google. Tesseract, вероятно, является самым точным из доступных движков распознавания текста с открытым исходным кодом.

    Использование:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
  • GOCR

    Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR можно использовать с различными интерфейсами, что позволяет очень легко переносить его на разные операционные системы и архитектуры. Он может открывать множество различных форматов изображений, и его качество улучшается с каждым днем.

  • ОКРопус™ (часто задаваемые вопросы) (написан на Python, NumPy и SciPy)

    Система распознавания текста, ориентированная на использование крупномасштабного машинного обучения для решения проблем при анализе документов, включающая подключаемый анализ макета, подключаемое распознавание символов, статистическое моделирование на естественном языке и многоязычные возможности.

    Движок OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и внедренном Бюро переписи населения США, и новых высокопроизводительных методах анализа макета.

    Разработка OCRopus спонсируется Google и изначально предназначена для преобразования документов с высокой пропускной способностью и большим объемом. Мы ожидаем, что это также будет отличная система распознавания текста для многих других приложений.

  • Тесснет2 (Открытый исходный код, OCR, Tesseract, .NET, DOTNET, C#, VB.NET , C++/CLI)

    Tesseract - это движок распознавания текста с открытым исходным кодом на языке C++. Tessnet2 - это сборка .NET, которая предоставляет очень простые методы для распознавания текста. Tessnet2 находится под лицензией Apache 2 (как и tesseract), что означает, что вы можете использовать его по своему усмотрению, включая в коммерческие продукты.

Несколько других: ABBYY CLI OCR для Linux, Asprise OCR

Для получения более полного списка, проверьте: Список программного обеспечения для оптического распознавания символов в Википедии

Смотрите также: wanghaisheng/awesome-ocr - Кураторский список перспективных ресурсов распознавания текста на GitHub.

Gscan2PDF

РАСПОЗНАВАНИЕ текста на многостраничных PDF или отсканированных документах

Это, наверное, самый простой способ. Gscan2pdf - это графический инструмент, который позволяет не только сканировать файлы, но и импортировать файлы и выполнять их распознавание. Устанавливать gscan2pdf отсюда Install gscan2pdf, из Центра программного обеспечения Ubuntu или выполнив эту команду в терминале:

sudo apt-get install gscan2pdf
  • Запустите gscan2pdf
  • Импортируйте pdf-файл (Ctrl+O)
  • >Дополнительно: Очистка инструментов
  • >Выберите Инструменты распознавания Сохранить (Ctrl+S)

Gscan2PDF может использовать настраиваемые механизмы распознавания текста, по умолчанию используется tesseract-ocr

Вы могли бы рассмотреть возможность выбора подходящего языка. В этом случае вам нужно будет установить tesseract-ocr-LANG посылка, в которой LANG это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас есть 108 языков в репозитории 16.04.

linux-интеллектуальное решение для распознавания текста

отказ от ответственности - Я тесно связан с разработкой этого решения с открытым исходным кодом

Lios может конвертировать печать в текст с помощью сканера или камеры.

Он также может создавать текст из отсканированных изображений из других источников, таких как Pdf, изображения или папки, содержащие изображения.

Программа полностью доступна для слабовидящих.

Поскольку у меня тесные связи - я был бы рад обратной связи.

Просто потому, что это работает очень хорошо и обязательно должно быть в списке:

gimageReader
Пример из скриншота:

enter image description here

Он находится в репозиториях (ответ получен 18.10, но я использую его уже целую вечность)

Лучший и самый простой способ - использовать pypdfocr это не меняет PDF-файл. pypdfocr - это ссылка на модуль python здесь.

pypdfocr your_document.pdf

В конце у вас будет еще один your_document_ocr.pdf так, как вы хотите, с текстом с возможностью поиска. Приложение не изменяет качество изображения. Немного увеличивает размер файла, добавляя текст наложения.

Я думаю, что команда довольно проста, что для нее не нужен никакой графический интерфейс.Возможно, установка pypdfocr немного более подробна:

sudo apt install tesseract-ocr pip install pypdfocr 

Обновление от 3 ноября 2018 года:

pypdfocr больше не поддерживается с 2016 года, и я заметил некоторые проблемы из-за отсутствия поддержки. ocrmypdf(модуль выполняет символическую работу и может использоваться следующим образом:

ocrmypdf in.pdf out.pdf

Устанавливать:

pip install ocrmypdf

или

apt install ocrmypdf

Я только что добился успеха (до 16.04) с pdfocr.rb. Это указано на Ubuntu wiki

Вот ppa но репозиторий для 16.04 не обновляется. Приведенный выше скрипт ruby из github, однако, все еще работает с 16.04.

Вы можете скачать его с Github. Вам потребуется установить следующие пакеты:

ruby tesseract-ocr pdftk exactimage

затем создал исполняемый файл pdfocr.rb и запустил:

./pdfocf.rb -i source.pdf -o output.pdf

При желании вы можете использовать -l LANG параметр. В этом случае вам нужно будет установить tesseract-ocr-LANG посылка, в которой LANG это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас есть 108 языков в репозитории 16.04.

gscan2pdf включает в себя 3 различных механизма распознавания текста. Вы можете сканировать прямо в программе или импортировать свой PDF-файл в программу. Я обнаружил, что движок Tesseract отлично работает и очень прост в использовании

Устройство для распознавания текста уже упоминался как один из многих вариантов, но я подумал, что стоит упомянуть, почему он соответствует вашим требованиям:

  • У него есть графический интерфейс (в отличие от некоторых приложений, упомянутых в некоторых других ответах).
  • Он прост в использовании (нажмите Добавить изображение затем нажмите Распознать документ)

Кроме того, он обладает и другими качествами, которые делают его отличным выбором:

  • Это просто интерфейс, и он может использовать один из любого количества бэкендов (движков) со встроенной поддержкой CuneiForm, GOCR, Ocrad и Tesseract (https://gitlab.gnome.org/GNOME/ocrfeeder/-/blob/master/src/ocrfeeder/util/configuration.py).
  • Он упакован для Ubuntu (как ocrfeeder)
  • На момент публикации он все еще находится в стадии активной разработки
  • Это часть проекта Gnome

Нам действительно нужно много переделать в этой теме. Так много старых/обесценившихся/… вещей. Никаких однолинейных тестов. В основном здесь копируются вставленные результаты / списки. Никакой гарантии качества.

В 2018 году самым простым решением для распознавания текста является использование online ocr api: Google Vision OCR, Azure OCR или бесплатный OCR.space OCR API обеспечивают высокое качество результатов распознавания - конечно, только в том случае, если ваше приложение / вариант использования допускает облачное решение.