Я бы хотел отсканировать большое количество бумаг, которые у меня валяются, с наименьшими возможными хлопотами. Я хотел бы преобразовать их в изображения с помощью простого сканирования, а затем преобразовать их в текст с помощью распознавания текста. Есть ли хорошее приложение для распознавания текста с графическим интерфейсом, которое даст мне хорошие результаты одним нажатием кнопки?
GOCR отэто программа OCR (оптического распознавания символов).Он преобразует отсканированные изображения текста обратно в текстовые файлы.
КЛАРА это еще один хороший графический вариант.
OCRAD отis OCR может использоваться как автономное консольное приложение или как серверная часть для других программ.
КУКА отэто приложение KDE, но работает нормально, кроме того, вам необходимо установить настоящие программы распознавания текста, такие как GOCR и OCRAD.После установки Kooka и программ распознавания текста вы должны указать Kooka на место установки OCR, чтобы он мог конвертировать JPEG в текст.
Устройство для распознавания текста отпредставляет собой систему анализа макета документа и оптического распознавания символов.
Тессеракт отэто утилита командной строки, и она очень проста в использовании.Вы можете установить языковой пакет тессеракт-ocr-eng от здесь.
Взгляните на это страница.
Примечание:
Бежать тессеракт перейдите к терминалу и введите следующее
tesseract imagefile.tif outputfile.txt
Tesseract может читать только TIFF-файл - если у вас есть JPEG, PDF или что-то еще, вам придется его конвертировать. Кроме того, расширение имени файла должно быть .tif, а не .tiff, в противном случае tesseract выдает ошибку.
Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, есть ли у них графический интерфейс).:
Тессеракт (Прочитай меня, часто задаваемые вопросы) (Python)
Также доступны для: Тессеракт .NET, Тессеракт iOS
Механизм распознавания текста, разработанный в HP Labs в период с 1985 по 1995 год... а теперь в Google. Tesseract, вероятно, является самым точным из доступных движков распознавания текста с открытым исходным кодом.
Использование:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR можно использовать с различными интерфейсами, что позволяет очень легко переносить его на разные операционные системы и архитектуры. Он может открывать множество различных форматов изображений, и его качество улучшается с каждым днем.
ОКРопус™ (часто задаваемые вопросы) (написан на Python, NumPy и SciPy)
Система распознавания текста, ориентированная на использование крупномасштабного машинного обучения для решения проблем при анализе документов, включающая подключаемый анализ макета, подключаемое распознавание символов, статистическое моделирование на естественном языке и многоязычные возможности.
Движок OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и внедренном Бюро переписи населения США, и новых высокопроизводительных методах анализа макета.
Разработка OCRopus спонсируется Google и изначально предназначена для преобразования документов с высокой пропускной способностью и большим объемом. Мы ожидаем, что это также будет отличная система распознавания текста для многих других приложений.
Тесснет2 (Открытый исходный код, OCR, Tesseract, .NET, DOTNET, C#, VB.NET , C++/CLI)
Tesseract - это движок распознавания текста с открытым исходным кодом на языке C++. Tessnet2 - это сборка .NET, которая предоставляет очень простые методы для распознавания текста. Tessnet2 находится под лицензией Apache 2 (как и tesseract), что означает, что вы можете использовать его по своему усмотрению, включая в коммерческие продукты.
Несколько других: ABBYY CLI OCR для Linux, Asprise OCR
Для получения более полного списка, проверьте: Список программного обеспечения для оптического распознавания символов в Википедии
Смотрите также: wanghaisheng/awesome-ocr
- Кураторский список перспективных ресурсов распознавания текста на GitHub.
Gscan2PDF
РАСПОЗНАВАНИЕ текста на многостраничных PDF или отсканированных документах
Это, наверное, самый простой способ. Gscan2pdf - это графический инструмент, который позволяет не только сканировать файлы, но и импортировать файлы и выполнять их распознавание. Устанавливать gscan2pdf отсюда , из Центра программного обеспечения Ubuntu или выполнив эту команду в терминале:
sudo apt-get install gscan2pdf
- Запустите gscan2pdf
- Импортируйте pdf-файл (Ctrl+O)
- >Дополнительно: Очистка инструментов
- >Выберите Инструменты распознавания Сохранить (Ctrl+S)
Gscan2PDF может использовать настраиваемые механизмы распознавания текста, по умолчанию используется tesseract-ocr
Вы могли бы рассмотреть возможность выбора подходящего языка. В этом случае вам нужно будет установить tesseract-ocr-LANG
посылка, в которой LANG
это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас есть 108 языков в репозитории 16.04.
linux-интеллектуальное решение для распознавания текста
отказ от ответственности - Я тесно связан с разработкой этого решения с открытым исходным кодом
Lios может конвертировать печать в текст с помощью сканера или камеры.
Он также может создавать текст из отсканированных изображений из других источников, таких как Pdf, изображения или папки, содержащие изображения.
Программа полностью доступна для слабовидящих.
Поскольку у меня тесные связи - я был бы рад обратной связи.
Просто потому, что это работает очень хорошо и обязательно должно быть в списке:
gimageReader
Пример из скриншота:
Он находится в репозиториях (ответ получен 18.10, но я использую его уже целую вечность)
Лучший и самый простой способ - использовать pypdfocr
это не меняет PDF-файл. pypdfocr - это ссылка на модуль python здесь.
pypdfocr your_document.pdf
В конце у вас будет еще один your_document_ocr.pdf
так, как вы хотите, с текстом с возможностью поиска. Приложение не изменяет качество изображения. Немного увеличивает размер файла, добавляя текст наложения.
Я думаю, что команда довольно проста, что для нее не нужен никакой графический интерфейс.Возможно, установка pypdfocr немного более подробна:
sudo apt install tesseract-ocr pip install pypdfocr
Обновление от 3 ноября 2018 года:
pypdfocr
больше не поддерживается с 2016 года, и я заметил некоторые проблемы из-за отсутствия поддержки. ocrmypdf
(модуль выполняет символическую работу и может использоваться следующим образом:
ocrmypdf in.pdf out.pdf
Устанавливать:
pip install ocrmypdf
или
apt install ocrmypdf
Я только что добился успеха (до 16.04) с pdfocr.rb. Это указано на Ubuntu wiki
Вот ppa но репозиторий для 16.04 не обновляется. Приведенный выше скрипт ruby из github, однако, все еще работает с 16.04.
Вы можете скачать его с Github. Вам потребуется установить следующие пакеты:
ruby tesseract-ocr pdftk exactimage
затем создал исполняемый файл pdfocr.rb и запустил:
./pdfocf.rb -i source.pdf -o output.pdf
При желании вы можете использовать -l LANG
параметр. В этом случае вам нужно будет установить tesseract-ocr-LANG
посылка, в которой LANG
это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас есть 108 языков в репозитории 16.04.
gscan2pdf включает в себя 3 различных механизма распознавания текста. Вы можете сканировать прямо в программе или импортировать свой PDF-файл в программу. Я обнаружил, что движок Tesseract отлично работает и очень прост в использовании
Устройство для распознавания текста уже упоминался как один из многих вариантов, но я подумал, что стоит упомянуть, почему он соответствует вашим требованиям:
- У него есть графический интерфейс (в отличие от некоторых приложений, упомянутых в некоторых других ответах).
- Он прост в использовании (нажмите Добавить изображение затем нажмите Распознать документ)
Кроме того, он обладает и другими качествами, которые делают его отличным выбором:
- Это просто интерфейс, и он может использовать один из любого количества бэкендов (движков) со встроенной поддержкой CuneiForm, GOCR, Ocrad и Tesseract (https://gitlab.gnome.org/GNOME/ocrfeeder/-/blob/master/src/ocrfeeder/util/configuration.py).
- Он упакован для Ubuntu (как
ocrfeeder
) - На момент публикации он все еще находится в стадии активной разработки
- Это часть проекта Gnome
Нам действительно нужно много переделать в этой теме. Так много старых/обесценившихся/… вещей. Никаких однолинейных тестов. В основном здесь копируются вставленные результаты / списки. Никакой гарантии качества.
В 2018 году самым простым решением для распознавания текста является использование online ocr api: Google Vision OCR, Azure OCR или бесплатный OCR.space OCR API обеспечивают высокое качество результатов распознавания - конечно, только в том случае, если ваше приложение / вариант использования допускает облачное решение.