Меню

Инструкция как редактировать документы и распознавать тексты с иероглифами в ABBYY FineReader 15

Инструкция: как редактировать документы и распознавать тексты с иероглифами в ABBYY FineReader 15

21 октября 2019

PDF-документы давно стали необходимой составляющей офисной работы. В этом формате хранятся цифровые архивы, юристы согласуют договоры, дизайнеры верстают брошюры, издательства публикуют электронные книги. До недавнего времени главным достоинством и одновременно с этим недостатком PDF-документов было отсутствие возможности редактировать текст в них. Благодаря развитию технологий эту и другие задачи научилась решать программа ABBYY FineReader, которая стала многофункциональным редактором любых документов. «Хайтек» вместе с ABBYY рассказывает, как технологически устроено редактирование PDF-документов в новой версии FineReader 15, каким образом программа сравнивает версии документов и как работает распознавание иероглифов с помощью нейросетей.

Диджитализация документооборота массово началась еще во второй половине ХХ века. Многие предприятия переходили на электронные документы. В офисах устанавливали первые компьютеры со специальным софтом для обработки и хранения важной информации. Тогда и появились популярные текстовые редакторы. Сотрудники набирали вручную документы, а затем, с появлением в 1993 году PDF, стали экспортировать их в этот формат.

На первый взгляд казалось: если весь документооборот станет электронным, то о шкафах с бумажными каталогами и завалах на рабочих столах можно будет забыть. На практике оказалось, что чем больше организация использует компьютеры для цифрового документооборота, тем больше документов она печатает. 64% крупных компаний уверены, что по крайней мере до 2025 года печать будет значимой частью их бизнеса. С другой стороны, если сегодня в офис по традиционной почте приходит бумажный документ, его немедленно отсканируют и переведут в цифру. Как правило, сканы документов хранят в виде PDF-файлов.

Документом в формате PDF удобнее пользоваться — его можно послать по электронной почте с уверенностью, что информация дойдет до адресата без искажений (если, конечно, кто-то не решит внести изменения собственноручно), и, в отличие от DOC, его трудно изменить. Это особенно важно, если речь идет о контрактах или коммерческих предложениях.

Офисные сотрудники отмечают рост объемов использования PDF: каждый второй респондент ответил, что регулярно работает с документами в этом формате и нуждается в специализированной программе. За последние два года количество таких рабочих файлов в мире выросло в три раза — эти данные приводят эксперты IDC в исследовании «Addressing the document disconnect». В России PDF также пользуется популярностью. Также по результатам исследования ABBYY выяснилось, что в наиболее частые сценарии работы с PDF-документами вошли совершенно не типичные для этого формата ранее задачи: 52% респондентов вносят мелкие правки в текст PDF, исправляют ошибки или опечатки; 62% опрошенных часто ищут информацию в тексте PDF и 60% копируют текст из документа. Поэтому от программ, работающих с PDF, требуются новые возможности для редактирования, сравнения и распознавания текстов. Все они есть в новом FineReader 15.

Почему так сложно редактировать текст в PDF?

Изначально PDF не предназначался для того, что его каким-либо образом изменяли. Что было и его преимуществом — это безопасность, одинаковое отображение на любом устройстве и удобный способ обмена информацией, и недостатком — невозможность внесения правок, поиска по тексту и сравнения документов.

Особенности отображения текста в PDF

Несмотря на то, что PDF — это формат текста, в цифровом виде эти буквы, слова и предложения на самом деле не существуют, они «нарисованы». Содержимое хранится в виде потоков — это могут быть текст, изображения и векторная графика. Типичных для формата DOC слов, строчек, абзацев и таблиц в PDF нет. В формате нет и букв как таковых, а есть коды символов. Такие коды с одинаковыми характеристиками объединяются в группы по виду и размеру шрифта. Этот шрифт определяет, как символ должен отображаться в документе, сопоставляя код символа и глиф — набор команд для отрисовки. Еще одно отличие от обычного текстового документа — объекты в PDF существуют в трех измерениях. По координате Z судят о глубине расположения объекта на странице, ведь текст может находиться поверх изображения или наоборот.

Текст в PDF- документе напоминает «мешочек букв», который нужно правильно отобразить в конкретных местах документа с соответствующим форматированием.

С 2008 года PDF стал открытым форматом, что позволило разработчикам без проблем и дополнительных отчислений создавать программы для чтения файлов PDF, конвертеры и другие полезные вещи. Развитие OCR привело к тому, что у ранее неизменного PDF-документа появилась возможность редактирования — сначала построчного, а затем и в пределах абзацев.

Как ABBYY FineReader помогает редактировать PDF

Чтобы редактировать PDF-документ, его необходимо сначала подготовить к этому. Главная задача этого процесса — понять и проанализировать структуру текста. А ключевая сложность — отсутствие как абзацев, так и вообще форматирования в PDF. Поэтому сразу после того, как программа распознала текст, она начинает воссоздавать абзацы.

Если речь идет о digital-born-документе (изначально созданный на компьютере, а не отсканированный бумажный документ — «Хайтек»), то в режиме редактирования подключаются фоновые процессы, и программа приступает к анализу структуры документа. Для этого используется технология, которая строит блоки на основе данных, записанных в PDF, а не на основе распознавания. За считанные доли секунды технология должна пройти всю цепочку по определению параметров текста: места, где находятся заголовки, подзаголовки, отдельные абзацы и другие элементы. Потом — распихать «мешочки букв» по этим блокам, сформировать строки.

Следующий этап — синтез. Специальные технологии определяют внешние параметры текста — отступы и межстрочные интервалы. Благодаря этому из хаотичной структуры снова появляется текстовый документ с форматированием. И уже в него можно вносить правки — менять слова и целые абзацы, исправлять форматирование, сохранять изменения и так далее.

Функция построчного редактирования уже была в предыдущей версии FineReader (ABBYY FineReader 14 вышла в январе 2017 года — «Хайтек»). Этого было достаточно, чтобы внести небольшие исправления в текст: заменить несколько букв или цифр. Новый ABBYY FineReader 15 стал универсальным текстовым редактором, в котором вносить изменения можно в целые абзацы.

Как отредактировать текст в отсканированном документе

Отдельная офисная задача — отредактировать скан-копию бумажного документа. Раньше для этого пользователю приходилось конвертировать файл в редактируемый формат или просто искать исходник.

Когда пользователь редактирует скан, ABBYY FineReader 15 в первую очередь распознает документ и создает временный текстовый слой на тех страницах, которые пользователь просматривает. В режиме редактирования создается текстовое представление страницы — именно его редактирует пользователь. Затем эти правки встраиваются в изображение страницы в отсканированном документе.

Как найти в PDF внесенные правки и избежать обмана

Сравнение документов — особо важный для бизнеса сегмент офисных задач. Прежде всего, потому что неожиданные правки могут стоить очень больших денег. Иногда их незаметно пытаются внести в уже подписанный договор и воспользоваться человеческой невнимательностью — такие документы обычно сравнивают юристы, внимательно вычитывая распечатки оригинала, созданного в Word, и ответа контрагента — отсканированный вариант.

Поиск отличий в текстовых документах может быть полезен еще и в том случае, если над ними работают одновременно несколько человек или со временем один и тот же файл периодически изменяют. Это позволяет быстро найти последние правки, которые внесли в файл коллеги. В файлах DOCX для этого есть режим Track Changes, создающий на основе двух версий документа третью — с подсвеченными отличиями в тексте. В новом ABBYY FineReader 15 можно сохранить результаты сравнения любых документов в таком DOCX c Track Changes и в привычном режиме увидеть все различия.

Сравнивать в ABBYY FineReader 15 можно практически что угодно — PDF, сканы или изображения, файлы DOC, DOCX и даже таблицы из Excel. В программу загружаются оба документа, которые при необходимости распознаются с помощью OCR. На основе извлеченного текста в документе определяются дополнительные элементы форматирования — например, колонтитулы, нумерация списков. В программе используется специальный алгоритм, который позволяет быстро выявлять отличия в версиях документов.

Разностный алгоритм принимает два файла на вход. Первый, обычно более ранний — файл А, второй — файл B. Алгоритм определяет количество вставок или удалений, необходимых для превращения одного файла в другой, находя для этого кратчайший путь.

Сравнение проходит в три этапа. Сначала текст, полученный в результате распознавания, разбивается на параграфы. Алгоритм считает, что один параграф — это один объект для сравнения. Все несовпадающие фрагменты обрабатываются во время второго прохода алгоритма — уже по строчкам. Программа определяет, какие строки внутри параграфа совпадают не полностью.

Остается последний проход, уже в рамках несовпадающих строк, который сравнивает отдельные буквы. Этот процесс чуть сложнее: дополнительно используются различные эвристики — варианты распознавания. Если буквы совпадают по вариантам распознавания и процент уверенности распознавания этого элемента превышает 50%, то считается, что они эквивалентны. Не учитываются в качестве различий разные виды кавычек, скобок и маркеры списка.

Для каждого символа существует несколько вариантов распознавания: иногда их число доходит до 20. У каждого из этих вариантов есть процент уверенности, на сколько, по оценке технологии, буква соответствует отсканированному изображению. Затем в ходе анализа документа часть вариантов исключается, так как они не соответствуют эталону или не подходят по морфологии.

На этапе сравнения в программе запускается проверка: совпадает ли эта буква с той, что в документе? Если буква получена в результате распознавания, то проверяется похожесть символов в версиях и рассматриваются варианты распознавания. Возможно, «А» в бумажном документе распозналась ошибочно, и из-за этого при сравнении могут возникнуть разночтения. Тогда в вариантах распознавания ищется другая буква, у которой тоже высокий процент вероятности. Если вероятность больше 50%, в распознанном документе происходит замена. Это помогает избежать ошибок из-за плохого качества сканов.

Но поиск отличий в тексте — лишь один из этапов сравнения документов. Необходимо представить найденные отличия в том виде, в котором пользователю будет комфортно с ними работать. Например, слово «мама» заменили на «папа». По факту изменились только две буквы. Но более наглядно для пользователя будет выглядеть полная замена одного слова на другое, а не замененные на «п» буквы «м». Поэтому программа дорабатывает различия: растягивает и объединяет их до конца слова, строки или параграфа. Программа пытается восстановить логику, по которой действовал человек, вносивший исправления. И сделать так, чтобы различие выглядело более естественно и читалось понятно.

В завершении работы с документами программа объединяет обнаруженные различия в группы. Это необходимо, например, чтобы отделить внесенные исправления в основном тексте от колонтитулов и нумерации списка. В большинстве случаев колонтитулы не интересуют пользователя с точки зрения сравнения, за исключением вставок. Например, если у вас есть список на 100 позиций, в середине которого добавили или изменили один из пунктов. Чтобы работать с документом было удобнее, различия в нумерации попадают в отдельную группу.

Читайте также:  Создание таблиц с помощью запроса

В финале пользователь может посмотреть все исправления в документе так, как ему удобно. На выбор есть несколько способов: сохранить новую версию документа в формате DOCX, где все изменения уже подсвечиваются в режиме Track Changes, получить PDF с комментариями в местах изменений или создать таблицу с перечнем правок в Word.

Среди поддерживаемых ABBYY FineReader 15 функций:

  • просмотр PDF-документов;
  • редактирование текста в PDF-документе в пределах абзаца;
  • удаление конфиденциальных данных;
  • сравнение документов разного формата и написанных на разных языках;
  • автоматизация задач по оцифровке и конвертации;
  • распознавание и конвертирование документов;
  • комментирование и согласование;
  • защита и цифровая подпись.

Как работают нейросети для распознавания иероглифов и арабской вязи

Распознавание иероглифов осложняется тем, что в отличие от европейских языков, они состоят из большого количества черточек, палочек, наклонов. Но размер иероглифов вполне сопоставим с размером европейских букв. В низком разрешении сканов иероглифы могут и вовсе выглядеть как кляксы. Носитель языка поймет символ, исходя из контекста. Программа же работает поэтапно: сначала анализирует изображение всего документа, определяет абзацы, разбивает распознанные строки на слова, а слова — на отдельные символы. На этом этапе алгоритмы опираются не на контекст, как человек, а на внешний вид иероглифа, и здесь многое зависит от качества изображения. Для распознавания японского, китайского и корейского языков компания ABBYY внедрила нейросети. Они решают две главные задачи при работе с иероглифами — улучшение качества распознавания и «модернизацию» языков.

Качество и скорость в быстром и нормальном режиме

Внедрение нейросетей значительно повысило качество распознавания японского и китайского в быстром режиме, но скорость работы на начальном этапе разработки снизилась. Для клиентов, работающих с большим потоком документов, даже небольшая просадка по скорости может привести к сильному замедлению в обработке данных. Оказалось, что скорость проседает в документах с большим количеством символов с простой структурой — таких, как японская буквенная азбука (в современном японском языке используется три основных системы письма: кандзи — иероглифы китайского происхождения и две слоговые азбуки, созданные в Японии — хирагана и катакана — «Хайтек»).

Источник

ABBYY FineReader 15 + ключ активации лицензионный 2021

Abbyy FineReader отлично подойдет для быстрой работы с сфотографированным текстом, оцифровки старых печатных изданий и даже перевода конспектов в электронный вид. Этот продукт российской компании ABBYY начиная с 2009 года удостаивался различных премий: «Лучший софт», «Лучшее профессиональное ПО» и проч.

1

Она позволяет быстро и качественно получить текст из отснятых или отсканированных документов, не меняя последовательности страниц в документе и их структуры. Полученный документ можно сохранять в разных форматах, просматривать, редактировать, искать по содержимому и прикреплять к электронным письмам.

ABBYY FineReader: что это за программа

В основу FineReader Professional Edition положена технология OCR, заключающаяся в следующем: программа не подбирает загруженное в нее изображение символа, сравнивая с, возможно, бесчисленным множеством шаблонов в поисках подходящего, а делает несколько предположений, на что похож данный оптический объект, что это за знак, постепенно проверяя их.

Затем программа для сканирования выбирает наиболее похожий символ и ищет у исходного сходства с ним. Кроме того, программа способна самообучаться: оцифровывать части документа, опираясь на предыдущий опыт работы с этим же документом. К примеру, седьмая глава отсканированной книги будет обрабатываться несколько быстрее, чем первая, именно за счет обучаемости софта.

Необязательно загружать отсканированные файлы – достаточно будет фотографии с телефона или фотоаппарата(минимально допустимые характеристики – 2МП + автофокус), которую затем можно отредактировать во встроенном редакторе изображений. Кроме того, в ней можно сделать снимок части экрана – screenshot.

Продукт поддерживает более 190 языков, из которых в 48 встроена поддержка орфографии; используемые в файле языки можно настроить заранее или позволить определить самостоятельно. Также вручную можно задать тип обрабатываемого участка: рисунок, таблица, текст. При помощи технологии ADRT сохраняется не только исходная структура документа – нумерация страниц, оглавление, примечания – но даже расположение на странице текста и таблиц.

Для устройств под управлением windows 7 и windows 10 основные задачи(сценарии) доступны прямо из главного окна. А для системы windows 8 в дополнение к ним поддерживаются базовые жесты для сенсорных устройств, такие как масштабирование и прокрутка. В процессе работы можно выбрать, что важнее в данном конкретном случае: скорость или качество работы, и экономить до 50% времени.

С какими форматами работает?

В большинстве случаев Файн Ридер используется для работы с форматом PDF, однако он способен сохранять обработанные файлы не только в нем:

  1. RTF.
  2. DOC.
  3. DOCX.
  4. DJVU.
  5. ODT.
  6. PPT.
  7. TXT.
  8. DBF.
  9. CSV.
  10. LIT.
  11. Fb2.
  12. Epub.
  13. Создавать HTML-документы.

Кроме того, его можно запускать прямо из пакета Microsoft Office(Excel,Word,Outlook) и сохранять готовые документы в облако. На примере это можно рассмотреть так: документ, высланный вам по почте, находится в формате PDF. Вы откроете его в FineReaderе, распознаете и преобразуете в word-файл, отредактируете как вам необходимо, и сохраните в формате пакета OpenOffice Writer – ODT. Или снова в PDF или оставите в DOC.

2

Установка

Установщик предоставляется бесплатно и без регистрации. После скачивания файла вы увидите в папке загрузки текстовый документ README.txt и приложение ABBYY.FineReader.v12.0.101.496.exe.

3

Закройте все окна Microsoft Office. Запустите установчник
4
5

Выберите адрес каталога, куда нужно будет установить программу, «обычный» режим установки

6

и необходимые опции перед началом установки: рекомендуется убрать галочки во всех строках, кроме второй: «Создать ярлык для ABBYY FineReader 12 на рабочем столе».

7

После этого ждите окончания процесса. Установка обычно занимает около 10 минут, но не завершайте процесс, не дождавшись окончания: на «засоренном» компьютере она может длиться до получаса или часа.

8

После появления окна, сообщающего о завершении установки, нажмите кнопку «готово», и программой можно пользоваться – ключик активации уже встроен в файлы.

9

Интерфейс

Последняя версия ABBYY FineReader 12 обладает дружелюбным пользователю интерфейсом. Верхняя строка разделена на вкладки:

  • Файл
  • Правка
  • Вид
  • Документ
  • Страница
  • Область
  • Сервис
  • Справка

10
Основная используемая вкладка «Файл» содержит в себе опции «Новая задача», «Сканировать страницы», «Открыть PDF или изображение», «Сохранить документ», «Отправить по электронной почте», «Печать» и т.д.
21

По умолчанию при старте приложения открывается окно «Задача»

12

Которое также можно вызвать одноименной кнопкой в верхней левой части экрана. В подпунктах можно выбрать одну из стандартных задач – конвертирование, создание электронных таблиц и т.п.- или создать свою пользовательскую задачу.

Слева находится вертикальный список из нескольких пунктов – смотря с чем необходимо работать:

  • «Основные» — отображает наиболее популярные действия, такие как быстрое сканирование, сканирование в PDF и Microsoft Word;
  • «Microsoft Word», «Excel», Adobe PDF — здесь показываются действия-связки Файнридера и Ворда, Экселя, PDF соответственно, например, «Сканировать в..»;
  • В пункте «Другие» находятся кнопки сканирование в прочие и редко используемые форматы: HTML,EPUB и т.д;
  • В «Моих задачах» можно создать персонально-ориентированную задачу, облегчающую повседневную работу.

Выбор языка для работы с файлом

Во вкладке настройки можно изменить «Выбор языка», для распознавания текста файла.
24
25

Цветовой режим

26

В меню «Цветовой режим» предлагается выбрать из цветного или черно-белого, причем во втором случае объем выдаваемого файла будет меньше и время на обработку уменьшится.

На панели окна Изображение можно выбрать и отметить области распознавания, проверить результат работы и двух сопоставляемых (слева и справа) окнах. В правом – результате распознавания – при помощи встроенного текстового редактора правки можно вносить прямо в нем.

Программа выделяет 4 вида областей:

  • Текст
  • Картинка
  • Фоновая картинка
  • Таблица

После выполнения всех манипуляций необходимо запустить распознавание текста снова. Стоит заметить, что распознавать можно только отдельную область без обработки всех остальных страниц документа, что упрощает работу с большими файлами – просто выделите ее и нажмите кнопку «копировать». Необходимо знать, что рукописные тексты программа распознать не сможет. На примере ниже представлен неправильно выбранный документ, не подлежащий обработке.

23

Как пользоваться

Ознакомьтесь визуально с принципом работы данной программы:



Горячие клавиши

Помимо основных, отображаемых в пользовательском интерфейсе, клавиш, в FineReader существуют т.н. «горячие клавиши». Ниже приведен их неполный список.

Стандартные команды, знакомые нам по пакету MS Office:

  • Ctrl+S – сохранение документа
  • Ctrl+P – напечатать документ/текст
  • Ctrl+Z – отмена предыдущей команды
  • Ctrl+X, Ctrl+C, Ctrl+V – вырезать, скопировать, вставить текст/изображение
  • И др.

Источник



Abbyy FineReader — Файн Ридер скачать бесплатно на русском

Abbyy FineReader – это широко известная программа для сканирования документов и распознавания текста. На сегодняшний день она является наиболее популярной благодаря понятному и удобному интерфейсу, большому набору всевозможных функций, связанный со сканированием и работой с готовым документом, а также удобством в использовании.

сканер

При помощи программы Файн Ридер можно:

Сканировать любой документ через ваш сканер и после распознать и сохранить для дальнейшего редактирования на компьютере, отправить по электронной почте, сохранить на флешке и т.д. Так же можно переводить изображения, сканы, PDF-файлы, фотографии в другие форматы, например, конвертировать их в таблицы и тексты без необходимости набирать текст заново. При этом распознаются многие форматы изображений, а форматирование текста часто остаётся не тронутым.

Файн Ридер программа для сканирования документов умеет работать со всеми сканерами включая самые популярные такие как Canon (Кэнон), HP, Kyocera (Куосера), Samsung (Самсунг) и другие.

программа для сканирования документов

Программа для сканирования может сохранить документ в редакторы — Word (Ворд), Excel (Эксель), OpenOffice, Adobe Acrobat а так же экспортировать файлы в облачные хранилища по вашему выбору.

Название Язык Рейтинг: Загрузки
abbyy-finereader-13 Abbyy FineReader 10 На Русском Хорошо
8/10
Скачать бесплатно >>
abbyy-finereader-13 Abbyy FineReader 11 На Русском Очень хорошо
9.7/10
Скачать бесплатно >>
abbyy-finereader-13 Abbyy FineReader 12 На Русском Очень хорошо
9.7/10
Скачать бесплатно >>
abbyy-finereader-13 Abbyy FineReader 14 На Русском Очень хорошо
9.8/10
Скачать бесплатно >>
abbyy-finereader-13 Abbyy FineReader 15 На Русском Очень хорошо
9.8/10
Скачать бесплатно >>

Помимо широкого функционала эта программа для скана выпускается более, чем на 170 языках мира, в том числе и на русском. Скорость и эффективность работы, особенно в самой новой версии Abbyy FineReader, удивительны. А улучшенный редактор изображений позволяет сделать предварительную обработку сканов и фотографий.

Читайте также:  QWERTY клавиатура встроенная подсветка автоматический поворот экрана

Можно по своему желанию добавить или снизить яркость и контрастность, скорректировать погрешности, допущенные камерой. Это позволит как можно точнее распознать текст и области рисунков. Удобный и понятный даже впервые столкнувшемуся с программой человеку интерфейс, делает её незаменимым помощником как на рабочем месте, так и дома.

Как сканировать и распознать документ:

Если программа на русском все достаточно просто и понятно, версия скачанная с нашего сайта бесплатна.

На верхней панели достаточно большие значки основных функций, на скрине ниже 11 версия но и в других все примерно одинаково изменены лишь сами значки.

Для того чтоб распознать нужно сначала сканировать со сканера документ либо загрузить картинку например с текстом, после нажать на кнопочку Распознать.

файнридер сохранить как

После распознания и корректировки можно сохранять документ в редактируемый а также желаемый формат например ПДФ (PDF).

файн ридер скрин 2

Настройки Файн Ридер программы:

При обычном использовании например только распознать или только сканировать углубленные настройки вообще не нужны.

Если все же вам необходимы доп. настройки то нажмите Сервис -> Опции. (для версии 11)

Из углубленных функций можно воспользоватся редактором языков если у вас текст который нужно распознать не Русский.

Источник

Как распознать отсканированный текст при помощи Abbyy FineReader!

Здравствуйте. Сегодня я расскажу о том, как с помощью программы Abbyy FineReader распознать текст c изображения, которое вы могли получить в результате сканирования. Ваш сканированный текст будет полностью в документе Microsoft Word и этот распознанный текст можно будет редактировать! Распознать текст при помощи Abbyy Finereader может пригодиться тем, кто учится, работает с текстами и переводами. Программа, к сожалению, является платной. Как-то доводилось попробовать одну из бесплатных вариантов аналогичных программ, но весьма хорошо отсканированный текст распознается просто ужасно. А распознать текст в Abbyy FineReader получается весьма качественно! Сейчас я покажу как пользоваться программой Abbyy FineReader для быстрого распознавания текста с изображения.

ABBYY FineReader имеет пробную версию на 30 дней с возможностью распознавания до 100 страниц и сохранением не более 3-х страниц из документа. Т.е. в течение этого времени вы можете увидеть возможности программы и принять взвешенное решение — нужна ли она вам, стоит ли её покупать или нет.

Как установить Abbyy FineReader!

Перед тем как пользоваться Abbyy Finereader её необходимо установить. Рассмотрим процесс установки этой программы.

Для начала выбираем язык программы. Нажимаем «ОК».

abbyy finereader как распознать текст

Принимаем условия лицензионного соглашения (при желании можно прочесть лицензионный договор, если вам интересно о чём там речь). Нажимаем «Далее».

abbyy finereader как распознать текст

Далее вы должны выбрать режим установки. При обычном режиме программа не спросит вас и установит то, что в программе задано по умолчанию, а именно — все компоненты: саму программу Abbyy Finereader для распознавания текста, компонент для программ Microsoft Office и компонент для проводника Windows (позволяющий быстро распознавать изображения, не открывая отдельно программу). Советую отметить выборочную установку чтобы настроить так, как вам нужно. Тем более это не займет и 15 минут 🙂 Внизу указана папка куда установится программа. Желательно оставить выбор по умолчанию, чтобы потом не было никаких проблем при использовании программы. Нажимаем «Далее».

abbyy finereader как распознать текст

Компоненты программы. Это окно как раз появится в случае, если вы выберите тип установки «Выборочная». Компоненты — это что-то вроде вспомогательных приложений к программе. Первый компонент «Интеграция с программами Microsoft Office и Проводником Windows». Этот компонент будет отображен в меню Microsoft Office и если вы щелкните по изображению у себя на компьютере правой кнопкой мыши, то там будет пункт с этой программой. Вот так будет выглядеть ваше меню в Microsoft Office после добавления этого компонента.

abbyy finereader как распознать текст

А вот что будет если вы щелкните правой кнопкой мыши по изображению:

abbyy finereader как распознать текст

Т.е. появится меню, в котором вы можете сделать быстрое распознавание текста с отправкой результатов в Word, Excel или PDF.

Второй компонент позволит вам распознать текст с экрана компьютера. Это значит, что вы сможете сделать скриншот и также распознать текст. Если вы не хотите устанавливать один из этих компонентов, или вовсе не хотите устанавливать оба, то нужно нажать на стрелочку вниз и выбрать «Данный компонент будет недоступен». Тогда компонент установлен не будет. Я оставила оба.

abbyy finereader как распознать текст

abbyy finereader как распознать текст

Далее 4 пункта. 1-ый означает то, что сведения о том, как вы пользуетесь программой Abbyy Finereader будут переданы разработчику. Данный пункт советую не отмечать, чтобы программа лишний раз не выходила в интернет ради отправки сведений о работе с ней. Тем более, мало ли какие ещё сведения будут отправляться 🙂 2-ой пункт создает ярлык программы на рабочем столе. 3-ий означает, что программа будет запускаться при включении компьютера, а 4-ый будет проверять обновления программы. Я оставляю только второй и напротив него оставляю галочку. Закрываем все приложения Microsoft Office, потому что так требует установщик и нажимаем «Установить».

abbyy finereader как распознать текст

Нужно подождать пару минут чтобы программа загрузилась и нажать «Далее».

abbyy finereader как распознать текст

Все, установка завершена! Нажимаем «Готово».

abbyy finereader как распознать текст

Как при помощи Abbyy Finereader распознать текст c отсканированного или любого другого изображения?

Рассмотрим, как пользоваться программой. К примеру, у вас есть отсканированный текст. Теперь, чтобы распознать текст в Abbyy FineReader, открываем программу. Нажимаем «Открыть».

abbyy finereader как распознать текст

Выбираем нужное нам изображение и нажимаем открыть.

abbyy finereader как распознать текст

Когда вы откроете нужный документ, Abbyy Finereader начнёт распознавать текст. Чем больше документ, тем дольше будет длиться распознавание. Распознавание одной страницы может занять несколько секунд.

После того как текст распознается вам останется только сохранить результат в документ Microsoft Word, чтобы затем вы могли отредактировать в нём что угодно. Для этого нажмите кнопку «Сохранить» на верхней панели инструментов, после чего выберите в какую папку будет сохранён документ Word и под каким названием.

abbyy finereader как распознать текст

Если у вас подключён к компьютеру сканер, то вы можете запустить сканирование прямо из программы, и после чего отсканированный документ сразу будет распознаваться. Для этого на верхней панели инструментов нажмите кнопку «Сканировать». Далее действия будут зависеть от программы-драйвера для вашего принтера. Вам нужно только следовать указаниям мастера сканирования.

abbyy finereader как распознать текст

Как видите, все очень просто и быстро. Теперь вы знаете, как пользоваться Abbyy FineReader для распознавания текста с изображений! Надеюсь, что эта информация очень поможет многим:) Удачи!

Сделай репост – выиграй ноутбук!

Каждый месяц 1 числа iBook.pro разыгрывает подарки.

  • Нажми на одну из кнопок соц. сетей
  • Получи персональный купон
  • Выиграй ноутбук LENOVO или HP

—> Ноутбук, который можно выиграть, сделав репост.LENOVO или HP от 40-50 т.р., 8-16ГБ DDR4, SSD, экран 15.6″, Windows 10

3 комментария

Аватар комментатора Игорь КолпаковАвтор: Игорь Колпаков

Для студентов очень полезно на мой взгляд

Аватар комментатора Феликс ДемьянченкоАвтор: Феликс Демьянченко

В студенчестве пользовался данной прогой, очень удобно! Лучше чем перепечатывать нужный текст самому с книги, журнала. 🙂

Аватар комментатора Сергей ЖуравлёвАвтор: Сергей Журавлёв

Удобная программа. Пользуюсь на Windows 10 старенькой версией 7 Home Edition. Во времена царя Гороха покупал вместе со сканером. До сих пор совместима и работает.

Источник

Обзор пакета ABBYY FineReader 12

Разговор пойдет о программе ABBYY FineReader 12, то есть, о ее последней версии. Не заглядывая слишком далеко, мы выбрали самый известный продукт компании ABBYY, который, к его достоинствам, отлично русифицирован. Уже на первый взгляд Fine Reader (FR) производит впечатление программы с хорошей русскоязычной поддержкой: в этом плане, действительно, все сделано на весьма достойном уровне, включая справочную информацию.

Вначале — отступление. Всегда актуален вопрос, как перевести весь или некоторую часть архива в цифровой формат (и что, собственно, понимать под словом «цифровой»). Едва ли покупка сканера решает все проблемы. Конечно, очень часто в комплекте с документацией к сканеру поставляется диск или несколько с фирменным программным обеспечением. Однако уже на стадии санирования выясняется, что качество сканирующей программы оставляет желать лучшего либо формат, в котором происходит сохранение, к сожалению, не пригоден для хранения. Почему? Большинство графических форматов не отделяют текст от нетекстового пространства документа, и поэтому скопировать какой-либо отрывок из подобного файла не предоставляется возможным.

Именно в таких случаях на выручку приходят функциональные программы-«распознавальщики» текста, в возможности которых, в частности, входит извлечение текста из изображения.

Знакомство с ABBYY FineReader

Пакет ABBYY Finereader 12 — система оптического распознавания текстов (Optical Character Recognition — OCR ). Предназначена как для автоматического ввода печатных документов в компьютер, так и для конвертирования PDF–документов и фотографий в редактируемые форматы (из руководства к программе)

Аббревиатура «OCR» применима для всех приложений для распознавания данных (а не только текста). Источником для извлечения данных может служить печатный или электронный документ. Когда-то не очень давно об OCR , в той или иной форме, мало кто знал, да и процесс перевода текста в электронный вид превращался в сущую рутину, вплоть до ручной перепечатки текста оригинала. Сегодня, обладая планшетным сканером (ручным в домашних условиях пользуются единицы) и finereader 12 — будьте уверены — никаких сложностей в сканировании и распознании не возникнет.

Начиная с шестой версии, FineReader поддерживает импорт и экспорт в формат PDF , запатентованный компанией Adobe. Многие читатели, вероятно, сталкивались с трудностями перевода из этого формата в любой иной (doc и т. п.), поскольку действительно полезных программ в этой области не так уж и много (внимания достоин разве что дочерний продукт компании ABBYY — PDF Transformer). Дело в том, что подобные программы проводят распознавание текста только единожды, вследствие чего «идентичность» результата вовсе невелика (в зависимости от сложности документа), плюс к тому изрядно теряется форматирование документа.

В случае с FineReader все обстоит по-иному. В девятую версию программы внедрена технология под названием Document OCR . В ее основе лежит принцип цельного распознавания документа: он анализируется и распознаётся как единое целое, а не постранично. При этом всевозможные колонки, колонтитулы, шрифты, стили, сноски и изображения остаются нетронутыми или заменяются близкими к оригиналу.

Установка пакета

Demo-версию Finereader 12 можно скачать на сайте Abbyy.ru, в разделе Download, полная лицензионная версия распространяется на CD-диске. О способах покупки можно узнать на этом же сайте в разделе «Купить».

На сайте разработчиков ABBYY можно скачать демонстрационную версию пакета ABBYY FineReader версии 12 (или другой, актуальной на сегодня)

ABBYY FineReader распространяется в нескольких версиях: Professional Edition, Corporate Edition, Site License Edition и др. Отличие версии Professional от остальных состоит в том, что предназначена для работы в корпоративной сети с возможностью совместной работы над распознаванием документов. В остальном разница незначительна и зависит от выбора условий лицензионного соглашения.

Читайте также:  Виды искусств с примерами таблица

Сложно представить, что 12 лет назад существовал FineReader 2.0, занимавший около 10 Мб дискового пространство. Со временем пакет «вырос» десятикратно и сейчас в установленном виде занимает до 300 Мб. Много это или мало — судите сами. Новый FR поддерживает 179 языков распознавания, среди которых есть малоизвестные искусственные языки (идо, интерлингва, окциденталь и эсперанто), языки программирования, формул и т. п. Не будем забывать и о поддержке различных форматов, сценариев. Так что, если по какой-то причине вы захотите ограничить занимаемое пакетом место, при установке отметьте только те компоненты, которые будут востребованы при работе.

Выбор компонентов влияет на длительность установки, которая, впрочем, не должна занять много времени. В процессе инсталляции вас ознакомят с основными возможностями FR. После активации (по Интернету, через E-mail, с помощью полученного кода и др.) программа готова к полнофункциональной работе. В demo-режиме вы непременно столкнетесь с различными ограничениями, которые, к сожалению, не позволяют полноценно использовать пакет.

Интерфейс FineReader. Функциональные возможности

Доступ к возможностям программы доступен как с помощью сценариев, которые появятся в главном меню сразу после процесса инсталляции, так и, собственно, через основной интерфейс.

Заставка при запуске FineReader

Внешний вид программы из версии к версии не претерпевает особых изменений: разработчики не видят смысла его кардинально менять. Значительное внимание уделяется эргономике, что заметно по всем продуктам компании ABBYY (Lingvo, PDF Transformer, FlexiCapture…). Другими словами, интерфейс Fine Reader 12 хорошо продуман и предрасположен ко всем пользователям, не исключая новичков. Принцип «Получить результат за одно нажатие» придется по вкусу тем, кто не привык что-то настраивать и изменять. С другой стороны, более опытные пользователи могут тщательно настроить FineReader через диалог настроек (Сервис -> Опции…). Единственный нюанс: для комфортной работы в приложении желательно установить разрешение экрана в 1280?800, чтобы все инструменты всегда были, что называется, под рукой.

После запуска программы Файн Ридер появится окно с кнопками быстрого доступа к функциям программы. Данное меню также доступно через меню Сервис -> ABBYY FineReader, кнопку «Основные сценарии» в крайнем правом углу программы или через сочетание клавиш Ctrl+N (по аналогии с Word, где данной комбинацией вызывается открытие нового документа).

Сканировать в Microsoft Word: в девятой версии FineReader появилась поддержка пока еще не успевшего стать популярным Microsoft Word 2007. В свою очередь, на панели инструментов в приложениях Microsoft Office, в разделе надстроек после установки FR появляется «фирменный» красный значок.

Меню для экспорта распознанного документа FineReader Выбор языков для сканирования и распознания документов

Помимо Microsoft Office, FR поддерживает интеграцию с Microsoft Outlook, обеспечивает экспорт результатов распознавания в те же Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect и Adobe Acrobat. Эти возможности в некоторой мере облегчают и ускоряют работу с программой, в особенности, если вам приходится регулярно в ней работать.

PDF или изображения в Microsoft Word: распознать данные из PDF — или графического файла другого типа, поддерживаемого Finereader 12 версии. Следует отметить, что технология извлечения текста из PDF -файла в FR — это не просто «отслаивание» текстового наполнения (текстовый слой в PDF может и отсутствовать) от графического. На самом деле, технология распознавания достаточно непроста: проанализировав содержание документа, программа решает, что и как нужно делать с текстом: просто извлечь или распознать, — и так применительно к каждому текстовому фрагменту.

Сканировать в Microsoft Excel: сканирование в XLS (формат программы Microsoft Excel) может быть оправдано в том случае, если сканируемое изображение содержит таблицы.

Сканировать в PDF : поводов для сканирования в PDF может быть множество. Один из них — безопасность: это единственный формат, знакомый FR, в настройках которого можно установить блокировку паролем. Пароль устанавливается не только на открытие документа, но и на его печать и другие операции. Имеется возможность выбрать один из трёх уровней шифрования: 40-битный, 128-битный на основе стандарта RC4, 128-битный уровень, основанный на стандарте AES (Advanced Encryption Standard).

Конвертировать фотографию в Microsoft Word: перевод файла из графического формата (причем это может быть PDF или многостраничное изображение) в DOC /DOCX.

Сканировать и сохранить изображение: непосредственное сканирование аналогового графического формата в графический же, но электронный.

Открыть в Файн Ридер: открыть графический файл ( PDF , BMP , PCX , DCX , JPEG , JPEG 2000, TIFF , PNG ) для распознавания FineReader.

Работа в FineReader

Сейчас — вкратце об особенностях работы программы. Весь процесс делится на сканирование, распознавание и сохранение результатов. После того как вы выбрали тип действия программы, указали файл или устройство для сканирования, FineReader поэтапно выполняет свою задачу, кстати, достаточно ресурсоемкую для центрального процессора.

Если вы — счастливый обладатель двухъядерного процессора, то, работая в пакете Fine Reader 12, можете оценить мощь быстродействия компьютера. Дело в том, что FR, обнаружив двухъядерный процессор, распознает не одну, а сразу две страницы документа параллельно. Мелочь — а приятно.

Вначале идет сканирование, затем — распознавание и экспорт временного документа в выбранный формат.

Процесс распознавания PDF-документа

Сканирование. Никаких предварительных настроек в приложении FineReader (кроме выбора считывающего устройства) перед сканированием делать не нужно. Именно поэтому и были придуманы сценарии: они призваны упростить выполнение однотипных действий.

Распознавание. Упрощение коснулось и других мелочей. Так, если вспомнить прошлые версии программы, раньше нам приходилось вручную менять язык (языки, если их было несколько) документа. Сейчас это происходит автоматически, правда, тоже не всегда. В последнем случае FR ненавязчиво предлагает проверить язык документа.

Возвращаясь к технологии распознавания FR: почему программа вначале сканирует весь документ целиком, а не постранично? Как уже было сказано, текст распознается, исходя из всего содержания: подбираются аналогичные по размеру/гарнитуре шрифты, таблицы и границы, отступы и т. п.

Не удивляйтесь, если программа FineReader 12 выдаст сообщение, мол, страница не может быть распознана, поскольку не найдено ни одной области текста. Эксперимента ради, мы сфотографировали на мобильный телефон с экрана LCD -дисплея область текстового документа (впрочем, зная, результат уже заранее). Fine Reader 12 не распознал текст изображения, поскольку оно было явно такого качества, которого для этого явно недостаточно. При втором заходе мы сфотографировали цифровым фотоаппаратом страницу с текстом при нормальном освещении.

FineReader без проблем распознал отрывок, сохранив форматирование и отметив маркерами некоторые сомнительные моменты или символы, у которых могут быть вариативное написание.

Как видно на изображении, преимущественно это точки, дефисы, запятые — в общем, мелкие символы. Кроме этого, хорошо видно, что программа учла неровности, изогнутости сфотографированной страницы и выровняла строки текста. Вывод — FR отлично справился со своей пусть и не очень сложной задачей.

Изредка могут оставаться незамеченными программой Файн Ридер кое-какие незначительные моменты, однако их легко откорректировать вручную. Благо, в пакете есть свой WYSIWYG -редактор, возможностей которого вполне достаточно для совершения окончательной правки документа. Проверка орфографии тоже имеется.

Как повысить точность распознавания, чтобы затем в меньшей степени заниматься правкой текста? Во-первых, вы можете подключить пользовательский словарь Microsoft Word. Правда, сложно судить о повышении точности, разве что о повышении словарного запаса спеллчекера (модуля, проверяющего орфографию и грамматику). Кроме всего прочего, для улучшения распознавания есть смысл ознакомиться с настройками программы (Сервис -> Опции) и выбрать один из двух режимов:

тщательное распознавание — его можно выбрать при распознавании документов любой «сложности»: с таблицами без линий сетки, текста, графиков, таблиц на цветном фоне и др. Также может помочь при некачественном источнике для распознавания

быстрое распознавание — данный режим рекомендуется для обработки больших объемов документов с простым оформлением или же в том случае, если время не позволяет проводить тщательное распознавание. В большинстве случаев, когда вы имеете с черным печатным текстом на белом фоне, можно остановиться на быстром распознавании.

Вообще, улучшение качества работы FineReader — это отдельная тема для разговора, о деталях которой вы можете узнать из официальной справки, а именно в разделе «Как улучшить полученные результаты».

Сохранение документа. Последний этап работы в программе Fine Reader 12 — сохранение итогового результата в определенный графический/текстовый формат. Предварительно настройки сохранения можно указать в опциях FR: Сервис ->Опции, вкладка «Сохранить». Для каждого формата предусмотрены свои настройки. При сохранении в DOCX -формате следует побеспокоится о совместимости форматов (Файлы DOCX -формата не распознаются в Word 2003 ABBYY Screenshot Reader

Во многие объемные пакеты очень часто разработчики любят добавлять мелкие сервисные утилиты. Скажем, в состав известного приложения для записи дисков Nero входит набор из 3 — 5 утилит, позволяющих то, чего не может даже сам Nero. Обзор Nero Express доступен здесь (здесь же можно скачать в составе Файн Ридер 12).

Что касается FineReader, то в его составе обнаруживается одно небольшое приложение Screenshot Reader. С его помощью вы можете сделать снимок экрана и быстро перевести его в желаемый формат посредством FR. Программа доступна через меню «Пуск» (Пуск -> Все программы -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Возможности Screenshot Reader несколько шире, чем может показаться на первый взгляд. (а иначе можно было бы обойтись простым нажатием клавиши «PrintScreen» на клавиатуре). В дополнение к тому, что Screenshot Reader делает снимок экрана (или, точнее, выбранной области экрана), программа тесно интегрирована с FR.

При нажатии на кнопку «Снимок» на панели Screenshot Reader курсор меняет форму и включается инструмент выделения области экрана. Выделенная область изображения заключается в рамку для дальнейшего распознавания текста (оно запускается автоматически).

В выпадающем списке вы можете выбрать желаемое действие: по сути, Screenshot Reader дублирует быстрые сценарии FR c той разницей, что вместо снимка со сканера «на вход» поступает снимок экрана.

Следует отметить, программа, наравне со всем пакетом, требует активации. При регистрации продукта ABBYY FineReader 12 Professional Edition Screenshot Reader предоставляется бесплатно, в качестве «бонуса».

Заключение

FineReader — незаменимая программа для сканирования и распознавания графических данных. Русскоязычный интерфейс и доступность настроек не отпугнут неопытного пользователя. Поддержка новейших форматов, инновационные технологии и, как следствие, качественное распознавание делают программу оптимальным выбором, тем более что конкурентов в этой области у ABBYY FineReader все еще не предвидится.

Источник

Adblock
detector