ocr разпознаване Практическа помощ: как да прехвърлите сканиран документ в Word

Оставете коментар 6,950

Ако сте избрали бързия начин за писане на теоретична глава, за който говорихме в параграф 2.1., най-вероятно няма да можете да правите без сканиране на документи. В противен случай можете да пропуснете тази точка и да започнете да си водите бележки върху материалите, намерени в библиотеката.

Преди да започнете да сканирате, трябва да решите какво точно искате да използвате, когато пишете работата си. И за да направите това, първо трябва да прегледате наличната литература и да подчертаете необходимите точки с молив.

Първият път, когато сканирах статия от списание за първата си курсова работа, намерих задачата за невероятно трудна. В резултат на няколко часа работа със скенера и FineReader, резултатът беше глупост, която не можеше да се редактира. Накрая трябваше да напиша всичко на ръка. За да предотвратите това да ви се случи, нека разгледаме по-подробно всички технически аспекти на сканирането.

За да сканираме, разбира се, ще ни трябва скенер. Не е нужно да го купувате. Можете например да вземете нещо назаем от приятел за известно време. Използвам скенер CanoScan Lide 60 Въпреки че това не е най-новият модел, много харесвам този компактен, бърз и лесен за използване „уред“. Ако вземете скенер назаем, за да работи, първо трябва да инсталирате програмата драйвер. Драйверите и инструкциите за инсталиране винаги могат да бъдат намерени на инсталационния диск, който се доставя с устройството, или изтеглени от уебсайта на производителя. След като инсталирате драйвера, свържете скенера към вашия компютър с помощта на свързващия кабел. Сега можете да започнете директно сканиране.

Но първо, малко теория. Трябва да знаете, че процесът на сканиране се състои от два етапа:

1. Директно сканиране на документа. На този етап скенерът прави снимка на повърхността на сканирания документ и записва полученото изображение на компютъра като обикновен .jpg .gif файл или в друг формат;

2. Разпознаване на документи. Това е процес на преобразуване на текст от изображение, направено от скенер, в обикновен тест, който след това може да бъде записан в Word и редактиран. Разпознаването се извършва без участието на скенер, с помощта на специална програма (най-популярната е Adobe FineReader). По този начин можете първо да сканирате няколко листа с текст и да ги запазите като изображение, преди да ги конвертирате в текст.

И така, да започваме първи етап - сканиране:

– стартиране на драйвера на скенера: Старт - Всички програми - Canon - ScanGear(Посочвам името на драйвера за моя скенер). Ще се появи прозорецът на драйвера:

– отворете капака на скенера и поставете книга, списание или негово копие с текста надолу, възможно най-равномерно по отношение на краищата на работната повърхност на скенера:

Тук е много важно да се гарантира, че капакът на скенера притиска сканирания документ възможно най-плътно, предотвратявайки достигането на външна светлина до работната повърхност на скенера, която е в контакт с документа;

– направете необходимите настройки в драйвера на скенера. Първата стъпка е да зададете разделителната способност, при която ще се сканира документът. Разделителната способност е индикатор, който определя нивото на детайлност на даден обект при сканиране и се определя в точки на инч (dpi, или dpi). Колкото по-висока е резолюцията, толкова по-добро е качеството на изображението. Но когато сканирате текстови документи, няма смисъл да задавате максимална разделителна способност, тъй като това ще бъде безполезно. Освен това сканирането при по-високи разделителни способности отнема повече време. Препоръчвам да зададете разделителна способност между 400-500 dpi. При тази настройка изображенията са с достатъчно качество за добро разпознаване, а самият процес на сканиране не отнема много време. Предлагам да погледнете екранна снимка на настройките на моя принтер:

Първо трябва да отидете на "Разширен режим".Източникът винаги ще бъде "таблетка"(плосък скенер). По-добре е да зададете цветовия режим "Черно и бяло", защото не се нуждаем от цветове за сканиране на текст и това ще намали размера на изходните изображения. Резолюцията, както казах, трябва да бъде определена 400 dpi. Размер на изходното изображение – задължителен „А4“. Сега можете безопасно да натиснете бутона "Сканиране". Моят скенер е проектиран така, че първо съхранява сканираните изображения във вътрешната памет и едва при затваряне на прозореца на драйвера предлага да ги запише на компютъра. Всичко, което трябва да направя, е да посоча мястото, където ще бъдат запазени резултатите от работата.

Трябва да получите файлове от този тип:

Когато увеличите такова изображение, текстът трябва да се вижда ясно.

Втора фаза – разпознаванеполучените изображения и да ги конвертирате в текст. Както вече казах, това ще изисква специална програма - FineReader. Изтеглете програмата от тази връзка (32MB). Парола за архив – уебсайт. Предлаганата от мен версия не изисква инсталация (преносима). Ще има много различни файлове в папката на програмата, но имате нужда само от един - FineReader.exe. Двойното щракване върху този файл ще стартира програмата на вашия компютър.

Тази версия на програмата е доста стара. Направих всички екранни снимки по-долу, използвайки го. Ако тази версия FineReaderне ти става - избери си по-нова.

прозорец FineReaderима следната форма:

След като зададете езика, на който са отпечатани документите, които сте сканирали преди това, можете да започнете разпознаването. Ако текстът съдържа два езика наведнъж (например руски и английски), направете инсталацията съответно.

За да започнете разпознаването, щракнете върху стрелката вдясно от първия бутон Сканиране- и тогава - Отворете изображението:

Ще се отвори прозорецът за избор на изображение. Отворете папката, в която сте запазили сканираните изображения, щракнете CTRL+A(английски) на клавиатурата и натиснете бутона Отворете.

След това вляво в прозореца FineReaderЩе се появят миниатюри на добавените файлове, в центъра - текущо избраната миниатюра в увеличен вид, отдолу - още по-голямо увеличение, а вдясно резултатът от разпознаването:

Например направих само две снимки. Първият от тях е маркиран на екранната снимка по-горе; сега можем да го разпознаем. Както можете да видите, изображението е сканирано вертикално; за да разпознаете текста, изображението трябва първо да се завърти на 90 градуса. За да направите това, използвайте бутоните и . Следващата стъпка е да кажете на програмата коя част от изображението трябва да бъде разпозната, както и да зададете вида на данните, които трябва да бъдат изведени: текст, таблица или изображение. За това има съответно бутони: . Например, ако трябва да маркирате текстов блок, щракнете с левия бутон върху , след това щракнете с левия бутон върху горния ляв ъгъл на текстовия блок и като задържите левия бутон, го плъзнете в долния десен ъгъл. Например, подготвих напълно едно изображение за разпознаване:

Както можете да видите, всички текстови блокове в примера по-горе са маркирани в зелено, а картините са маркирани в червено. Таблиците се подготвят за разпознаване по същия начин. За това е бутонът. За да преминете към следващата снимка, щракнете с левия бутон върху нейната миниатюра вляво. По този начин всички изображения, получени в резултат на сканиране, се подготвят за разпознаване. След като подготовката на изображенията приключи, трябва да ги изберете всички. За да направите това, щракнете с левия бутон върху празно място в панела с миниатюри (нарича се Найлонов плик) и натиснете Ctrl+A(английски) на клавиатурата. След това щракнете върху бутона и изчакайте, докато FineReaderпреобразува изображения в текст. След това можете да запазите получения текст в Word с помощта на бутона, след като щракнете върху който ще се отвори прозорец. В него трябва да изберете формата за запазване - Microsoft Word, а също така да поставите отметка в квадратчето, така че всички страници да бъдат запазени:

След натискане на бутона Добрепрограмата ще създаде документ на Word и ще вмъкне текст от разпознатите страници в него в реда, в който са разположени в панела с миниатюри (пакет). Незабавно запазете получения документ в папка във файловата структура на вашата дипломна работа и можете да започнете да редактирате. Как се прави това е описано в моя безплатен курс.

И една последна точка. Ако сте сканирали вестник или списание, текстът там често е даден под формата на колони (както в примера по-горе). Тези колони в Word трябва да бъдат преобразувани в една. Изберете текста в колони и изпълнете командата: Формат – Колони – Една – OK. Само след това можете да зададете портретна ориентация в Page Setup, подложка на полето, шрифт и т.н.

Как да сканирате документ и да го разпознаете в MS Word

Текстовият редактор Word на Microsoft Office е инсталиран на компютрите на повечето потребители. Това е удобна и практична програма за въвеждане и редактиране на всякаква информация. Единственото неприятно нещо е, че с помощта на такъв софтуер е почти невъзможно да се отварят файлове, които се различават по формат от doc. Когато това е необходимо, възниква въпросът: как да го преведем в Word? Редица програми се справят с тази задача съвсем просто. Най-популярният от тях е Fine Reader. За секунди той разпознава текстове на различни езици от изображения и лесно ги превежда в doc формат.

Програма за сканирани документи №1

Не е необходимо потребителят да има под ръка скенер. FineReader е инструмент, с който всеки може лесно да реши проблема как да прехвърли сканиран документ в Word от флашка, цифров фотоапарат или мобилен телефон. Потребителят просто трябва да свърже притурката към компютъра и да стартира програмата.

Интерфейс и налични задачи

След стартиране на програмата на монитора на компютъра ще се покаже логично подредено по команди меню. Основните задачи на FineReader включват:

запазване на документа в Word;
конвертиране на изображения от PDF в doc формат;
просто сканирайте и запазете изображението;
създаване на PDF документ с възможност за търсене;
преместване на снимки в Word.

На този етап потребителят може да конфигурира цветовия режим: цветен или монохромен и езиците за разпознаване. Следните езици са достъпни за обработка: английски, руски, испански, италиански, немски. Потребителят може да използва и селекция от изкуствено създадени езици: есперанто, интерлингва, IDO.

Ако потребителят е изправен пред задачата да сканира документ, съдържащ например медицински текст, тогава програмата ще разпознае латинския шрифт след поставяне на отметка в необходимото квадратче. FineReader вижда и официални езици. Успешно се справя с разпознаването на прости химични формули. Потребител, който често работи с документи на различни езици, може да спести времето си, като използва функцията за автоматични настройки.

Пример за това как да прехвърлите сканиран документ в Word

Нека разгледаме най-простия проблем. Имаме документ на руски, сканиран и записан на флашка. За да го прехвърлите в документ на Word, трябва:

Стартирайте програмата Abby FineReader.
Поставете устройството в USB конектора на компютъра.
Изберете елемента от менюто „Файл в Word“.
В прозореца на Explorer, който се отваря, посочете пътя до изображението, което трябва да бъде конвертирано.
Щракнете два пъти с десния бутон върху избрания файл.

След всички горепосочени стъпки програмата започва да работи самостоятелно. След това прозорецът на FineReader ще бъде разделен на три колони. Първият ще покаже всички страници на документа. В колоната, разположена в средата, потребителят може да види с коя програма работи в момента. Най-лявата колона остава празна по време на процеса на разпознаване.

След приключване на работата конвертираният документ автоматично се отваря в Word. Потребителят може да редактира текста само на онези места, където FineReader не може да разпознае текста и да го запише на своя компютър или флаш устройство.

Грешки

Ясно е, че на въпроса как да прехвърлите сканиран документ в Word, отговорът се оказа доста прост. Но винаги ли всичко е толкова розово? Често изображенията са с ниска резолюция. И тогава FineReader дава грешка вместо готов файл във формат doc. Но няма причина да се разстройвате. Много причини, които пречат на разпознаването на текст, могат да бъдат елиминирани с помощта на същия FineReader. За да направите това, програмата има меню с команди „Редактиране“. Избирайки го, потребителят има възможност да:

промяна на резолюцията;
коригирайте изкривеното сканирано изображение;
регулирайте яркостта и контраста;
изрязване, разделяне и завъртане на документ и много повече.

Скенер, Документ, FineReader

Говорейки за функционалността на програмата за разпознаване на текст, бих искал да кажа отделно за възможността за работа с различно офис оборудване и джаджи. И така, инсталирането на FineReader на твърдия диск на устройството премахва въпроса за потребителя - как да сканирате документ на компютър?

Факт е, че един драйвер на устройство не винаги е достатъчен за работа с офис оборудване. Скенерът не е изключение. Като правило към него е включен диск с програма, която осигурява работата на устройството. Но функционалността на такъв софтуер често е ограничена.

FineReader е съвместим с всички скенери на известни производители. Инсталирайки го на вашия компютър, потребителят може да използва тази програма като софтуер за работа с изображения. Документите могат просто да бъдат сканирани и запазени; задайте командата за оставяне на заснетото изображение директно в Word; създаване на PDF файлове. От тях превеждайте текстове в текстовия редактор на Microsoft Office. В резултат на това една малка програма може лесно да се справи с такава задача като сканиране на документ на компютър и може да замени тромавите графични инструменти, като същевременно гарантира безпроблемната работа на целия офис.

Хората, които активно работят с документи и друга текстова информация, ясно виждат необходимостта от сканиране на различни материали. Важно е да запомните, че за получаване на висококачествени документи наличието на скенер изобщо не се обсъжда. В определени ситуации обаче може да свърши работа и снимка с необходимия текст, но снимката също трябва да е с високо качество.

Как да сканирате документ в Word

Първо, документът се сканира. В този случай е по-добре да изберете png или jpg формат. Размерът на изображението също трябва да е впечатляващ (от 400 dpi), за да няма проблеми с разпознаването.
Получените изображения се записват на определено място, след което ще е необходима самата програма за разпознаване на текст. Най-добре е да изберете Adobe FineReader. Това е универсален софтуер, който не предизвиква оплаквания по отношение на качеството на работата си. Важно е да се отбележи, че след инсталирането на тази програма, съответният раздел трябва да се появи в MS Word, следователно използването на функционалността е значително опростено.
Чрез Adobe FineReader трябва да изберете елемента от менюто „Файл“ и „Отвори“, изберете необходимите изображения. След това ще се появи менюто за обработка на изображения, трябва да изберем езика, който се използва в документа, както и някои други опции, включително речници и други настройки (не толкова важни за получаване на резултата).
Щракнете върху бутона „Разпознаване“ и изчакайте процесът да завърши. Вероятно не всичко е разпознато, така че думите, които програмата не може да идентифицира, ще бъдат маркирани в различен цвят и могат да бъдат редактирани директно в програмата.

Ако текстът в самия сканиран документ е леко изместен, тогава в Adobe FineReader трябва да изберете определени параграфи от текста с помощта на селекция. Това ще гарантира, че текстът няма да бъде пропуснат по време на разпознаването.
В резултат на това трябва да кликнете върху бутона „Запазване“, след което ще можете да изберете къде да запазите документа, както и неговия формат. Разбира се, в случай на MS Word трябва да изберете разширението doc или docx.
Ако преди запазването се окаже, че документът е разделен на няколко колони, тогава трябва да изберете менюто „Формат“, след това отидете на „Колони“ и изберете „Единична“, така че документът да изглежда прост и хармоничен. Също така в „Настройки на страницата“ има възможност за персонализиране на полета, отстъпи и шрифтове.

В резултат на това документът може свободно да се редактира директно в офис пакета на MS Office. Важно е да се отбележи, че при разпознаване на документ директно в Word, форматирането е още по-просто, тъй като функционалността е една и съща както за изходните документи, така и за тези, които се разпознават.

Що се отнася до разпознаването от снимки или други материали, не е толкова лесно да се получи висококачествено разпознаване, тъй като говорим за разместени полета, отстъпи и други детайли на документи, които ще изискват много време за коригиране.

При работа с текстови документи много често възниква необходимост от въвеждане на текст от вече отпечатан документ. Този вид работа не е много приятна и отнема много време.

За щастие вече има програми, които могат значително да опростят и ускорят решаването на такива проблеми. С помощта на тези програми можете бързо да конвертирате сканиран документ във формат на текстов редактор на Word и да избегнете рутинната работа по писане.

В тази статия ще демонстрираме как се прави това с помощта на програмата ABBY Finereader 12 Professional като пример. Ако нямате точно такава програма, можете да я замените с друга версия на ABBY Finereader или напълно различна програма от друг разработчик. Например, можете да използвате CuneiForm, Free OCR, Readiris Pro или SimpleOCR.

Стъпка 1. Стартирайте ABBY Finereader и отворете сканирания документ.

Първата стъпка е да стартирате програмата ABBY Finereader. След като стартирате програмата, трябва да кликнете върху бутона "Отвори" в лентата с инструменти.

След това ще се появи прозорец за отваряне на сканирания документ. Изберете изображение или няколко изображения и щракнете върху бутона „Отвори“.

Освен това, вместо да използвате бутона Отвори, можете просто да плъзнете и пуснете вашите сканирани изображения в ABBY Finereader.

Стъпка № 2. Изчакайте ABBY Finereader да анализира избраното изображение.

След това трябва да изчакате, докато програмата ABBY Finereader анализира избраните от вас изображения и разпознае текста върху тях. Времето, необходимо за анализ, зависи от броя на избраните изображения и производителността на вашия компютър.

Когато анализът на изображението приключи, се появява съобщение с бутон Затвори.

Кликнете върху бутона „Затвори“ и продължете към следващата стъпка.

Стъпка № 3. Конвертирайте сканирания документ във формат Word.

След като анализът приключи, сканираният документ може да бъде конвертиран във формат Word. За да направите това, ABBY Finereader има бутон „Запазване“.

След като щракнете върху бутона „Запазване“, ще се появи прозорец за запазване на сканирания документ в текстов формат. В този случай можете да изберете един от много текстови формати (DOC, DOCX, RTF, ODT, PDF, HTM, TXT, XLS, XLSX, PPTX, CSV, FB2, EPUB, DJVU). За да редактирате лесно документ в редактора на Word, изберете формат „Microsoft Word Document 97-2003 (*.doc)“ или формат „Microsoft Word Document (*.docx)“.

След като запазите документа във формат Word, ще се отвори текстообработваща програма и можете да започнете да редактирате сканирания документ.

Какво да направите, ако не е възможно да инсталирате програмата?

Ако нямате възможност да инсталирате описаните по-горе програми, тогава можете да използвате онлайн аналози. Най-модерната онлайн услуга от този вид е. Тази услуга ви позволява да конвертирате сканиран документ във формат Word, както и в други популярни текстови формати.

Недостатъците на ABBY Finereader Online включват факта, че тази онлайн услуга изисква регистрация и обработва безплатно само 10 страници сканиран текст. За да обработвате повече страници, трябва да закупите абонамент, който струва от $5 на месец.