Vad är abbyy finereader. Hur du använder ABBYY FineReader

Lämna en kommentar 6,950

En av de mest populära funktionerna för att arbeta med skanning och filbehandling olika typer- Bra läsare. Funktionaliteten hos mjukvaruprodukten utvecklades ryskt företag ABBYY, det låter dig inte bara känna igen utan också bearbeta dokument (översätta, ändra format, etc.). Många användare kan bara installera det, men kan inte omedelbart ta reda på hur man använder ABBYY FineReader. Du kan hitta svar på många frågor i den här artikeln.

Programmet låter dig skanna och känna igen text – med mera

För att i detalj förstå vilken typ av program ABBYY FineReader 12 är måste du överväga i detalj alla dess funktioner. Den första och enklaste funktionen är att skanna ett dokument. Det finns två skanningsalternativ: med och utan igenkänning. När vanlig skanning utskrivet ark kommer du att få bilden som du skannade till den angivna mappen på din datorenhet.

UPPMÄRKSAMHET. Arket måste placeras jämnt på den skanande delen av skrivaren, längs konturerna som anges på skrivaren. Låt inte källfilen bli sned, eftersom det kan leda till dålig kvalitet på den slutliga skanningen.

Du måste själv bestämma varför du behöver FineReader, eftersom verktyget har betydande funktionalitet, till exempel kan du självständigt välja vilken färg du vill ta emot bilden i, det är möjligt att konvertera alla bilder till svartvitt. I svartvitt går igenkänningen snabbare och kvaliteten på bearbetningen ökar.

Om du är intresserad av textigenkänningsfunktionen i ABBYY FineReader måste du trycka på en speciell knapp innan du skannar. I det här fallet finns det flera alternativ för att få information. Som standard kommer ett igenkänt ark att visas på din skärm, som du kan kopiera eller redigera manuellt.

Om du väljer andra funktioner kan du direkt ta emot filen som ett Word-dokument eller Excel-tabell. Att välja funktioner är väldigt enkelt, menyn är intuitiv och lätt att anpassa på grund av att alla knappar du behöver finns framför dina ögon.

VIKTIG. Innan ABBYY FineReader kan känna igen text måste du välja bearbetningsspråk korrekt. Trots att verktyget fungerar helt automatiskt händer det så låg kvalitet källan tillåter oss inte att förstå vilken typ av språk som fanns i källan. Detta minskar avsevärt kvaliteten på de slutliga resultaten av applikationen.

Flera driftlägen

För att till fullo förstå hur du använder ABBYY FineReader 12 måste du prova två driftslägen: "Careful" och "Quick recognition". Det andra läget är lämpligt för bilder av hög kvalitet och det första för filer med låg kvalitet. Grundläget tar 3-5 gånger längre tid att bearbeta filer.

Illustrationen visar resultatet av programmet - textigenkänning från en bild

Vilka andra funktioner finns det?

Textigenkänning i ABBYY FineReader är inte den enda användbar funktion. För större användarbekvämlighet finns det

För att kunna utnyttja ABBYY-programmet FineReader som är designad för textigenkänning från icke-redigerbara och grafiska format. Först måste du ladda ner det och installera det på din dator och titta sedan på videon nedan, allt beskrivs i detalj om det här programmet.

Detta program är utformat för att skanna text och arbete och känna igen det.

Naturligtvis kan den användas, och för att utföra denna användning kan du, utan att lämna själva Finereader-programmet, där du arbetar, känna igen texten i filen och sedan omvandla den från en skannad kopia av dokumentet till en klassiskt format, Word-program. Då kommer det att visa sig vara för ditt bruk.

Finereader är ett program för skanning och textigenkänning med export av information till populär kontorspaket. Principen att arbeta med det kan beskrivas i ett nötskal enligt följande: ta ett pappersark med tryckt text, skanna det med en skanner och få en viss grafisk fil rasterformat. Sedan, utan att lämna Finereader-programmet, känner vi igen texten i filen och nästa steg är att göra ett dokument i Word-format från den skannade kopian. Innan detta kan den igenkända texten ses och redigeras. Det resulterande Word-dokumentet kan kompletteras och redigeras ytterligare.

Abbyyfinereader-programmet är utan tvekan ledande bland liknande program.

Hon har en väldigt breda möjligheter om textigenkänning från icke-redigerbara och grafiska format.

Programmet kommer att kunna känna igen text från sådana grundläggande format som (ej redigerbar pdf, digitala format jpeg-filer, jpg, Djvu, gif, png, etc.).

Dessutom fungerar ABBYY FineReader bra med nästan alla skannermodeller.

Huvudfunktionerna i programmet är:

Skanna dokument till format: Microsoft Word, Microsoft Excel, Pdf, skanna och spara bilder, PDF eller bild till Microsoft Word, konvertera foto till Microsoft Word.

ABBYY Finereader arbetsområde:

För att lägga till ny uppgift, måste du klicka på knappen **ny uppgift**, som finns i den övre vänstra delen, arbetsyta program.

Kommer öppna fönster ny uppgift

I fönstret som öppnas måste du välja den uppgift du vill utföra.

Låt oss säga att vi har ett foto av ett dokument som vi vill konvertera till ett Microsoft Word-dokumentformat. För att göra detta i fönstret ny uppgift hitta den aktiva inskriptionen Konvertera foto till Microsoft Word och klicka på denna inskription. Kommer öppna program explorer fönster med förhandsgranskning :

Välj ett foto i fönstret som öppnas textfil som måste kännas igen och konverteras till det format du behöver.

Kommer öppna fönster med skala för igenkänningsprocess:

Efter att programmet bearbetar fotot och försöker känna igen texten.

Du kommer att se följande:

Här kan du välja området för ditt foto för textigenkänning.

När du har valt området klickar du på knappen känna igen som ligger i topp meny program. Programmet börjar konvertera det valda fotot till text. När du har bearbetat bilden klickar du på pilen bredvid knappen spara och välj önskat format för att skapa ett textdokument:

Kraftfullt och funktionellt program ABBYY FineReader, är designad för högkvalitativ skanning och noggrann igenkänning (detta beror på upplösningen som ställts in under skanning) av olika pappersmedia med tryckt text (böcker, tidskrifter, tidningar, etc.), såväl som digitala bilder.

Programmet stödjer olika språk igenkänning, kan spara i: Microsoft Word, PDF, bildformat och andra format. Eftersom programmet har ett intuitivt gränssnitt är det bekvämt att arbeta med det.

Så det första du behöver göra är att ställa in inställningarna och skanna dokument får vi en bild vars text följer programmet känna igen. Efter igenkänning kan du korrigera texten (om det finns några felaktigheter) och spara den i önskat format.

Även om framstegen inom artificiell intelligens (AI) under de senaste 50 åren inte har fört smarta maskiner ett jota närmare mänskliga kognitiva förmågor, skulle det vara orättvist att helt förneka framsteg i denna riktning. Det mest uppenbara och slående exemplet är schack (för att inte tala om enklare spel). En dator kan ännu inte imitera vårt tänkande, men den är ganska kapabel att kompensera för detta gap med en stor mängd specialiserat minne och sökhastighet. Vladimir Kramnik beskrev spelet i Deep Fritz-programmet som besegrade honom 2006 som "omänskligt" i den meningen att det ofta stred mot de etablerade (mänskliga) reglerna för strategi och taktik.

Och för drygt ett år sedan gjorde en annan idé av IBM, som en gång lade grunden för datorernas triumferande schacksegrar (den berömda Deep Blue), kallad Watson, ett nytt genombrott och besegrade två mästare i det populära amerikanska frågesporten Jeopardy med bred marginal. Det är dock betydelsefullt att även om Watson självständigt uttryckte svaren, överfördes frågorna fortfarande till honom i textform. Detta tyder på att framgångarna inom många områden av AI-applikationer - tal- och bildigenkänning, maskinöversättning - är ganska blygsamma, även om detta inte hindrar oss från att använda dem i praktiken idag. De största framgångarna kanske demonstreras av optiska teckenigenkänningssystem (OCR, Optical Character Recognition), som nästan alla PC-användare förmodligen är bekanta med på ett eller annat sätt. Dessutom, ryska utvecklingen i detta område intar de en värdig plats i världen - jag menar ABBYY FineReader.

Lite historia

Den nuvarande versionen av ABBYY FineReader är nummer 11, d.v.s. applikationen har klarat tillräckligt lång tid utveckling, och även historien om denna process är av visst intresse. Utan att låtsas vara en uttömmande krönika kommer jag bara att ge de viktigaste milstolparna under det senaste decenniet, under vilka jag mer eller mindre följt FineReader:

År	Version	Huvuddrag
2003	7.0	Ökning av igenkänningsnoggrannheten upp till 25 %. Detta återspeglades mest i tabeller, särskilt komplexa, med färgade celler, dolda avdelare, etc.
2005	8.0	Ytterligare optimering av igenkänningsalgoritmer, främst inriktade på att inte arbeta med dokumentskanning, utan med digitala fotografier. För detta ändamål fanns det ytterligare funktioner förberedelse av original (eliminering av förvrängningar, justering av linjer etc.).
2007	9.0	Framväxten av ADRT-teknik, som tar hänsyn till den logiska strukturen av hela det bearbetade (flersidiga) dokumentet och kan markera upprepade element (sidhuvuden och sidfötter), koppla ihop "flytande" objekt (tabeller), etc.
2009	10.0	Ytterligare förbättringar av ADRT och igenkänningsalgoritmer, vilket ökar bearbetningsnoggrannheten för lågupplösta original med upp till 30 %.
2011	11.0	Den huvudsakliga uppmärksamheten ägnas åt programmets hastighet. "Second Coming" av svartvitt läge, som på originalen bra kvalitet ger ytterligare acceleration upp till 30 %.

Naturligtvis utökade FineReader under samma tid stödet för dokumentformat, förbättrade inbyggda verktyg och gränssnitt, förbättrad rekonstruktion av originalens struktur etc. De markerade punkterna är dock direkt relaterade till OCR-teknik och de visar ganska väl den krampaktiga utvecklingsprocessen som är karakteristisk för komplexa kunskapsintensiva system, när det efter nästa "genombrott" följer en viss period av "tyst", nödvändig för att förbättra nya algoritmer. De representerar huvudvärdet av alla OCR-program, och därför når all detaljerad information om dem sällan användarna. Däremot gick ABBYY vänligt med på att lyfta hemlighetsslöjan, och idag har vi möjlighet att titta in i det allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allra allraararste.

Grundläggande principer

Så eftersom OCR tillhör området AI, är det logiskt att utvecklare strävar efter att åtminstone till viss del efterlikna aktiviteten i vår hjärna. Naturligtvis är strukturen i vårt visuella system otroligt komplex, men de grundläggande "stora block"-principerna för dess funktion har studerats tillräckligt, vanligtvis finns det tre av dem:

Integritet- ett föremål betraktas som en samling av dess delar och (för visuella bilder) rumsliga relationer mellan dem. I sin tur får delarna tolkning endast som en del av hela objektet. Denna princip hjälper till att bygga och klargöra hypoteser och snabbt eliminera osannolika.
Målmedvetenhet- eftersom all tolkning av data eftersträvar ett specifikt mål, är igenkänning en process för att lägga fram hypoteser om ett objekt och målmedvetet testa dem. Ett system som fungerar i enlighet med denna princip kommer inte bara att vara mer ekonomiskt beräkningskraft, men också mindre benägna att göra misstag.
Anpassningsförmåga- systemet sparar den information som samlats under drift och återanvänder den, dvs det lär sig själv. Denna princip låter dig skapa och ackumulera ny kunskap och undvika att upprepade gånger lösa samma problem.

FineReader är det enda OCR-systemet i världen som fungerar i enlighet med de principer som beskrivs ovan i alla stadier av dokumentbehandlingen. Motsvarande teknik kallas IPA- enligt de första bokstäverna i engelska termer. Till exempel, enligt principen om integritet, kommer ett fragment av en bild att tolkas som en symbol endast om alla strukturella delar finns i den liknande föremål och att vara i vissa relationer. Detta hjälper till att ersätta sökningen av ett stort antal standarder (på jakt efter en mer eller mindre lämplig sådan) med ett målinriktat test av ett rimligt antal hypoteser, som förlitar sig på tidigare ackumulerad information om de möjliga konturerna av en karaktär i ett erkänt dokument .

IPA-principer gäller dock när man analyserar inte bara fragment som motsvarar (förmodligen) enskilda tecken, utan även hela källbilden på sidan. De flesta OCR-system är baserade på igenkänning hierarkisk struktur dokument, det vill säga sidan är uppdelad i grundläggande strukturella element, såsom tabeller, bilder, textblock, som i sin tur är indelade i andra karaktäristiska objekt - celler, stycken - och så vidare, ner till enskilda tecken.

En sådan analys kan utföras på två huvudsakliga sätt: uppifrån och ned, det vill säga från beståndsdelar till enskilda tecken, eller omvänt nedifrån och upp. En av dem används oftast, men ABBYY har utvecklat en speciell algoritm MDA(dokumentanalys på flera nivåer), som kombinerar båda. Kortfattat ser det ut så här: sidans struktur analyseras med en top-down-metod, och rekonstruktionen av det elektroniska dokumentet efter att erkännandet är slutfört sker nerifrån och upp, men på alla nivåer finns det en ytterligare återkopplingsmekanism. Som ett resultat är sannolikheten för grova misstag förknippas med felaktig igenkänning av objekt på hög nivå.

ADRT

Historiskt sett har OCR-system utvecklats från att känna igen enskilda karaktärer. Denna uppgift är fortfarande den viktigaste och svåraste; komplexa algoritmer. Det blev dock snart klart att information på högre nivå (till exempel om språket i dokumentet och korrekt stavning av erkända ord) kunde hjälpa till att lösa detta problem - så här såg kontextuella kontroller och ordbokskontroller ut. Sedan lusten att bevara formateringen och återskapa fysisk struktur(dvs relativ position olika föremål) av dokumentet ledde till behovet av en detaljerad analys hel sida. Det är klart att även detta påverkar betydligt övergripande kvalité igenkänning, eftersom det hjälper till att korrekt bearbeta flerkolumnslayout, tabeller och andra tekniker för "icke-linjär" textarrangemang.

De flesta moderna OCR fungerar just på dessa tre nivåer - tecken, ord, sidor - och övar, som redan nämnts, uppifrån och ner eller nerifrån och upp-metoder. Men ABBYY, i enlighet med principerna för IPA, introducerade en annan nivå i FineReader - hela flersidiga dokumentet. Först och främst behövdes detta för korrekt reproduktion logisk struktur, som blir allt mer komplex i moderna dokument. Men det finns ytterligare bonusar: ökad noggrannhet och snabbare bearbetning av upprepade objekt, mer korrekt identifiering (och därför igenkänning) av objekt som "flödar" från sida till sida.

Det är precis därför det utvecklades ADRT(Adaptive Document Recognition Technology) - teknik för dokumentanalys och syntes på logisk nivå. I slutändan hjälper det att göra resultatet av FineReader-arbetet så likt originalet som möjligt. För att göra detta analyseras bilden av hela dokumentet och de igenkända orden kombineras i grupper (kluster) beroende på stil, miljö och plats på sidan. På detta sätt verkar programmet se "logiken" i dokumentuppmärkningen och kan därefter förena designen av resultatet.

Tack vare ADRT har FineReader, från och med version 9.0, lärt sig att detektera, känna igen och reproducera följande strukturella delar och dokumentformateringselement:

huvudtext;
sidhuvuden och sidfötter;
sidnummer;
rubriker på samma nivå;
innehållsförteckning;
textinlägg;
bildtexter för teckningar;
bord;
fotnoter;
signatur-/förseglingszoner;
typsnitt och stilar.

Erkännandeprocess

I enlighet med MDA-algoritmen börjar den faktiska igenkänningen från topp till botten, från sidnivå. Det är klart att ju fler felaktiga beslut som fattas i de tidiga stadierna av denna process, desto fler kommer det att bli i de efterföljande. Det är därför igenkänningsnoggrannheten beror så mycket på kvaliteten på originalen, men deras förbearbetningsalgoritmer kan också ha en betydande inverkan. Allteftersom färgdokumentens popularitet växte i FineReader, uppträdde en adaptiv binariseringsprocedur. AB). Om du skannar direkt in svartvitt läge dokument, där det finns vattenstämplar eller texten är placerad på ett textur- eller färgsubstrat, kommer alltid "skräp" att dyka upp på bilden, vilket då blir ganska svårt att separera från den "användbara" bilden (eftersom bakgrundsinformation om honom är redan förlorad). Det är därför FineReader föredrar att arbeta med färg- eller gråskalebilder och konverterar dem oberoende till svartvitt (denna process kallas binarisering). Men det är inte allt. Eftersom färgerna på texten och bakgrunden kan variera inom sidan och även inom enskilda rader, identifierar AB ord med mer eller mindre samma egenskaper och väljer de optimala binariseringsparametrarna för vart och ett ur synpunkten av igenkänningskvalitet. Detta är just adaptiviteten hos algoritmen, som därför är ett exempel på användningen av feedback i MDA. Det är tydligt att effektiviteten hos AB starkt beror på utformningen av källdokumenten - på ABBYYs testbas gav denna algoritm en ökning av igenkänningsnoggrannheten med 14,5 %.

Men det mest intressanta börjar förstås när igenkänningsprocessen sjunker till de lägsta nivåerna. Den så kallade linjära divisionsproceduren delar upp rader i ord och ord i enskilda bokstäver; sedan, i enlighet med IPA-principen, bildar den en uppsättning hypoteser (dvs. möjliga alternativ vilken typ av symbol det är, vilka symboler ordet är uppdelat i, etc.) och, förse var och en med en sannolikhetsuppskattning, skickar den vidare till ingången av teckenigenkänningsmekanismen. Den senare består av ett antal sk klassificerare, som var och en också genererar ett antal hypoteser rangordnade efter deras förväntade grad av sannolikhet. Den viktigaste egenskapen av varje klassificerare är medelpositionen för den korrekta hypotesen. Det är klart att ju högre den är, desto mindre jobb för efterföljande algoritmer - till exempel ordbokskontroll. Men för tillräckligt väletablerade klassificerare bedöms oftast egenskaper som igenkänningsnoggrannhet baserad på de tre första hypoteserna eller endast på den första - det vill säga, grovt sett, förmågan att gissa rätt svar i tre eller ett försök. ABBYY använder följande typer av klassificerare i sina system: raster, feature, feature differential, contour, strukturell och strukturell differential – som är grupperade på två logiska nivåer.

Funktionsprincip RK, eller rasterklassificerare, är baserad på en pixel-för-pixel-jämförelse av en teckenbild med standarder. De senare bildas som ett resultat av medelvärdesbildande bilder från träningssetet och reduceras till en viss standardform; Följaktligen är även storleken, tjockleken på elementen och lutningen förnormaliserade för den igenkända bilden. Denna klassificerare kännetecknas av enkel implementering, drifthastighet och motstånd mot bilddefekter, men ger relativt låg noggrannhet och det är därför den används i det första steget - för att snabbt generera en lista med hypoteser.

Funktionsklassificerare ( PC), som namnet antyder, är baserat på närvaron av tecken på en viss symbol i bilden. Om det finns N sådana egenskaper totalt, så kan varje hypotes representeras av en punkt i det N-dimensionella rummet; följaktligen kommer noggrannheten av hypotesen att bedömas av avståndet från den till den punkt som motsvarar standarden (som också utvecklas på träningsprovet). Det är tydligt att typerna och antalet funktioner till stor del bestämmer kvaliteten på igenkänningen, så det finns vanligtvis ganska många av dem. Denna klassificerare är också relativt snabb och enkel, men är inte särskilt robust mot olika bilddefekter. Dessutom fungerar PC:n inte med originalbilden, utan med en viss modell, en abstraktion, det vill säga, den tar inte hänsyn till en del av informationen: säg, själva faktumet av närvaron av några viktiga element säger inte något om deras relativa position. Av denna anledning används PC:n inte istället för, utan tillsammans med RK.

Konturklassificerare ( QC) är ett specialfall av PC och skiljer sig genom att den analyserar konturerna av den avsedda karaktären extraherad från originalbilden. I allmänhet är dess noggrannhet lägre än för en fullfjädrad PC.

Fun( MPC) liknar också PC, men används endast för att skilja mellan liknande objekt som "m" och "rn". Följaktligen analyserar den endast de områden där skillnader är dolda, och den tar emot som indata inte bara originalbilderna utan också hypoteser som skapats i de tidiga stadierna av igenkänning. Principen för dess funktion skiljer sig dock något från en PC. På träningsstadiet bildas två "moln" (grupper av poäng) med möjliga värden för vart och ett av de två alternativen i det N-dimensionella rymden, sedan konstrueras ett hyperplan som skiljer "molnen" från varandra och är ungefär lika långt från dem. Igenkänningsresultatet beror på vilket halvrum punkten som motsvarar originalbilden hamnar i.

MPC själv lägger inte fram hypoteser, utan förfinar bara befintliga (vars lista i allmänhet sorteras med hjälp av bubbelmetoden), så att en direkt bedömning av dess effektivitet inte görs, utan indirekt likställs med egenskaperna hos hela första nivån av OCR-igenkänning. Det är dock tydligt att det beror på riktigheten av de valda funktionerna och representativiteten hos urvalet av standarder, vilket säkerställer att det är en ganska arbetsintensiv uppgift.

Strukturell differentialklassificerare ( KFOR) användes ursprungligen för att bearbeta handskrivna texter. Dess uppgift är att skilja mellan liknande objekt som "C" och "G". Således är SDK baserad på egenskaper som är karakteristiska för varje teckenpar, dess inlärningsprocess är ännu mer komplex än den för MDC, och dess driftshastighet är lägre än för alla tidigare klassificerare.

Strukturell klassificerare ( SK) är en källa till stolthet för ABBYY, den utvecklades ursprungligen för att känna igen så kallad handskriven text, det vill säga när en person skriver med "tryckta" bokstäver, men användes senare för utskrift. Den används i slutskedet av erkännande och träder i kraft ganska sällan, nämligen först när minst två hypoteser med tillräckligt höga sannolikheter når fram.

De kvalitativa egenskaperna för alla klassificerare finns samlade i följande tabell. De tillåter dock bara en att utvärdera effektiviteten av algoritmerna i förhållande till varandra, eftersom de inte är absoluta, utan erhålls baserat på bearbetningen av ett specifikt testprov. Det kan tyckas som om kampen i de sista stadierna av igenkänning bokstavligen handlar om en bråkdel av en procent, men i själva verket ger varje klassificerare ett betydande bidrag till att öka igenkänningsnoggrannheten - till exempel minskar SC antalet fel med en märkbar 20 %.

	RK	PC	QC	MPC*	KFOR**	SK**
Noggrannhet för de tre första alternativen, %	99,29	99,81	99,30	99,87	99,88	-
Noggrannhet enligt det första alternativet, %	97,57	99,13	95,10	99,26	99,69	99,73

* utvärdering av hela första nivån i ABBYY OCR-algoritmen
** utvärdering för hela algoritmen efter att ha lagt till lämplig klassificerare

Det är dock konstigt att, trots den ganska höga noggrannheten, inte igenkänningsalgoritmen själv accepterar slutgiltigt beslut. I enlighet med MDA-principen läggs hypoteser fram på varje logisk nivå, och deras antal kan växa exponentiellt. Följaktligen är sekventiell testning av alla hypoteser osannolikt effektiv, och därför använder ABBYY OCR-system metoden för att strukturera hypoteser, det vill säga att tilldela dem till en eller annan modell. Det finns ett par dussin av de senare, här är bara några av deras typer: ordboksord, icke-ordboksord, arabiska siffror, romerska siffror, URL, reguljära uttryck - och var och en kan innehålla många specifika modeller(till exempel ett ord på ett av de kända språken, latin, kyrilliska, etc.).

Alla slutliga åtgärder utförs med hypoteser byggda med hjälp av modeller. Till exempel kommer kontextkontroll att avgöra språket i dokumentet och omedelbart minska sannolikheten för att modeller använder felaktiga alfabet, och ordbokskontroll kommer att kompensera för fel vid osäker igenkänning av vissa tecken: till exempel finns ordet "turn" i Engelsk ordbok - till skillnad från "tum" (i alla fall är den inte bland de populära). Även om ordbokens prioritet är högre än för någon klassificerare, är den inte nödvändigtvis den sista utvägen och stoppar i allmänhet inte ytterligare kontroller: för det första finns det, som nämnts ovan, en modell av ett ord som inte finns i lexikon, och för det andra , den speciella organisationen av ordböcker tillåter med en hög procentuell sannolikhet att gissa om något okänt ord kan tillhöra ett visst språk. Ordbokskontroll (och ordböckers fullständighet) har dock en betydande inverkan på igenkänningsresultatet, och i ABBYY:s egna tester minskar det antalet fel med nästan hälften.

Inte bara OCR

Tryckta dokument är långt ifrån de enda av intresse ur sin digitaliseringssynpunkt och automatisk bearbetning. Ganska ofta måste man arbeta med formulär, det vill säga dokument med fördefinierade och fasta fält som fylls i manuellt, men relativt noggrant (så kallade handtryckta tecken) - ett exempel är olika frågeformulär. Tekniken för deras bearbetning har ett separat namn - ICR(intelligent karaktärsigenkänning) - och skiljer sig ganska markant från OCR. Ja, sedan in I detta fall Eftersom uppgiften inte är att återskapa hela dokumentet, utan att extrahera specifik data från det, delas den upp i två huvudsakliga deluppgifter: att hitta de obligatoriska fälten och att faktiskt känna igen deras innehåll.

Detta är ett ganska specifikt område, och ABBYY erbjuder ett helt separat programvara ABBYY FlexiCapture. Den är avsedd för att skapa automatiserade och halvautomatiska system och involverar installation specifika typer dokument för vilka speciella mallar skapas, kan intelligent hitta olika fält på sidor och verifiera data i dem, etc. Men i själva kärnan finns teckenigenkänningsalgoritmer liknande de som används i FineReader, och allmän ordning väldigt lik:

Dock, viktig skillnadändå finns det: den strukturella klassificeraren är en obligatorisk deltagare i processen - detta beror på detaljerna hos handtryckta symboler. Dessutom antar ICR stort antal specifik ytterligare kontroller: Till exempel om tecknet är överstruket eller om de igenkända tecknen faktiskt bildar ett datum.

Så vi har FineReader installerat på vår dator. Vi slår på skannern och digitaliserar något flersidigt dokument. Låt oss kalla det, villkorligt, "Avtal".

Placera den första sidan av dokumentet på skannerglaset och stäng locket. Starta programmet FineReader. Klicka på knappen "Skanna" eller tryck på kombinationen "Ctrl+K". Fönstret "ABBYY FineReader Scanning" öppnas. Vid digitalisering av vanliga textsida skrivs i 11-12 punkters teckensnitt, lämna inställningarna i standardfönstret och klicka på knappen "Visa".

Skannern fungerar och efter några sekunder ser vi vår sida i visningsfönstret. Här kan vi ändra storleken på skanningen om det behövs. Och klicka sedan på knappen "Skanna".

FineReader påbörjar textigenkänningsprocessen och inom en minut öppnas sidbilden i programfönstret. Den högra sidan av fönstret är nu uppdelad i tre sektioner. I det vänstra avsnittet "Bild" kan vi redigera bilden. Du kan läsa mer om bildredigering i lektionen: Skanna en bok. I det högra avsnittet "Text" kan du omedelbart göra ändringar i texten - redigera sidans innehåll även innan du sparar den. Detta är mycket praktiskt när du till exempel snabbt behöver ändra datum, detaljer och efternamn i ett dokument.

En ikon för den igenkända sidan visas i den vänstra delen av fönstret "Sidor":

Om du inte behöver redigera något, byt ut den första sidan på skannerglaset med den andra sidan och upprepa tekniken. Efter att ha justerat skanningsstorlekarna en gång i fönstret "ABBYY FineReader Scanning" i läget "Förhandsgranska" för första sidan, klicka nu omedelbart på knappen "Skanna". Inställningarna för den första sidan sparas och efterföljande sidor skannas utan förhandsgranskning. Så vi skannar alla sidor i vårt dokument.

Vi har gjort klart och nu, genom att klicka på ikonerna en efter en, öppnar vi sidorna och kontrollerar deras rätta ordning.

Efter det, i den vänstra delen av "Sidorna"-fönstret, välj alla ikoner med knappen: "Redigera - Välj alla" eller med kortkommandot: "Ctrl + A". Välj sedan kommandot i rullgardinsmenyn bredvid knappen "Spara": "Spara som PDF-dokument":

Klicka nu på själva knappen och spara dokumentet med namnet "Agreement.pdf" i mappen "Agreement":

Som ett resultat får vi ett flersidigt textdokument i pdf-format - elektronisk version vårt dokument från kodnamn"Avtal".

Så vi digitaliserar textdokument med FineReader.

Genom att ändra skanningsläget till "färg" i fönstret "ABBYY FineReader Scanning" kan vi också enkelt digitalisera färgbilder och fotografier.

Och genom att fråga in innehållsmeny, till exempel, kommandot: "Spara som Microsoft Word 2007-dokument" kommer att förvandla vårt projekt till ett enda flersidigt redigerbart Word-dokument.

I allmänhet är programmet lätt att förstå, intuitivt och har popup-tips överallt.

Samtalet kommer att handla om programmet ABBYY FineReader 12, det vill säga om dess senaste version. Utan att titta för långt valde vi den mest kända produkten från ABBYY, som till sina fördelar är perfekt russifierad. Redan vid första anblicken ger Fine Reader (FR) intrycket av ett program med bra ryskspråkigt stöd: i detta avseende görs verkligen allt på en mycket anständig nivå, inklusive bakgrundsinformation.

Först - reträtt. Frågan om hur man konverterar hela eller delar av ett arkiv till digitalt format är alltid relevant (och vad som egentligen menas med ordet "digitalt"). Att köpa en skanner kommer sannolikt inte att lösa alla problem. Naturligtvis kommer mycket ofta dokumentationen för skannern med en skiva eller flera med märkesvaror programvara. Men redan vid saneringsstadiet visar det sig att kvaliteten på skanningsprogrammet lämnar mycket övrigt att önska eller att formatet som besparingen sker i är tyvärr inte lämpligt för lagring. Varför? De flesta grafiska format skiljer inte text från dokumentets icke-textutrymme, och därför är det inte möjligt att kopiera någon passage från en sådan fil.

Det är i sådana fall som funktionella textigenkänningsprogram kommer till undsättning, vars möjligheter i synnerhet inkluderar att extrahera text från en bild.

Lär känna ABBYY FineReader

Plastpåse ABBYY Finereader 12- Optical Character Recognition (OCR) system. Designad för båda automatisk inmatning utskrivna dokument till en dator, samt för att konvertera PDF-dokument och fotografier till redigerbara format (från programmanualen)

Förkortningen "OCR" är tillämplig på alla dataigenkänningsapplikationer (inte bara text). Källan för dataextraktion kan skrivas ut eller elektroniskt dokument. En gång i tiden, för inte så länge sedan, var det få som kände till OCR, i en eller annan form, och processen att konvertera text till elektronisk form förvandlades till en ren rutin, ända ner till manuell omtryckning av originaltexten. Idag har flatbäddsskanner(bara ett fåtal använder manuella sådana hemma) och finereader 12- Du kan vara säker på att det inte kommer att finnas några svårigheter med att skanna och känna igen.

Från och med den sjätte versionen stöder FineReader import och export till PDF-format, patenterad av Adobe. Många läsare har förmodligen stött på svårigheter med att översätta från det här formatet till något annat (doc, etc.), eftersom det inte finns så många riktigt användbara program inom detta område (det enda som är värt att uppmärksammas är ABBYYs dotterbolag, PDF Transformer). Faktum är att liknande program textigenkänning utförs endast en gång, vilket resulterar i att resultatets "identitet" inte alls är signifikant (beroende på dokumentets komplexitet), plus att formateringen av dokumentet är ganska mycket förlorad.

När det gäller FineReader är allt annorlunda. Den nionde versionen av programmet introducerar en teknik som kallas Document OCR. Den är baserad på principen om integrerad dokumentigenkänning: den analyseras och erkänns som en helhet och inte sida för sida. Samtidigt förblir alla typer av kolumner, rubriker, typsnitt, stilar, fotnoter och bilder orörda eller ersätts av de som ligger nära originalet.

Installerar paketet

Demoversionen av Finereader 12 kan laddas ner på webbplatsen Abbyy.ru, i avsnittet Ladda ner, komplett licensierad version distribueras på CD. Du kan ta reda på om köpmetoder på samma webbplats i avsnittet "Köp".

På ABBYYs utvecklarwebbplats kan du ladda ner demoversion ABBYY FineReader-paketet version 12 (eller en annan aktuell)

ABBYY FineReader distribueras i flera versioner: Professional Edition, Corporate Edition, Site License Edition, etc. Skillnaden mellan Professional-versionen och de andra är att den är designad för att fungera i ett företagsnätverk med förmågan samarbete om dokumentigenkänning. Annars är skillnaden obetydlig och beror på valet av villkor i licensavtalet.

Det är svårt att föreställa sig att det för 12 år sedan fanns FineReader 2.0, som upptog cirka 10 MB disk utrymme. Med tiden har paketet tiodubblats och tar nu, när det är installerat, upp till 300 MB. Är det mycket eller lite – bedöm själv. Den nya FR stöder 179 igenkänningsspråk, inklusive föga kända konstgjorda språk (Ido, Interlingua, Occidental och Esperanto), programmeringsspråk, formler etc. Låt oss inte glömma stödet för olika format och skript. Så om du av någon anledning vill begränsa utrymmet som ett paket tar upp, välj under installationen endast de komponenter som kommer att behövas under drift.

Valet av komponenter påverkar installationens varaktighet, vilket dock inte bör ta mycket tid. Under installationsprocessen kommer du att introduceras till huvudfunktionerna i FR. Efter aktivering (via Internet, via e-post, med den mottagna koden etc.) är programmet redo för full funktionalitet. I demoläget kommer du säkert att stöta på olika begränsningar som tyvärr inte tillåter dig att använda paketet fullt ut.

FineReader-gränssnitt. Funktionalitet

Åtkomst till programmets funktioner är tillgänglig både via skript som kommer att visas i huvudmenyn direkt efter installationsprocessen, och faktiskt genom huvudgränssnittet.

Skärmsläckare när du startar FineReader

Utseende programmet genomgår inga betydande förändringar från version till version: utvecklarna ser inte poängen med att radikalt ändra det. Stor uppmärksamhet ägnas åt ergonomi, vilket märks i alla ABBYY-produkter (Lingvo, PDF Transformer, FlexiCapture...). Fine Reader 12-gränssnittet är med andra ord genomtänkt och passar alla användare, inklusive nybörjare. Principen "Få resultat med ett klick" kommer att tilltala dem som inte är vana vid att ställa in och ändra något. Å andra sidan, mer erfarna användare kan noggrant konfigurera FineReader genom inställningsdialogrutan (Verktyg -> Alternativ...). Den enda varningen: för bekvämt arbete i applikationen är det lämpligt att ställa in skärmupplösningen till 1280×800, så att alla verktyg alltid, som de säger, finns till hands.

Efter att ha startat programmet Fine Reader kommer ett fönster med knappar att visas snabb åtkomst att programmera funktioner. Den här menyn är också tillgänglig via menyn Verktyg -> ABBYY FineReader, knappen "Huvudskript" längst till höger i programmet, eller genom tangentkombinationen Ctrl+N (liknar Word, där denna kombination öppnar ett nytt dokument) .

Skanna till Microsoft Word: i den nionde versionen av FineReader dök stöd för Microsoft Word 2007, som ännu inte har blivit populärt, i sin tur på verktygsfältet i applikationer Microsoft Office, i tilläggssektionen efter installation av FR, visas en "märkt" röd ikon.

Meny för export av ett igenkänt FineReader-dokument

Välja språk för skanning och dokumentigenkänning

Förutom Microsoft Office stöder FR integration med Microsoft Outlook, tillhandahåller export av igenkänningsresultat till samma Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect och Adobe Acrobat. Dessa funktioner gör att arbeta med programmet något enklare och snabbare, speciellt om du måste arbeta med det regelbundet.

PDF eller bilder i Microsoft Word: känna igen data från en PDF eller annan typ av grafikfil som stöds av Finereader version 12. Det bör noteras att tekniken för att extrahera text från en PDF-fil i FR inte bara är att "skala bort" textinnehållet (textlagret i PDF kan saknas) från det grafiska. I själva verket är igenkänningstekniken ganska komplicerad: efter att ha analyserat innehållet i dokumentet bestämmer programmet vad och hur man ska göra med texten: helt enkelt extrahera eller känna igen, och så vidare för varje textfragment.

Skanna till Microsoft Excel: skanna till XLS (format Microsoft-program Excel) kan motiveras om den skannade bilden innehåller tabeller.

Skanna till PDF: Det finns många anledningar till att skanna till PDF. En av dem är säkerhet: detta är det enda format som FR känner till i vars inställningar du kan ställa in ett lösenordslås. Lösenordet ställs inte bara in för att öppna ett dokument, utan också för att skriva ut det och andra åtgärder. Det är möjligt att välja en av tre krypteringsnivåer: 40-bitars, 128-bitars baserad på RC4-standarden, 128-bitars nivå baserad på AES-standarden (Advanced Encryption Standard).

Konvertera foto till Microsoft Word:överföra filen från grafiskt format(och detta kan vara en PDF eller en flersidig bild) i DOC / DOCX.

Öppna i Fine Reader:öppna en grafikfil (PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG) för FineReader-igenkänning.

Jobbar i FineReader

Nu - kort om funktionerna i programmet. Hela processen är uppdelad i att skanna, identifiera och spara resultaten. Efter att du har valt typ av programåtgärd, specificerat filen eller enheten som ska skannas, utför FineReader sin uppgift steg för steg, vilket för övrigt är ganska resurskrävande för den centrala processorn.

Om du är den lyckliga ägaren till en dubbelkärnig processor kan du genom att arbeta i Fine Reader 12-paketet uppskatta kraften i din dators prestanda. Faktum är att FR, efter att ha upptäckt en dubbelkärnig processor, känner igen inte en utan två sidor av ett dokument parallellt. Det är en liten sak, men det är trevligt.

Först kommer skanning, sedan igenkänning och export av ett temporärt dokument till det valda formatet.

Process för PDF-dokumentigenkänning

Läser in. Ingen förinställningar i FineReader-applikationen (förutom att välja en läsenhet) behöver du inte göra något innan du skannar. Det är därför manus uppfanns: de är designade för att förenkla utförandet av liknande åtgärder.

Erkännande. Förenklingen påverkade även andra småsaker. Så, om vi minns tidigare versioner av programmet, innan vi var tvungna att manuellt ändra språket (språk, om det fanns flera) i dokumentet. Nu sker detta automatiskt, men inte alltid. I det senare fallet föreslår FR diskret att man kontrollerar dokumentspråket.

Återgå till FR-igenkänningsteknik: varför skannar programmet först hela dokumentet som helhet och inte sida för sida? Som redan nämnts känns texten igen utifrån hela innehållet: typsnitt av liknande storlek/typsnitt, tabeller och ramar, indrag etc. väljs.

Bli inte förvånad om FineReader-programmet 12 kommer att visa ett meddelande som säger att sidan inte kan kännas igen eftersom inga textområden hittades. För experimentets skull tog vi bilder på mobiltelefon från LCD-skärmen området för ett textdokument (men att veta resultatet i förväg). Fine Reader 12 kände inte igen texten i bilden, eftersom den uppenbarligen var av en kvalitet som uppenbarligen inte var tillräcklig för detta. Vid vårt andra besök tog vi ett foto digitalkamera sida med text i normal belysning.

FineReader kände igen stycket utan problem, bevarade formateringen och markerade några tvivelaktiga ögonblick eller tecken som kan ha varierande stavning med markörer.

Som du kan se på bilden är det huvudsakligen punkter, bindestreck, kommatecken - i allmänhet små tecken. Dessutom är det tydligt att programmet tog hänsyn till ojämnheten och krökningen på den fotograferade sidan och justerade textraderna. Slutsats - FR gjorde ett utmärkt jobb med sin om än inte särskilt svåra uppgift.

Ibland kan vissa mindre problem förbli obemärkta av programmet Fine Reader, men de kan enkelt korrigeras manuellt. Lyckligtvis har paketet sin egen WYSIWYG-redigerare, vars möjligheter är ganska tillräckliga för att göra den slutliga redigeringen av dokumentet. Stavningskontroll är också tillgänglig.

Hur kan vi förbättra igenkänningsnoggrannheten så att vi kan lägga mindre tid på att redigera text? För det första kan du ansluta en anpassad Microsoft ordbok Ord. Det är sant att det är svårt att bedöma en ökad noggrannhet, förutom kanske en ökning ordförråd stavningskontroll (en modul som kontrollerar stavning och grammatik). Bland annat, för att förbättra igenkänningen, är det vettigt att bekanta dig med programinställningarna (Verktyg -> Alternativ) och välja ett av två lägen:

noggrant igenkännande- det kan väljas när du känner igen dokument av vilken "komplexitet" som helst: med tabeller utan rutnätslinjer, text, grafer, tabeller på en färgad bakgrund, etc. Det kan också hjälpa till med lågkvalitativ igenkänningskälla

snabbt igenkännande - detta läge rekommenderas för bearbetning av stora volymer dokument med enkel design eller om tiden inte tillåter ett grundligt erkännande. I de flesta fall, när du har svart tryckt text på vit bakgrund, kan du nöja dig med snabb igenkänning.

I allmänhet är förbättring av kvaliteten på arbetet med FineReader ett separat ämne för konversation, vars detaljer du kan lära dig från den officiella hjälpen, nämligen i avsnittet "Hur man förbättrar de erhållna resultaten."

Sparar dokumentet. Sista steget arbeta i programmet Fine Reader 12 - spara slutresultatet i ett specifikt grafik-/textformat. Förspara-inställningar kan anges i FR-alternativen: Verktyg -> Alternativ, fliken "Spara". Varje format har sina egna inställningar. När du sparar i DOCX-format bör du vara försiktig med formatkompatibilitet (DOCX-filer känns inte igen i Word 2003<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

ABBYY Skärmbildsläsare

I många stora paket gillar utvecklare ofta att lägga till små tjänsteverktyg. Låt oss säga att det välkända skivbränningsprogrammet Nero innehåller en uppsättning med 3 - 5 verktyg som låter dig göra något som inte ens Nero själv kan göra. Recension (du kan också ladda ner den här som en del av Fine Reader 12).

När det gäller FineReader, innehåller den en liten applikation, Screenshot Reader. Med dess hjälp kan du snabbt konvertera den till önskat format med FR. Programmet är tillgängligt via Start-menyn (Start -> Alla program -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Funktionerna hos Screenshot Reader är något bredare än vad det kan tyckas vid första anblicken. (annars kan du göra det genom att helt enkelt trycka på "PrintScreen"-tangenten på ditt tangentbord). Förutom att ta en skärmdump av skärmen (eller mer exakt, ett valt område på skärmen), är Screenshot Reader tätt integrerad med FR.

När du klickar på knappen "Snapshot" på panelen Screenshot Reader ändrar markören form och verktyget för val av skärmområde aktiveras. Det valda området av bilden ramas in för ytterligare textigenkänning (det körs automatiskt).

I rullgardinsmenyn kan du välja önskad åtgärd: i själva verket duplicerar Screenshot Reader de snabba FR-skripten med skillnaden att istället för en skärmdump från skannern tas en skärmdump emot som indata.

Det bör noteras att programmet, tillsammans med hela paketet, kräver aktivering. När du registrerar produkten tillhandahålls ABBYY FineReader 12 Professional Edition Screenshot Reader gratis som en "bonus".

Slutsats

FineReader - oumbärligt program för att skanna och känna igen grafiska data. Ryskspråkigt gränssnitt och tillgängligheten av inställningar kommer inte att skrämma bort en oerfaren användare. Stöd för de senaste formaten, innovativa tekniker och som ett resultat gör högkvalitativ igenkänning programmet till det optimala valet, särskilt eftersom ABBYY FineReader fortfarande inte har några konkurrenter på detta område.

FineReader 12 snabbtangenter

Skapa nytt dokument ABBYY FineReader- CTRL +N
Öppna ABBYY FineReader-dokument 12 - CTRL +SKIFT+N
Spara sidor- CTRL +S
Spara bild till fil- CTRL +ALT+S
Känner igen alla sidor i ett dokument- CTRL + SHIFT + R
Stänga nuvarande sida - CTRL +F4
Känn igen valda sidor i ett ABBYY FineReader-dokument- CTRL + R
Öppna Scenario Manager- CTRL +T
Öppna dialogrutan Fine Reader Options- CTRL + SHIFT + O
Öppna hjälp- F1
Gå till dokumentfönstret- ALT +1
Gå till bildfönstret- ALT +2
Gå till textfönstret- ALT +3
Gå till fönster Närbild- ALT +4