Skanado kaj OCR

Bonan tagon

Probable ĉiu el ni alfrontis la taskon kiam vi bezonas traduki paperan dokumenton en elektronika formo. Ĉi tio estas precipe necesa por tiuj, kiuj studas, laboras kun dokumentaro, tradukas tekstojn uzante elektronikajn vortarojn, ktp.

En ĉi tiu artikolo mi ŝatus dividi kelkajn el la fundamentoj de ĉi tiu procezo. Enerale skanado kaj teksta rekono estas sufiĉe da tempo, ĉar plej operacioj devas esti faritaj permane. Ni provos kompreni, kiel kaj kiel.

Ne ĉiuj tuj komprenas unu aferon. Post skanado (konvene al ĉiuj folioj en la skanilo) vi havos bildojn de la formato BMP, JPG, PNG, GIF (eble ekzistas aliaj formatoj). Do de ĉi tiu bildo vi devas akiri la tekston - ĉi tiu proceduro nomiĝas rekono. En ĉi tiu ordo, kaj estos prezentita sube.

La enhavo

  • 1. Kio estas bezonata por skanado kaj rekono?
  • 2. Teksto-skanado ebloj
  • 3. Rekono de la teksto de la dokumento
    • 3.1 Teksto
    • 3.2 Bildoj
    • 3.3 Tabeloj
    • 3.4 Necesaj Eroj
  • 4. Rekono de dosieroj PDF / DJVU
  • 5. Eraro kontrolanta kaj ŝparante laborajn rezultojn

1. Kio estas bezonata por skanado kaj rekono?

1) Skanilo

Por traduki presitajn dokumentojn en tekston, vi unue bezonas skanilon kaj laŭe "denaskajn" programojn kaj ŝoforojn, kiuj akompanis ĝin. Kun ili vi povas skani la dokumenton kaj konservi ĝin por plua prilaborado.

Vi povas uzi aliajn analogojn, sed la programoj kun la skanilo en la ilaro kutime funkcias pli rapide kaj havas pli da ebloj.

Depende de kia skanilo vi havas - la labora rapido povas signife varii. Ekzistas skaniloj, kiuj povas akiri bildon de folio en 10 sekundoj, estas iuj, kiuj ricevos ĝin en 30 sekundoj. Se vi skanas libron sur 200-300 tukoj - mi opinias, ke ne estas malfacile kalkuli, kiom da fojoj estos diferenco en la tempo?

2) Programo por rekono

En nia artikolo mi montros al vi la laboron en unu el la plej bonaj programoj por skanado kaj rekonado absolute de ĉiuj dokumentoj - ABBYY FineReader. Ekde la programo estas pagata, kaj tuj mi donos ligon al alia - ĝia libera analogaĵo de la Formo Cunei. Vere, mi ne komparus ilin, ĉar FineReader gajnas laŭ ĉiuj aspektoj, mi rekomendas provi ĝin tute same.

ABBYY FineReader 11

Oficiala retejo: //www.abbyy.ru/

Unu el la plej bonaj programoj tiaj. I estas desegnita por rekoni la tekston en la bildo. Konstruita multaj opcioj kaj ecoj. I povas analizi multajn tiparojn, eĉ subtenas manskribitajn versiojn (kvankam mi ne provis ĝin, mi opinias, ke estas bone apenaŭ rekoni la manskriban version, krom se vi havas perfektan kaligrafan manskribon). Pli da informoj pri labori kun ŝi estos diskutitaj sube. Ni rimarkas ankaŭ ĉi tie, ke la artikolo kovros la verkon en programaj versioj.

Kutime diversaj versioj de ABBYY FineReader ne tre malsamas unu de la alia. Vi povas facile fari la samon en la alia. La ĉefaj diferencoj povas esti en la komforto, rapideco de la programo kaj ĝiaj kapabloj. Ekzemple, pli fruaj versioj rifuzas malfermi PDF-dokumenton kaj DJVU ...

3) Dokumentoj por skani

Jes, do ĉi tie, mi decidis elpreni la dokumentojn en aparta kolumno. Plejofte, skani iujn lernolibrojn, gazetojn, artikolojn, revuojn, ktp. Ie tiuj libroj kaj la literaturo postulata. Al kio mi gvidas? De persona sperto, mi povas diri, ke multe da tio, kion vi volas skani, eble jam estas en la reto! Kiom da fojoj mi persone ŝparis tempon, kiam mi trovis libron aŭ alian jam skanita en la reto. Mi nur devis kopii la tekston en la dokumenton kaj daŭrigi ĝin.

De ĉi tiu simpla konsilo - antaŭ ol skani ion, kontrolu ĉu iu jam esploris kaj vi ne bezonas malŝpari vian tempon.

2. Teksto-skanado ebloj

Ĉi tie, mi ne parolos pri viaj ŝoforoj por la skanilo, la programoj kunigitaj, ĉar ĉiuj skaniloj-modeloj estas malsamaj, programoj ankaŭ estas malsamaj ĉie kaj diveni kaj eĉ pli klare montri kiel plenumi la operacion estas nerealisma.

Sed ĉiuj skaniloj havas la samajn agordojn, kiuj multe influas la rapidecon kaj kvaliton de via laboro. Ĉi tie pri ili mi nur parolos ĉi tie. Mi listigos en ordo.

1) Skala kvalito - DPI

Unue, agordu la skansian kvaliton en la opcioj ne pli malaltaj ol 300 DPI. Estas konsilinde eĉ meti iom pli, se eble. Ju pli alta la DPI-indikilo estas, des pli klara via bildo rezultos, do plua prilaborado okazos pli rapide. Krome, des pli granda estas la kvalito de la skanado - des malpli multe da eraroj vi poste korektos.

La plej bona elekto, kutime 300-400 DPI.

2) kromateco

Ĉi tiu parametro multe influas la skanadon (tamen ankaŭ DPI efikas, sed ili estas tiel fortaj, kaj nur kiam la uzanto valorigas grandajn valorojn).

Kutime estas tri reĝimoj:

- nigra kaj blanka (perfekta por simpla teksto);

- griza (taŭga por teksto kun tabloj kaj bildoj);

- koloro (por koloraj revuoj, libroj ĝenerale dokumentoj, kie koloro gravas).

Kutime la tempo de skanado dependas de la elekto de koloro. Post ĉio, se vi havas grandan dokumenton, eĉ la ekstraj 5-10 sekundoj en la tuta paĝo rezultos en deca tempo ...

3) Fotoj

Vi povas ricevi la dokumenton ne nur per skanado, sed ankaŭ per foto de ĝi. Kutime, ĉi-kaze vi havos kelkajn aliajn problemojn: bilda distordo, neklara. Pro ĉi tio, ĝi povas postuli pli longan pluan redaktadon kaj prilaboradon de la ricevita teksto. Persone, mi ne rekomendas uzi fotilojn por ĉi tiu komerco.

Gravas noti, ke ne ĉiu tia dokumento estos rekonita, ĉar skanado kvalito povas esti ekstreme malalta ...

3. Rekono de la teksto de la dokumento

Ni supozas, ke la karaj paĝoj skanitaj vi ricevis. Plej ofte ili estas formatoj: tif, bmb, jpg, png. Enerale, por ABBYY FineReader - ĉi tio ne tre gravas ...

Post malfermo de la bildo en ABBYY FineReader, la programo, kiel kutime, sur la maŝino komencas elekti areojn kaj rekonas ilin. Sed foje ŝi faras tion malĝuste. Por tio ni konsideras la elekton de la dezirataj areoj permane.

!I estas grava! Ne ĉiuj tuj komprenas, ke post malfermo de dokumento en la programo, la fonta dokumento estas montrita maldekstre en la fenestro, en kiu vi reliefigas malsamajn areojn. Post alklako sur la butono "rekono", la programo en la dekstra fenestro alportos al vi la finitan tekston. Post agnosko, cetere, estas konsilinde kontroli la tekston por eraroj en la sama FineReader.

3.1 Teksto

Ĉi tiu areo estas uzata por reliefigi tekston. Bildoj kaj tabloj devas esti ekskluditaj de ĝi. Maloftaj kaj nekutimaj fontoj devas esti enmetitaj permane ...

Por elekti tekston, atentu la panelon supre de la FineReader. Estas butono "T" (vidu. La suba ekrankopio, la musmontrilo estas ĝuste sur ĉi tiu butono). Alklaku ĝin, tiam en la suba bildo elektu la nete ortangulan areon en kiu troviĝas la teksto. Parenteze, en iuj kazoj vi bezonas krei tekstajn blokojn de 2-3, kaj foje 10-12 por paĝo, ĉar Teksto-formatado povas esti malsama kaj ne elektu la tutan areon per unu rektangulo.

Gravas noti, ke bildoj ne falu en la tekstarejon! En la estonteco ĝi ŝparos al vi multan tempon ...

3.2 Bildoj

Uzata por reliefigi bildojn kaj tiujn areojn malfacilajn rekoni pro malbona kvalito aŭ nekutima tiparo.

En la suba ekrankopio, la musmontrilo situas sur la butono uzita por elekti la bildon "bildo". Parenteze, absolute ĉiu parto de la paĝo povas esti elektita en ĉi tiu areo, kaj FineReader tiam enmetos ĝin en la dokumenton kiel normalan bildon. Tio estas nur "stulta" kopios ...

Tipe ĉi tiu areo estas uzata por reliefigi nebele skanitajn tabelojn, por reliefigi ne-norma teksto kaj tiparo, la bildojn mem.

3.3 Tabeloj

La suba ekrankopio montras la butonon por reliefigi la tabelojn. Enerale, mi persone uzas ĝin tre malofte. Fakte vi devas tre rutine desegni (efektive) ĉiun linion sur la tabelo kaj montri kio kaj kiel la programo. Se la tablo estas malgranda kaj ne tre bona kvalito, mi rekomendas uzi la bildon por ĉi tiuj celoj. Tiel ŝparante multe da tempo, kaj tiam vi povas rapide fari tablon en Vorto surbaze de bildo.

3.4 Necesaj Eroj

Gravas noti. Kelkfoje estas nenecesaj elementoj en la paĝo, kiuj malfaciligas rekonon de la teksto, aŭ ne lasas vin elekti la deziratan areon. Ili povas esti forigitaj uzante la "eraser" entute.

Por fari tion, iru al la modo redaktado de bildoj.

Elektu la erasilon kaj elektu nedeziratan areon. I estos forigita kaj en ĝia loko estos blanka papero.

Cetere, mi rekomendas uzi ĉi tiun opcion kiel eble plej ofte. Provu ĉiujn tekstajn areojn, kiujn vi elektis, kie vi ne bezonas pecon de teksto, aŭ estas nenecesaj punktoj, malklara, distordoj - forviŝi per eraser. Danke al ĉi tiu rekono estos pli rapida!

4. Rekono de dosieroj PDF / DJVU

,Enerale, ĉi tiu formato de rekono ne diferencos de la aliaj - te. Vi povas labori kun ĝi kiel kun bildoj. La sola afero, kiun la programo devas ne esti tro malnova versio, se vi ne malfermas dosierojn PDF / DJVU - ĝisdatigu la version al 11.

Iom da konsiloj. Post malfermo de la dokumento en FineReader - ĝi aŭtomate ekkonos la dokumenton. Ofte en PDF / DJVU-dosieroj, specifa areo de la paĝo ne bezonas tra la tuta dokumento! Por forigi tian areon sur ĉiuj paĝoj, faru la jenajn:

1. Iru al la sekcio pri redaktado de bildoj.

2. Ebligu la opcion "limigo".

3. Elektu la areon, kiun vi bezonas en ĉiuj paĝoj.

4. Alklaku al ĉiuj paĝoj kaj tajpu.

5. Eraro kontrolanta kaj ŝparante laborajn rezultojn

Ŝajnas, ke eble ekzistas aliaj problemoj, kiam ĉiuj areoj estis selektitaj, tiam rekonitaj - prenu ĝin kaj konservu ĝin ... Ne estis tie!

Unue, ni devas kontroli la dokumenton!

Por ebligi ĝin, post rekono, en la fenestro dekstre, estos butono "ĉeko", vidu la suban ekrankopion. Post klako sur ĝi, la programo FineReader aŭtomate montros al vi tiujn areojn, kie la programo havas erarojn kaj ĝi ne povus fidinde determini unu aŭ alian simbolon. Vi nur devos elekti, aŭ vi konsentas kun la opinio pri la programo, aŭ enmetas vian karakteron.

Parenteze, en duono de la kazoj, proksimume, la programo ofertas al vi pretekstan ĝustan vorton - vi nur devas uzi la muson por elekti la deziratan elekton.

Due, post kontrolado, vi devas elekti la formaton, en kiu vi konservas la rezulton de via laboro.

Ĉi tie FineReader donas al vi plenan turnon: vi povas simple transdoni la informojn en Word unu al unu, kaj vi povas konservi ĝin en unu el dekoj da formatoj. Sed mi ŝatus reliefigi alian gravan aspekton. Kian ajn formaton vi elektas, estas pli grave elekti la specon de kopio! Konsideru la plej interesajn opciojn ...

Ekzakta kopio

Ĉiuj areoj, kiujn vi elektis en la paĝo en la agnoskita dokumento, kongruos precize en la fonta dokumento. Tre oportuna opcio kiam gravas ke vi ne perdu tekston-formaton. Parenteze, la tiparoj ankaŭ estos tre similaj al la originalo. Mi rekomendas per ĉi tiu opcio transdoni la dokumenton al Word, por daŭrigi plu laboron tie.

Redaktebla kopio

Ĉi tiu opcio estas bona, ĉar vi havas jam formatitan version de la teksto. Tio estas Retrovo de la "kilometro", kiu eble estis en la origina dokumento - vi ne renkontos. Utila opcio kiam vi signife redaktos la informojn.

Vere, vi ne devas elekti, ĉu estas grave por vi konservi la stilon de la dezajno, tiparojn, skriptojn. Foje, se la rekono ne tre sukcesas - via dokumento eble "deklintas" pro la ŝanĝita formatado. En ĉi tiu kazo, estas konvene elekti ĝustan kopion.

Ebena teksto

Eblo por tiuj, kiuj bezonas nur la tekston el la paĝo sen ĉio alia. Taŭga por dokumentoj sen bildoj kaj tabloj.

Ĉi tio finas la artikolon pri esplorado de dokumentoj. Mi esperas, ke per la helpo de ĉi tiuj simplaj konsiloj vi povas solvi viajn problemojn ...

Bonŝancon!