Rekoni tekston en PDF-dosiero rete.


Ne ĉiam eblas ĉerpi tekston el PDF-dosiero per konvencia kopiado. Ofte la paĝoj de tiaj dokumentoj estas la skanita enhavo de iliaj paperaj versioj. Por konverti tiajn dosierojn al plene redakteblaj tekstaj datumoj, oni uzas specialajn programojn kun la funkcio de Optika Karaktera Rekono (OCR).

Tiaj solvoj estas tre malfacilaj de efektivigi kaj tial kostas multe da mono. Se vi devas regule rekoni tekston kun PDF, vi konsilas aĉeti la taŭgan programon. Por maloftaj kazoj, estus pli logike uzi unu el la disponeblaj interretaj servoj kun similaj funkcioj.

Kiel rekoni tekston el PDF

Kompreneble, la agorda reta servo de OCR estas pli limigita kompare kun plenaj labortablaj solvoj. Sed vi povas labori kun tiaj resursoj aŭ senpage, aŭ por nominala pago. La ĉefa afero estas, ke ankaŭ la respondaj retaj aplikaĵoj alfrontas sian ĉefan taskon, nome tekstorekonon.

Metodo 1: ABBYY FineReader Online

La firmaa evoluiga kompanio estas unu el la gvidantoj en la kampo de optika dokumentrekono. ABBYY FineReader por Vindozo kaj Mac estas potenca solvo por konverti PDF-tekston kaj labori kun ĝi.

La reta kolego de la programo, kompreneble, estas malsupera al ĝi en funkcio. Tamen, la servo povas rekoni tekston el skanadoj kaj fotoj en pli ol 190 lingvoj. Subtenas la konvertiĝon de PDF-dosieroj en dokumentojn Word, Excel, ktp.

Reta servo de ABBYY FineReader Online

  1. Antaŭ ol komenci labori kun la ilo, kreu konton en la retejo aŭ ensalutu per via Facebook, Google aŭ Microsoft-konto.

    Por iri al la ensaluta fenestro, alklaku la butonon. "Ensalutado" en la supera menubreto.
  2. Unufoje ensalutinta, importu la deziratan PDF-dokumenton en la FineReader per la butono "Alŝuti Dosierojn".

    Tiam alklaku "Elektu paĝajn numerojn" kaj specifu la deziratan interspacon por rekono de teksto.
  3. Poste elektu la aktualajn lingvojn en la dokumento, la formaton de la rezulta dosiero kaj alklaku la butonon "Rekoni".
  4. Post prilaborado, kies daŭro dependas tute de la grandeco de la dokumento, vi povas elŝuti la finitan dosieron kun tekstaj datumoj simple alklakante ĝian nomon.

    Aŭ eksportu ĝin al unu el la haveblaj nubaj servoj.

La servo verŝajne distingiĝas per la plej precizaj algoritmoj de teksto-rekono en bildoj kaj PDF-dosieroj. Bedaŭrinde ĝia libera uzo limiĝas al kvin paĝoj pretigitaj monate. Por labori kun pli grandaj dokumentoj, vi devas aĉeti unu-jaran abonon.

Tamen, se la OCR-funkcio estas tre malofte bezonata, ABBYY FineReader Online estas bonega elekto por ĉerpi tekston el malgrandaj PDF-dosieroj.

Metodo 2: Senpaga Reta OCR

Simpla kaj konvena servo por ciferecigi tekston. Sen bezono de registriĝo, la rimedo permesas vin rekoni 15 plenajn PDF-paĝojn hore. Senpaga Reta OCR plene funkcias kun dokumentoj en 46 lingvoj kaj sen rajtigo subtenas tri tekst-eksportajn formatojn - DOCX, XLSX kaj TXT.

Enregistrante, la uzanto povas prilabori plurflokajn dokumentojn, sed la senpaga nombro de ĉi tiuj paĝoj estas limigita al 50 ekzempleroj.

Senpaga Reta Reta Reta servo

  1. Por rekoni la tekston el la PDF kiel "gasto", sen rajtigo sur la rimedo, uzu la taŭgan formon sur la ĉefa paĝo de la retejo.

    Elektu la deziratan dokumenton per la butono "Dosiero", specifu la ĉefan tekstlingvon, eligan formaton, tiam atendu, ke la dosiero ŝarĝu kaj alklaku "Konverti".
  2. Je la fino de la cifereciga procezo, alklaku "Elŝutu Dosiero de Eligo" konservi la finitan dokumenton per la teksto en la komputilo.

Por rajtigitaj uzantoj, la vico de agoj estas iom malsama.

  1. Uzu la butonon "Aliĝilo""Ensalutado" en la supera menubreto al, respektive, kreu konton Free Online OCR aŭ iru ĝin.
  2. Post rajtigo en la agnosko-panelo, premu la klavon "CTRL", elektu ĝis du lingvojn de la fonta dokumento el la listo provizita.
  3. Indiku pliajn eblojn por ĉerpi tekston el PDF kaj alklaki la butonon. "Elektu dosieron" ŝargi la dokumenton en la servon.

    Tiam, por komenci rekonon, alklaku "Konverti".
  4. Post prilaborado de la dokumento, alklaku la ligon kun la nomo de la eliga dosiero en la responda kolumno.

    La rekono-rezulto tuj stokos en la memoro de via komputilo.

Se vi bezonas eltiri tekston el malgranda PDF-dokumento, vi povas sekure uzi la ilon priskribitan supre. Por labori kun grandaj dosieroj, vi devos aĉeti pliajn simbolojn en Free Online OCR aŭ recurrir al alia solvo.

Metodo 3: NewOCR

Servo OCR tute libera, kiu permesas vin eltiri tekston de preskaŭ ajna grafika kaj elektronika dokumento kiel DjVu kaj PDF. La rimedo ne trudas restriktojn pri la grandeco kaj nombro de rekoneblaj dosieroj, ne postulas registriĝon, kaj ofertas ampleksan gamon de rilataj funkcioj.

NewOCR subtenas 106 lingvojn kaj kapablas korekti eĉ malaltkvalitajn dokumentojn. Eblas mane elekti la areon por teksto-rekono sur la dosiero-paĝo.

Reta servo NewOCR

  1. Do, vi povas komenci labori kun la rimedo tuj, sen la bezono plenumi nenecesajn agojn.

    Rekte sur la ĉefa paĝo estas formularo por importi la dokumenton al la retejo. Por alŝuti dosieron al NewOCR, uzu la butonon "Elektu dosieron" en la sekcio "Elektu vian dosieron". Tiam en la kampo "Rekonlingvo (j)" elektu unu aŭ pli da lingvoj de la fonta dokumento, tiam alklaku "Alŝuto + OCR".
  2. Agordu viajn preferatajn rekordajn agordojn, elektu la deziratan paĝon por eltiri la tekston, kaj alklaku la butonon. "OCR".
  3. Rulumu malsupren iom kaj trovu la butonon. Elŝuti.

    Alklaku ĝin kaj en la falmenuo elektu la bezonatan dokumentan formaton por elŝuti. Post tio, la finita dosiero kun la elprenita teksto estos elŝutita al via komputilo.

La ilo estas konvena kaj agnoskas ĉiujn karakterojn laŭ sufiĉe alta kvalito. Tamen, la prilaborado de ĉiu paĝo de la importita PDF-dokumento devas esti lanĉita sendepende kaj montrata en aparta dosiero. Vi povas, kompreneble, tuj kopii la rekonajn rezultojn al la tondujo kaj kunfandi ilin kun aliaj.

Tamen, pro la supraj nuancoj, grandaj kvantoj de teksto uzantaj NewOCR estas tre malfacile eltireblaj. Kun la samaj malgrandaj dosieroj servas "kun eksplodo".

Metodo 4: OCR.Spaco

Simpla kaj komprenebla rimedo por ciferecigi tekston ebligas vin rekoni PDF-dokumentojn kaj eligi la rezulton en TXT-dosiero. Ne estas limoj pri la nombro de paĝoj. La sola limigo estas, ke la grandeco de la eniga dokumento ne rajtas superi 5 megabajtojn.

Interreta servo OCR.Space

  1. Registriĝi por labori kun la ilo ne necesas.

    Simple alklaku la supran ligilon kaj alŝutu la PDF-dokumenton al la retejo de via komputilo per la butono "Elektu dosieron" aŭ de la reto - laŭ referenco.
  2. En la falmenuo "Elektu lingvon de OCR" elektu la lingvon de la importita dokumento.

    Poste komencu la procezon de tekst-rekono alklakante la butonon. "Komencu OCR!".
  3. Je la fino de la prilaborado de dosieroj, vidu la rezulton en la "OCR'ed Result" kaj alklaku Elŝutielŝuti la finitan TXT-dokumenton.

Se vi nur bezonas ĉerpi la tekston de la PDF kaj la fina formatado tute ne gravas, OCR.Space estas bona elekto. La sola dokumento devas esti "unulingva", ĉar la rekono de du aŭ pli da lingvoj samtempe en la servo ne estas provizita.

Vidu ankaŭ: Libera _analogues_ FineReader

Taksante la interretajn ilojn prezentitajn en la artikolo, oni notu, ke la FineReader Online de ABBYY pritraktas la OCR-funkcion plej precize kaj precize. Se la maksimuma precizeco de teksto-rekono estas grava por vi, plej bone estas specife konsideri ĉi tiun opcion. Sed pagi por ĝi, plej probable, ankaŭ devas.

Se vi bezonas ciferecigi malgrandajn dokumentojn kaj vi estas preta korekti erarojn ĉe la servo mem, estas rekomendinde uzi NewOCR, OCR.Space aŭ Free Online OCR.