Ekstrahirajte tekst iz PDF i slikovnih datoteka

Imate PDF dokument iz kojeg biste željeli izdvojiti sav tekst? Što je sa slikovnim datotekama skeniranog dokumenta koje želite pretvoriti u tekst koji se može uređivati? Ovo su neki od najčešćih problema koje sam vidio na radnom mjestu pri radu s datotekama.

U ovom članku govorit ću o nekoliko različitih načina na koje možete pokušati izdvojiti tekst iz PDF -a ili slike. Vaši rezultati izdvajanja će se razlikovati ovisno o vrsti i kvaliteti teksta u PDF -u ili slici. Također, vaši će se rezultati razlikovati ovisno o alatu koji koristite, stoga je najbolje isprobati što više opcija u nastavku kako biste dobili najbolje rezultate.

Ekstrahirajte tekst iz slike ili PDF-a

Najjednostavniji i najbrži način za početak je isprobati online uslugu izvlačenja PDF teksta. Oni su obično besplatni i mogu vam dati točno ono što tražite, a da ne morate ništa instalirati na svoje računalo. Evo dva koja sam koristio s vrlo dobrim do izvrsnim rezultatima:

Ekstrakt PDF

ekstraktpdf

ExtractPDF je besplatan alat za hvatanje slika, teksta i fontova iz PDF datoteke. Jedino ograničenje je da je maksimalna veličina PDF datoteke 10 MB. To je malo malo; pa ako imate veću datoteku, isprobajte neke od drugih metoda u nastavku. Odaberite svoju datoteku, a zatim kliknite gumb Pošalji datoteku(Send file) . Rezultati su obično vrlo brzi i trebali biste vidjeti pregled teksta kada kliknete na karticu Tekst(Text) .

preuzimanje teksta

Također je lijepa dodatna prednost što izvlači slike i iz PDF datoteke, samo u slučaju da su vam potrebne! Općenito, online alat radi odlično, ali naišao sam na nekoliko PDF dokumenata koji mi daju smiješne rezultate. Tekst je dobro izvučen, ali će iz nekog razloga imati prijelom retka nakon svake riječi! Nije veliki problem za kratku PDF datoteku, ali svakako problem za datoteke s puno teksta. Ako vam se to dogodi, isprobajte sljedeći alat.

Online OCR

Mrežni OCR(Online OCR) obično je funkcionirao za dokumente koji se nisu pravilno pretvorili s ExtractPDF-om(ExtractPDF) , pa je dobra ideja isprobati obje usluge kako biste vidjeli koji vam daju bolji izlaz. Online OCR također ima neke ljepše značajke koje se mogu pokazati zgodnim za svakoga tko ima veliku PDF datoteku koja samo treba pretvoriti tekst na nekoliko stranica, a ne na cijeli dokument.

Prva stvar koju želite učiniti je ići naprijed i stvoriti besplatan račun. Pomalo je neugodno, ali ako ne stvorite besplatni račun, on će samo djelomično pretvoriti vaš PDF , a ne cijeli dokument. Također, umjesto da možete prenijeti samo dokument od 5 MB, možete prenijeti do 100 MB po datoteci s računom.

online ocr

Najprije odaberite jezik, a zatim odaberite vrstu izlaznih formata koje želite za konvertiranu datoteku. Imate nekoliko opcija i možete odabrati više od jedne ako želite. Pod dokumentom(Multipage document) s više stranica možete odabrati Brojevi stranica(Page numbers) , a zatim odabrati samo stranice koje želite pretvoriti. Zatim odaberete datoteku i kliknete Pretvori(Convert) !

online ocr dokumenti

Nakon konverzije, bit ćete dovedeni u odjeljak Dokumenti(Documents) (ako ste prijavljeni) gdje možete vidjeti koliko vam je dostupnih besplatnih stranica ostalo i veze za preuzimanje konvertiranih datoteka. Čini se da imate samo 25 besplatnih stranica dnevno, pa ako vam treba više od toga, morat ćete malo pričekati ili kupiti više stranica.

Online OCR napravio je izvrstan posao pretvaranja mojih PDF -ova jer je mogao zadržati stvarni izgled teksta. U svom testu uzeo sam Wordov(Word) dokument koji je koristio oznake, različite veličine fonta itd. i pretvorio ga u PDF . Zatim sam upotrijebio Online OCR da ga pretvorim natrag u Word format i bio je oko 95% isti kao original. To je za mene prilično impresivno.

Osim toga, ako želite pretvoriti sliku u tekst, online OCR to može učiniti jednako lako kao i izdvajanje teksta iz PDF datoteka.

Besplatni online OCR

Budući da smo govorili o OCR -u slike u tekst , dopustite mi da spomenem još jednu dobru web stranicu koja jako dobro radi na slikama. Besplatni online OCR(Free Online OCR) bio je vrlo dobar i vrlo precizan prilikom izdvajanja teksta iz mojih testnih slika. Uzeo sam nekoliko fotografija sa svog iPhonea stranica iz knjiga, pamfleta itd. i bio sam iznenađen koliko je dobro mogao pretvoriti tekst.

besplatno online ocr

Odaberite svoju datoteku, a zatim kliknite gumb Prenesi(Upload) . Na sljedećem zaslonu nalazi se nekoliko opcija i pregled slike. Možete ga izrezati ako ne želite OCR cijelu stvar. Zatim samo kliknite gumb OCR i vaš pretvoreni tekst pojavit će se ispod pregleda slike. Također nema nikakvih ograničenja, što je jako lijepo.

Osim online usluga, postoje dva besplatna PDF pretvarača koja želim spomenuti u slučaju da vam je potreban softver koji se izvodi lokalno na vašem računalu za izvođenje konverzija. Uz mrežne usluge, uvijek će vam trebati internetska(Internet) veza, a to možda nije moguće za sve. Međutim, primijetio sam da je kvaliteta konverzija iz besplatnih programa bila znatno lošija od one na web stranicama.

A-PDF Text Extractor

A-PDF Text Extractor je besplatan softver koji prilično dobro izvlači tekst iz PDF datoteka. Nakon što ga preuzmete i instalirate, kliknite gumb Otvori(Open) za odabir PDF datoteke. Zatim kliknite Izdvoj(Extract) tekst za početak postupka.

apdf ekstraktor

Pitat će vas mjesto na kojem ćete pohraniti tekstualnu izlaznu datoteku, a zatim će početi ekstrahirati. Također možete kliknuti na gumb Opcija(Option) , koji vam omogućuje da odaberete samo određene stranice za izdvajanje i vrstu ekstrakcije. Druga je opcija zanimljiva jer izdvaja tekst u različitim izgledima i vrijedi isprobati sve tri kako biste vidjeli koji vam daje najbolji izlaz.

PDF2Text Pilot

PDF2Text Pilot  radi ok posao ekstrakcije teksta. Nema mogućnosti; samo dodajete datoteke ili mape, pretvarate i nadate se najboljem. Dobro je radio na nekim PDF(PDFs) -ovima , ali za većinu njih bilo je brojnih problema.

pdf2text

Samo kliknite Dodaj datoteke(Add Files) , a zatim kliknite Pretvori(Convert) . Nakon što je konverzija dovršena, kliknite na Browse da otvorite datoteku. Vaša kilometraža će varirati korištenjem ovog programa, stoga ne očekujte puno.

Također, vrijedno je spomenuti da ako se nalazite u korporativnom okruženju ili možete dobiti kopiju Adobe Acrobat s posla, tada zaista možete postići puno bolje rezultate. Acrobat očito nije besplatan, ali ima opcije za pretvaranje PDF -a u Word , Excel i HTML format. Također najbolje obavlja posao održavanja strukture izvornog dokumenta i pretvaranja kompliciranog teksta.



About the author

Ja sam programer za iPhone i macOS s iskustvom u Windowsima 11/10 i Appleovoj najnovijoj iOS platformi. S više od 10 godina iskustva, duboko razumijem kako stvoriti i upravljati datotekama na obje platforme. Moje vještine nadilaze samo stvaranje datoteka - također dobro poznajem Appleove proizvode, njihove značajke i kako ih koristiti.



Related posts