Ekstrahirajte tekst iz PDF i slikovnih datoteka
Imate PDF dokument iz kojeg biste željeli izdvojiti sav tekst? Što je sa slikovnim datotekama skeniranog dokumenta koje želite pretvoriti u tekst koji se može uređivati? Ovo su neki od najčešćih problema koje sam vidio na radnom mjestu pri radu s datotekama.
U ovom članku govorit ću o nekoliko različitih načina na koje možete pokušati izdvojiti tekst iz PDF -a ili slike. Vaši rezultati izdvajanja će se razlikovati ovisno o vrsti i kvaliteti teksta u PDF -u ili slici. Također, vaši će se rezultati razlikovati ovisno o alatu koji koristite, stoga je najbolje isprobati što više opcija u nastavku kako biste dobili najbolje rezultate.
Ekstrahirajte tekst iz slike ili PDF-a
Najjednostavniji i najbrži način za početak je isprobati online uslugu izvlačenja PDF teksta. Oni su obično besplatni i mogu vam dati točno ono što tražite, a da ne morate ništa instalirati na svoje računalo. Evo dva koja sam koristio s vrlo dobrim do izvrsnim rezultatima:
Ekstrakt PDF
ExtractPDF je besplatan alat za hvatanje slika, teksta i fontova iz PDF datoteke. Jedino ograničenje je da je maksimalna veličina PDF datoteke 10 MB. To je malo malo; pa ako imate veću datoteku, isprobajte neke od drugih metoda u nastavku. Odaberite svoju datoteku, a zatim kliknite gumb Pošalji datoteku(Send file) . Rezultati su obično vrlo brzi i trebali biste vidjeti pregled teksta kada kliknete na karticu Tekst(Text) .
Također je lijepa dodatna prednost što izvlači slike i iz PDF datoteke, samo u slučaju da su vam potrebne! Općenito, online alat radi odlično, ali naišao sam na nekoliko PDF dokumenata koji mi daju smiješne rezultate. Tekst je dobro izvučen, ali će iz nekog razloga imati prijelom retka nakon svake riječi! Nije veliki problem za kratku PDF datoteku, ali svakako problem za datoteke s puno teksta. Ako vam se to dogodi, isprobajte sljedeći alat.
Online OCR
Mrežni OCR(Online OCR) obično je funkcionirao za dokumente koji se nisu pravilno pretvorili s ExtractPDF-om(ExtractPDF) , pa je dobra ideja isprobati obje usluge kako biste vidjeli koji vam daju bolji izlaz. Online OCR također ima neke ljepše značajke koje se mogu pokazati zgodnim za svakoga tko ima veliku PDF datoteku koja samo treba pretvoriti tekst na nekoliko stranica, a ne na cijeli dokument.
Prva stvar koju želite učiniti je ići naprijed i stvoriti besplatan račun. Pomalo je neugodno, ali ako ne stvorite besplatni račun, on će samo djelomično pretvoriti vaš PDF , a ne cijeli dokument. Također, umjesto da možete prenijeti samo dokument od 5 MB, možete prenijeti do 100 MB po datoteci s računom.
Najprije odaberite jezik, a zatim odaberite vrstu izlaznih formata koje želite za konvertiranu datoteku. Imate nekoliko opcija i možete odabrati više od jedne ako želite. Pod dokumentom(Multipage document) s više stranica možete odabrati Brojevi stranica(Page numbers) , a zatim odabrati samo stranice koje želite pretvoriti. Zatim odaberete datoteku i kliknete Pretvori(Convert) !
Nakon konverzije, bit ćete dovedeni u odjeljak Dokumenti(Documents) (ako ste prijavljeni) gdje možete vidjeti koliko vam je dostupnih besplatnih stranica ostalo i veze za preuzimanje konvertiranih datoteka. Čini se da imate samo 25 besplatnih stranica dnevno, pa ako vam treba više od toga, morat ćete malo pričekati ili kupiti više stranica.
Online OCR napravio je izvrstan posao pretvaranja mojih PDF -ova jer je mogao zadržati stvarni izgled teksta. U svom testu uzeo sam Wordov(Word) dokument koji je koristio oznake, različite veličine fonta itd. i pretvorio ga u PDF . Zatim sam upotrijebio Online OCR da ga pretvorim natrag u Word format i bio je oko 95% isti kao original. To je za mene prilično impresivno.
Osim toga, ako želite pretvoriti sliku u tekst, online OCR to može učiniti jednako lako kao i izdvajanje teksta iz PDF datoteka.
Besplatni online OCR
Budući da smo govorili o OCR -u slike u tekst , dopustite mi da spomenem još jednu dobru web stranicu koja jako dobro radi na slikama. Besplatni online OCR(Free Online OCR) bio je vrlo dobar i vrlo precizan prilikom izdvajanja teksta iz mojih testnih slika. Uzeo sam nekoliko fotografija sa svog iPhonea stranica iz knjiga, pamfleta itd. i bio sam iznenađen koliko je dobro mogao pretvoriti tekst.
Odaberite svoju datoteku, a zatim kliknite gumb Prenesi(Upload) . Na sljedećem zaslonu nalazi se nekoliko opcija i pregled slike. Možete ga izrezati ako ne želite OCR cijelu stvar. Zatim samo kliknite gumb OCR i vaš pretvoreni tekst pojavit će se ispod pregleda slike. Također nema nikakvih ograničenja, što je jako lijepo.
Osim online usluga, postoje dva besplatna PDF pretvarača koja želim spomenuti u slučaju da vam je potreban softver koji se izvodi lokalno na vašem računalu za izvođenje konverzija. Uz mrežne usluge, uvijek će vam trebati internetska(Internet) veza, a to možda nije moguće za sve. Međutim, primijetio sam da je kvaliteta konverzija iz besplatnih programa bila znatno lošija od one na web stranicama.
A-PDF Text Extractor
A-PDF Text Extractor je besplatan softver koji prilično dobro izvlači tekst iz PDF datoteka. Nakon što ga preuzmete i instalirate, kliknite gumb Otvori(Open) za odabir PDF datoteke. Zatim kliknite Izdvoj(Extract) tekst za početak postupka.
Pitat će vas mjesto na kojem ćete pohraniti tekstualnu izlaznu datoteku, a zatim će početi ekstrahirati. Također možete kliknuti na gumb Opcija(Option) , koji vam omogućuje da odaberete samo određene stranice za izdvajanje i vrstu ekstrakcije. Druga je opcija zanimljiva jer izdvaja tekst u različitim izgledima i vrijedi isprobati sve tri kako biste vidjeli koji vam daje najbolji izlaz.
PDF2Text Pilot
PDF2Text Pilot radi ok posao ekstrakcije teksta. Nema mogućnosti; samo dodajete datoteke ili mape, pretvarate i nadate se najboljem. Dobro je radio na nekim PDF(PDFs) -ovima , ali za većinu njih bilo je brojnih problema.
Samo kliknite Dodaj datoteke(Add Files) , a zatim kliknite Pretvori(Convert) . Nakon što je konverzija dovršena, kliknite na Browse da otvorite datoteku. Vaša kilometraža će varirati korištenjem ovog programa, stoga ne očekujte puno.
Također, vrijedno je spomenuti da ako se nalazite u korporativnom okruženju ili možete dobiti kopiju Adobe Acrobat s posla, tada zaista možete postići puno bolje rezultate. Acrobat očito nije besplatan, ali ima opcije za pretvaranje PDF -a u Word , Excel i HTML format. Također najbolje obavlja posao održavanja strukture izvornog dokumenta i pretvaranja kompliciranog teksta.
Related posts
Kako kombinirati ili spojiti više tekstualnih datoteka
Najbolji besplatni alternativni PDF preglednik za Adobe Reader
Pretvorite Windows PC u virtualni stroj pomoću Hyper-V
Kako promijeniti boju ikone mape u sustavu Windows
Najbolji besplatni alat za defragmentaciju za Windows je samo po sebi
3 najpopularnije aplikacije za korištenje Instagrama na računalu
4 besplatna alata za uklanjanje dupliciranih datoteka i fotografija
Brže kopirajte velike datoteke preko mreže uz TeraCopy
HoneyView recenzija: Besplatni brzi softver za pregled slika za Windows 10
10 praktičnih alata za čuvanje na vašem USB flash pogonu
Otključajte ZIP datoteke zaštićene lozinkom
Besplatne online OCR stranice i usluge za izdvajanje teksta iz slike
Najbolji besplatni online alati za uređivač PDF-a koji se temelje na oblaku
Kako snimiti, kopirati i sigurnosno kopirati CD ili DVD
Kako dodati sjenu u tekst ili sliku u GIMP-u
Dijelite velike datoteke postavljanjem kućnog poslužitelja datoteka
Najbolji softver otvorenog koda koji biste trebali koristiti
Najbolji besplatni upravitelji međuspremnika za Windows
Mapirajte mapu u slovo diska u sustavu Windows
Kako dijeliti datoteke između računala, pametnih telefona i tableta