Hvordan trekke ut tekst fra et PDF-dokument

Det kan være veldig frustrerende å prøve å trekke ut tekst fra en PDF-fil for bruk i et annet program. Det er ikke uvanlig for grafikk for å komme i veien eller for utformingen av dokumentet for å gjøre det vanskelig for testen som skal overføres i meningsfulle setninger. Selv om det ikke er umulig å trekke ut tekst med kopi-og-lim tilnærming, kan det være tidkrevende og ikke tillater for PDF-filen tekst som skal eksporteres som et annet format. Det er imidlertid noen måter å trekke ut tekst fra en PDF-fil.

Bruksanvisning

Pakk tekst med Acrobat Reader

1 Åpne filen i Acrobat Reader. I Windows velger du "Fil -> Eksporter dokument til tekst," navnet på dokumentet og lagre det.

2 Kopier teksten på en Mac eller Linux OS ved å gå til Vis-menyen og velge "Kontinuerlig" eller "Continuous vendt." (Den tidligere vil gi deg teksten i en kolonne, mens sistnevnte vil formatere tekst som side-by-side sider.) Gå til "Edit -> Velg alle" og deretter "Rediger -.> Copy"

3 Bruk markeringsverktøyet hvis du bare ønsker å trekke ut noe av teksten. Klikk på "Text Velg" verktøyet og deretter velge den informasjonen du ønsker. I et dokument som er formatert i flere kolonner, må du bruke "Column Velg" verktøyet først. Gå til "Edit -.> Copy"

Konverter PDF til HTML

4 Bruk Gmail som en snarvei. Fest PDF-fil til en e-post og sende den til Gmail-kontoen din. Når du åpner e-posten vil du se en rekke alternativer ved siden av vedlegget. Velg "Vis som HTML" og lagre filen som åpnes i et eget vindu. Selv om du ikke vil være i stand til å vise all grafikk, vil HTML-filen beholde dokumentets tekstformatering.

5 Pakk og konvertere filer på kommandolinjen. Linux-brukere kan bruke en grunnleggende konverteringskommando som vil endre en PDF-fil til en .txt-fil: ". Pdftotext filename.pdf" Sørg for å erstatte filnavnet med navnet på PDF-filen.

6 Last ned en PDF til tekst konvertering program. Det finnes en rekke open source og freeware programmer tilgjengelig som PDFBox og enkel PDF til tekst Converter (se Ressurser nedenfor). Mange av disse programmene kan også konvertere PDF-filer til HTML også.

Hint

  • Finn ut om dokumentet er formatert til å inneholde både tekst og grafikk. Adobe Acrobat tilnærming vil bare fungere hvis PDF-filen inneholder både; det vil ikke fungere for filer med bare bilder. I noen tilfeller teksten i et PDF-dokument er faktisk formatert som et bilde. Dette skjer ofte når en originaldokumentet skannes og en PDF-fil er opprettet fra det skannede bildet.
  • Vær forberedt på å formatere noe av teksten når du bruker Acrobat Reader. Denne måten å utvinning eksporterer bare PDF-filen til en tekstfil - det vil ikke beholde nødvendigvis beholde formateringen. Men hvis du bare trenger å bruke ordene dette bør ikke være et problem.