PDF-filer til txts i Ubuntu

PDF-filer til txts i Ubuntu


Ubuntu gir grafiske og kommandolinje verktøy for å konvertere Portable Document-filer (PDF) inn i tekstformat. Kommandolinjen versjonen, "pdftotext", automatiserer prosessen ved å inkludere konvertering kommandoen i et shell script. På denne måten kan flere PDF-filer endres samtidig. En rekke kommandolinje alternativene med kommandoen aktivere bestemte handlinger (som bare konvertere de første sidene) for å finne sted hver gang det kjøres.

innhenting pdftotext

Skaff riktige pakkene og kommandoen "pdftotext" fra Ubuntu bibliotekene via kommandoen:

sudo apt-get install poppler-utils

Sørg for at pakken installeres riktig, før du prøver å bruke den.

pdftotext Man Side

Lær hvordan pdftotext kommandoen fungerer og gjør deg kjent med kommandolinjealternativene tilgjengelige. Se på mannen siden for kommandoen skrive "mann pdftotext" på kommandolinjen skallet spørsmål, og trykk "Enter". alternativene kommandolinje bestå av bokstaver, innledes med en bindestrek, for eksempel "-l", og de har alle ulike funksjoner.

Standarden kommando for pdftotext er "pdftotext <pdffile> <tekstfil>" (uten anførselstegn) der <pdffile> er navnet på PDF-filen for å pakke, for eksempel "report.pdf" og <tekstfil> er navnet på teksten utdatafilen, for eksempel "report.txt". Du kan bruke hvilket som helst navn av ditt valg.

Batch PDF konvertering

Test kommandoen ved å prøve den på noen PDF-filer individuelt. Hvis det er greit kan det være lurt å prøve å bruke det på en rekke av PDF-filer i skallskript for å automatisere prosessen. Et eksempel på en typisk skriptet er vist nedenfor:

for jeg i * .pdf

gjøre

pdftotext $i $i.txt

ferdig

Dette skriptet tar alle PDF-filene i gjeldende katalog og eksporterer dem med deres navn til en tekstfil, så "report.pdf" skulle bli "report.pdf.txt"

Beskyttet PDF-filer

Noen PDF-filer er beskyttet enten med passord eller satt opp for å hindre eksport av tekst fra dokumentet. Dette er et forsøk på å beskytte opphavsretten, og hvis dette er tilfelle kanskje du hadde bedre revurdere konvertering fra et juridisk perspektiv. Hvis du har passordet for en PDF-fil, kan dette bli vedtatt i kommandolinjealternativene for "pdftotext".