Hvordan analysere PDF dokumenter i Java

PDF-filer gi deg et standardformat for å programma åpne og analysere data fra en skrivebeskyttet dokument. Du kan bruke Java PDF bibliotekene å åpne et dokument og lese informasjonen på. Du enten lagre denne informasjonen i en database eller vise informasjonen tilbake til leseren i din Java-program.

Bruksanvisning

1 Høyreklikk på Java-filen du vil bruke til å analysere PDF-informasjonen. Klikk "Åpne med" og velg din Java editor.

2 Importere PDF-leser biblioteket. Legg til følgende kode i toppen av Java-filen for å importere biblioteket:

import com.asprise.util.pdf.PDFReader;

3 Åpne PDF-filen. Parseren ligger i "PDFReader" class i biblioteket du nettopp la til. Legg til følgende kode til den funksjonen du vil bruke til å analysere filen, erstatte "thepdf.pdf" med din egen PDF-fil navn:

PDFReader pdf = nye PDFReader (new File ( "thepdf.pdf"));
pdf.open ();

4 Analysere tekst fra PDF-filen. Følgende kode analyserer innholdet fra side en i PDF:

String pdfcontent = pdf.extractTextFromPage (0);

Sett på "0" med sidenummeret du vil trekke ut fra filen. Den første siden starter på 0, så hver ekstra side indeks er sidetallet du vil trekke minus 1 for å kompensere for forskyvningen.

5 Lukke filen når du er ferdig tolking av data. Følgende kode lukker filen:

pdf.close ();