Analysieren von PDF-Dokumenten in Java

January 8

PDF-Dateien bieten Ihnen ein Standardformat zum programmgesteuerten öffnen und Daten aus einem schreibgeschützten Dokument analysieren. Die Java PDF-Bibliotheken können Sie ein Dokument öffnen und die enthaltenen Informationen zu lesen. Sie diese Informationen in einer Datenbank speichern oder die Informationen zurück an den Leser in die Java-Anwendung anzeigen.

Anweisungen

1 Mit der rechten Maustaste in der Java-Datei, die Sie verwenden, um die PDF-Informationen analysieren möchten. Klicken Sie auf "Öffnen mit" und wählen Sie Ihre Java-Editor.

2 Die PDF-Leser-Bibliothek zu importieren. Fügen Sie den folgenden Code am Anfang der Java-Datei, die Bibliothek zu importieren:

Import com.asprise.util.pdf.PDFReader;

3 Öffnen Sie die PDF-Datei. Der Parser befindet sich in der Klasse "PDFReader" in der Bibliothek, die Sie gerade hinzugefügt. Fügen Sie den folgenden Code an die Funktion, die Sie zum Analysieren der Datei verwenden, ersetzen "thepdf.pdf" mit Ihren eigenen PDF-Dateinamen möchten:

PDFReader Pdf = neue PDFReader (neue File("thepdf.pdf"));PDF.Open();

4 Analysieren Sie den Text aus der PDF-Datei. Der folgende Code analysiert den Inhalt von Seite eins im PDF:

String Pdfcontent = pdf.extractTextFromPage(0);

Ersetzen Sie die "0" durch die Seitenzahl, die Sie aus der Datei extrahieren möchten. Die erste Seite beginnt bei 0, so dass jede weitere Seitenindex die Seitenzahl abzüglich 1 zum Ausgleich des Offsets extrahieren möchten.

5 Schließen Sie die Datei nach Abschluss der Analyse der Daten. Der folgende Code schließt die Datei:

PDF.Close();