Gewusst wie: Verwenden von Apache PDFBox

June 29

Wenn Sie Artikel, Dokumente oder andere Informationen auf Ihrer Website buchen, bieten PDF-Dateien eine bequeme Möglichkeit für Ihre Website-Besucher herunterladen und Ihre Inhalte zu teilen. Apache PDFBox ist eine kostenlose, Open-Source Java PDF-Bibliothek zur PDF-Erstellung und Manipulation. PDF-Erstellung und Textextraktion gehören zu den grundlegendsten Funktionen des Programms. Erlernen der Verwendung von Apache PDFBox ist relativ geradlinig, so dass Sie PDF-Dokumente für Ihre Website in kurzer Zeit zu kompilieren.

Anweisungen

PDF-Erstellung - leere Seite

1 Ein leeres PDF-Dokument erstellen, indem Sie den folgenden Stream-Code in einer Zeile eingeben: "Dokument = neue PDDocument();" (enthalten Sie keine Anführungszeichen bei der Eingabe einen Stream-Codes).

2 Das leere PDF-Dokument eine Seite hinzufügen, indem Sie den folgenden Befehl in einer separaten Zeile eingeben: "PDPage BlankPage neuen PDPage(); =" drücken Sie "Enter" auf der Tastatur und Schreiben der nächsten Codezeile eine eigene Linie, "document.addPage (BlankPage);."

3 Die leere PDF-Datei speichern und verwenden Sie es als Vorlage für die Erstellung der PDF-Dateien in Zukunft durch Eingabe der folgenden Befehlszeile auf ihm eigenen Linie ist: "document.save("BlankPage.pdf");."

4 Schließen Sie das Dokument, um es dauerhaft zu machen, indem Sie die folgende Befehlszeile eingeben: "document.close();."

Erstellung von PDF - Datei mit Text

5 Öffnen Sie die leere PDF-Datei-Vorlage gerade erstellten und überfluten Sie Text ändern und Hinzufügen von ein paar Zeilen Code. In der zweiten Zeile des Codes "PDPage BlankPage neuen PDPage(); =" ändern "BlankPage" auf "Seite."

6 Drücken Sie "Enter" auf der Tastatur zu gehen in die nächste Zeile und fügen Sie die folgende Codezeile: "document.addPage (s. s.)."

7 Drücken Sie "Enter" auf der Tastatur, und erstellen Sie eine Schriftart-Beschreibung PDF Schriften Standardtyp durch die folgende Codezeile verwenden: "PDFont Schrift = PDType1Font.HELVETICA_BOLD;."

8 Drücken Sie "Enter" auf der Tastatur und einen Inhaltsstream zu erstellen, indem Sie die folgende Befehlszeile eingeben: "PDPageContentStream ContentStream = neue PDPageContentStream (Dokument, Seite)."

9 Drücken Sie "Enter" auf der Tastatur und Inhalt, Schriftart und Position des Texts zu definieren, indem Sie die folgenden Befehlszeilen eingeben: "contentStream.beginText(); contentStream.setFont (Schriftart, 12); contentStream.moveTextPositionByAmount (100, 700); contentStream.drawString ("geben Sie hier Ihren Text"); contentStream.endText();""Enter"auf der Tastatur drücken, nach jedem Semikolon.

10 Schließen Sie die Zeile Inhaltsstream durch Eingabe der folgenden Befehlszeile "contentStream.close();."

11 Fügen Sie den Titel Ihrer PDF-Datei speichern in Dokument-Kommandozeile, "document.save("BlankPage.pdf");" durch "BlankPage" mit Ihren eigenen Dateinamen ersetzen.

12 Halten Sie das Dokument schließen Zeile wie soll das Dokument verschlossen zu halten.

PDF-Text-Extraktion aus vorhandenen PDF-Datei

13 Offen im PDF und geben Sie die folgende Befehlszeile eine vorhandene PDF-Datei umwandeln in ein einfaches Textdokument Datei: "Dokument-LuceneDocument = LucenePDFDocument.getDocument (Insert PDF Dateiname hier);."

14 Extrahieren von Text müssen Sie die PDF-Datei aus dem einfachen Text-Dokument indem Sie es markieren, klicken Sie auf die "Rechte" Maustaste und wählen Sie "Kopieren" aus dem Menü. Fügen Sie den extrahierten Text in ein Dokument ein, indem Sie auf die "Rechte" Maustaste und im Menü "Einfügen" auswählen.

15 Extrahieren eine bestimmte Textzeile unmittelbar aus einer vorhandenen PDF-Datei die folgenden Befehlszeilen: "PDFTextStripper-Stripper = neue PDFTextStripper(); stripper.setStartPage (geben Sie Startseite hier, zum Beispiel 16); stripper.setEndPage (Ende Seite hier, z. B. 23 angeben); stripper.writeText (...); Drücken Sie "Enter" auf der Tastatur, nach jedem Semikolon.

Tipps & Warnungen

  • Die obige Prozedur arbeitet mit PDFBox Version 1.8.5. Der Prozess kann identisch sein oder leicht variieren, in früheren Versionen.