PDF-Dateien zu TXTs in Ubuntu

March 10

Ubuntu bietet grafische und Befehlszeilentools portable-Dokumentdateien (PDF) in Text konvertieren formatieren. Die Kommandozeilen-Version, "Pdftotext" automatisiert den Prozess durch die Aufnahme des Befehls Konvertierung in ein Shell-Skript. Auf diese Weise können mehrere PDF-Dateien gleichzeitig geändert werden. Eine Reihe von Befehlszeilenoptionen bereitgestellt mit dem Befehl aktivieren bestimmte Aktionen (z. B. Umwandlung nur die ersten paar Seiten) jedes Mal stattfinden wird.

Erlangung von pdftotext

Erhalten Sie die entsprechenden Pakete und den Befehl "Pdftotext" aus den Ubuntu-Bibliotheken über den Befehl:

Sudo apt-Get Install Poppler-utils

Stellen Sie sicher, dass das Paket ordnungsgemäß installiert, bevor Sie es verwenden.

Pdftotext Manpage

Erfahren Sie, wie der Pdftotext-Befehl funktioniert und machen Sie sich vertraut mit den Kommandozeilen-Optionen zur Verfügung. Betrachten Sie die Manpage für den Befehl "Mann Pdftotext" Eingabe an der Befehlszeile Shell-Eingabeaufforderung und drücken Sie "Enter". Die Befehlszeile-Optionen bestehen aus Buchstaben, einem Bindestrich vorangestellt, wie "-l", und sie alle bieten unterschiedliche Funktionen.

Der Standardbefehl für Pdftotext ist "Pdftotext < PDF >< Textfile >" (ohne Anführungszeichen) wobei < Pdffile > der Name der PDF-Datei zu extrahieren, wie "report.pdf" und < Textfile > ist der Name der Ausgabedatei Text, z. B. "report.txt". Sie können einen beliebigen Namen Ihrer Wahl.

Batch PDF-Konvertierung

Testen Sie den Befehl, indem Sie versuchen es auf ein paar PDF-Dateien einzeln. Wenn es okay ist, sollten Sie versuchen, auf eine Reihe von PDF-Dateien in Shell-Skripten benutzen, um den Prozess zu automatisieren. Ein Beispiel für eine typische Skript wird unten gezeigt:

denn ich im PDF-Format

tun

pdftotext $i $i.txt

fertig

Dieses Skript nimmt alle PDF-Dateien im aktuellen Verzeichnis und sie mit ihrem Namen in eine Textdatei exportiert, also "report.pdf" "report.pdf.txt" werden würde

Geschützte PDF-Dateien

Einige PDF-Dateien sind entweder mit Kennwörtern oder Satz oben geschützt, Export von Text aus dem Dokument zu verhindern. Dies ist ein Versuch, das Copyright zu schützen, und wenn dies der Fall, vielleicht ist hatte Sie die Konvertierung aus rechtlicher Sicht besser überdenken. Wenn Sie das Kennwort für eine PDF-Datei haben, kann dies in die Befehlszeile-Optionen für "Pdftotext" übergeben werden.