Wie kann ich Text aus einer PDF-Datei kopieren, während die Formatierung beibehalten wird?
PDF, das allgegenwärtige Dokumentformat, eignet sich hervorragend für die Freigabe von Dokumenten, während Schriften, Bilder und das allgemeine Layout plattformübergreifend beibehalten werden. Gibt es eine einfache Möglichkeit, diese Formatierung beim Kopieren und Einfügen von Text aus dem Dokument beizubehalten??
Die heutige Question & Answer-Sitzung wird dank SuperUser zur Verfügung gestellt - einer Unterteilung von Stack Exchange, einer Community-basierten Gruppierung von Q & A-Websites.
Die Frage
SuperUser-Leser Colen sucht nach einer Möglichkeit, Text aus PDF-Dateien zu extrahieren und dabei die Formatierung beizubehalten:
Wenn ich Text aus einer PDF-Datei und in einen Texteditor kopiere, wird er auf verschiedene Weise verwirrt. Formatierungen wie fett und kursiv gehen verloren; Weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in feste Zeilenumbrüche umgewandelt. Bindestriche zum Brechen eines Wortes über zwei Zeilen bleiben erhalten, auch wenn dies nicht der Fall sein sollte. und einfache und doppelte Anführungszeichen werden durch? Zeichen.
Idealerweise möchte ich in der Lage sein, Text aus einem PDF-Dokument zu kopieren und die Formatierung in HTML-Codes, "Anführungszeichen" in "und" und Zeilenumbrüche ordnungsgemäß umwandeln zu lassen. Gibt es eine Möglichkeit, dies zu tun??
Gibt es eine schnelle und einfache Möglichkeit für Colen (und den Rest von uns), Text zu holen, ohne die Formatierung zu beeinträchtigen?
Die Antwort
Der SuperUser-Mitwirkende Frabjous bietet eine Lösung in Kombination mit einer hohen Dosis Vorsicht:
Zuerst müssen Sie verstehen, was ein PDF ist. PDFs dienen zum Nachahmen einer gedruckten Seite und sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben, Satzzeichen usw.) oder Bilder enthält. In den meisten Fällen speichert ein PDF-Dokument nicht einmal Informationen darüber, wo ein Wort endet und ein anderes beginnt, ganz zu schweigen von weichen Unterbrechungen oder harten Unterbrechungen für Absatzenden.
(In einigen aktuellen PDF-Dateien werden einige Informationen zu diesem Material gespeichert, aber das ist eine neue Technologie, und Sie könnten sich glücklich schätzen, PDF-Dateien wie diese zu finden. Selbst wenn Sie es wissen, kann Ihr PDF-Viewer dies nicht wissen.)
Wie auch immer, es liegt an Ihrer Software, eine Art "künstliche Intelligenz" zu implementieren, um lediglich aus den Positionen einzelner Zeichen herauszufinden, was ein Wort ist, was ein Absatz ist und so weiter. Eine andere Software kann dies besser als andere machen und hängt auch davon ab, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Viel besser zu versuchen, das zu erhalten, wenn Sie können.
Die Standardlösung für Ihr Problem ist die Verwendung von Adobe Acrobat Professional (dem teuren, nicht dem kostenlosen Reader), um die PDF-Datei in HTML zu konvertieren. Selbst das wird keine perfekten Ergebnisse erzielen.
Es gibt kostenlose Software, mit der Text aus PDF-Dateien extrahiert werden kann, wobei einige Formatierungen intakt sind. Erwarten Sie jedoch keine perfekten Ergebnisse. Siehe z. B. Kaliber (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder den AbiWord-Textprozessor (mit allen Import- / Export-Plugins aktiviert). Es gibt auch ein PDF-Import-Plugin für OpenOffice.
Aber bitte erwarten Sie mit keinem dieser Ergebnisse Perfektion. Sie gehen hier gegen den Strich. PDF ist nur nicht als bearbeitbares Eingabeformat gedacht.
Wenn Sie Probleme haben, mit welchem Werkzeug Sie beginnen möchten, ist Calibre ein echtes Schweizer Taschenmesser. Sie können es auch verwenden, um PDF-Dateien für die Verwendung mit Ihrem E-Book-Reader zu konvertieren und Ihre E-Book- / Dokument-Bibliothek zu organisieren.
Haben Sie der Erklärung etwas hinzuzufügen? Ton aus in den Kommentaren. Möchten Sie mehr Antworten von anderen technisch versierten Stack Exchange-Benutzern lesen? Hier geht es zum vollständigen Diskussionsthread.