Extrahieren Sie Text aus PDF- und Bilddateien
Haben Sie ein PDF-Dokument, aus dem Sie den gesamten Text extrahieren möchten? Wie sieht es mit Bilddateien eines gescannten Dokuments aus, das Sie in bearbeitbaren Text konvertieren möchten? Dies sind einige der häufigsten Probleme, die am Arbeitsplatz bei der Arbeit mit Dateien aufgetreten sind.
In diesem Artikel werde ich über verschiedene Möglichkeiten sprechen, wie Sie versuchen können, Text aus einer PDF-Datei oder einem Bild zu extrahieren. Die Ergebnisse der Extraktion variieren je nach Art und Qualität des Textes in der PDF-Datei oder im Bild. Außerdem variieren Ihre Ergebnisse je nach verwendetem Werkzeug. Daher sollten Sie möglichst viele der folgenden Optionen ausprobieren, um die besten Ergebnisse zu erzielen.
Extrahieren Sie Text aus Bild oder PDF
Der einfachste und schnellste Weg, um zu starten, ist der Online-PDF-Extraktionsdienst. Diese sind normalerweise kostenlos und können Ihnen genau das bieten, wonach Sie suchen, ohne etwas auf Ihrem Computer installieren zu müssen. Hier sind zwei, die ich mit sehr guten bis hervorragenden Ergebnissen verwendet habe:
ExtractPDF
ExtractPDF ist ein kostenloses Tool, um Bilder, Text und Schriftarten aus einer PDF-Datei herauszuholen. Die einzige Einschränkung ist, dass die maximale Größe der PDF-Datei 10 MB beträgt. Das ist ein bisschen klein. Wenn Sie also eine größere Datei haben, probieren Sie einige der folgenden Methoden aus. Wählen Sie Ihre Datei aus und klicken Sie auf Datei senden Taste. Die Ergebnisse sind normalerweise sehr schnell und Sie sollten eine Vorschau des Textes anzeigen, wenn Sie auf die Registerkarte Text klicken.
Es ist auch ein schöner Zusatznutzen, dass Bilder auch aus der PDF-Datei extrahiert werden, nur für den Fall, dass Sie diese benötigen! Insgesamt funktioniert das Online-Tool hervorragend, aber ich habe ein paar PDF-Dokumente gefunden, die mir eine lustige Ausgabe liefern. Der Text wird gut extrahiert, aber aus irgendeinem Grund wird nach jedem Wort ein Zeilenumbruch ausgeführt! Kein großes Problem für eine kurze PDF-Datei, aber sicherlich ein Problem für Dateien mit viel Text. Wenn Ihnen das passiert, probieren Sie das nächste Werkzeug aus.
Online-OCR
Online-OCR funktionierte in der Regel für Dokumente, die mit ExtractPDF nicht ordnungsgemäß konvertiert wurden. Daher sollten Sie beide Dienste ausprobieren, um zu sehen, mit welchen Sie bessere Ergebnisse erzielen. Online-OCR verfügt auch über einige schönere Funktionen, die sich für jedermann als praktisch erweisen können, wenn eine große PDF-Datei nur Text auf wenigen Seiten und nicht das gesamte Dokument konvertiert.
Als Erstes möchten Sie ein kostenloses Konto erstellen. Das ist etwas nervig, aber wenn Sie das kostenlose Konto nicht erstellen, wird Ihre PDF-Datei nur teilweise konvertiert und nicht das gesamte Dokument. Anstatt nur ein 5-MB-Dokument hochladen zu können, können Sie mit einem Konto bis zu 100 MB pro Datei hochladen.
Wählen Sie zunächst eine Sprache aus und wählen Sie dann das gewünschte Ausgabeformat für die konvertierte Datei aus. Sie haben mehrere Optionen und Sie können mehr als eine auswählen, wenn Sie möchten. Unter Mehrseitiges Dokument, Sie können auswählen Seitenzahlen Wählen Sie dann nur die Seiten aus, die Sie konvertieren möchten. Dann wählen Sie die Datei aus und klicken auf Konvertieren!
Nach der Konvertierung gelangen Sie in den Bereich Dokumente (falls Sie angemeldet sind), in dem Sie sehen können, wie viele freie Seiten Sie noch übrig haben, und Links zum Herunterladen der konvertierten Dateien. Es scheint, als hätten Sie nur 25 kostenlose Seiten am Tag. Wenn Sie mehr als das benötigen, müssen Sie entweder etwas warten oder mehr Seiten kaufen.
Online OCR hat meine PDF-Dateien hervorragend konvertiert, da sie das tatsächliche Layout des Textes beibehalten konnte. In meinem Test nahm ich ein Word-Dokument mit Aufzählungszeichen, unterschiedlichen Schriftgrößen usw. und konvertierte es in eine PDF-Datei. Dann habe ich Online OCR verwendet, um es wieder in das Word-Format zu konvertieren, und es war ungefähr 95% gleich wie das Original. Das ist ziemlich beeindruckend für mich.
Wenn Sie ein Bild in Text konvertieren möchten, kann Online OCR dies ebenso tun wie das Extrahieren von Text aus PDF-Dateien.
Kostenlose Online-OCR
Lassen Sie mich, da wir über Bild zu Text-OCR gesprochen haben, eine weitere gute Website erwähnen, die sich sehr gut für Bilder eignet. Free Online OCR war beim Extrahieren von Text aus meinen Testbildern sehr gut und sehr genau. Ich habe ein paar Fotos von meinem iPhone mit Seiten von Büchern, Broschüren usw. gemacht und war überrascht, wie gut der Text konvertiert werden konnte.
Wählen Sie Ihre Datei aus und klicken Sie auf die Schaltfläche Hochladen. Auf dem nächsten Bildschirm gibt es einige Optionen und eine Vorschau des Bildes. Sie können es beschneiden, wenn Sie nicht die ganze Sache mit OCR abschließen möchten. Klicken Sie einfach auf die Schaltfläche OCR, und der konvertierte Text wird unter der Bildvorschau angezeigt. Es hat auch keine Einschränkungen, was wirklich nett ist.
Neben den Onlinediensten gibt es zwei Freeware-PDF-Konverter, die ich erwähnen möchte, falls Sie Software benötigen, die lokal auf Ihrem Computer ausgeführt wird, um die Konvertierungen durchzuführen. Bei Onlinediensten benötigen Sie immer eine Internetverbindung, die möglicherweise nicht für alle Benutzer möglich ist. Ich habe jedoch festgestellt, dass die Qualität der Konvertierungen der Freeware-Programme deutlich schlechter war als die der Websites.
A-PDF Text Extractor
A-PDF Text Extractor ist eine Freeware, die Text aus PDF-Dateien ziemlich gut extrahieren kann. Wenn Sie es heruntergeladen und installiert haben, klicken Sie auf die Schaltfläche Öffnen, um Ihre PDF-Datei auszuwählen. Klicken Sie dann auf Text extrahieren, um den Vorgang zu starten.
Sie werden nach einem Speicherort für die Textausgabedatei gefragt und dann wird mit dem Extrahieren begonnen. Sie können auch auf klicken Möglichkeit Schaltfläche, mit der Sie nur bestimmte zu extrahierende Seiten und den Extraktionstyp auswählen können. Die zweite Option ist interessant, da der Text in verschiedenen Layouts extrahiert wird und es sich lohnt, alle drei zu versuchen, um herauszufinden, welche die beste Ausgabe ergibt.
PDF2Text Pilot
Mit PDF2Text Pilot können Sie Text extrahieren. Es hat keine Optionen; Sie fügen einfach Dateien oder Ordner hinzu, konvertieren und hoffen auf das Beste. Bei einigen PDF-Dateien hat es gut funktioniert, aber für die meisten von ihnen gab es zahlreiche Probleme.
Klicken Sie einfach auf Dateien hinzufügen und dann auf Konvertieren. Klicken Sie nach Abschluss der Konvertierung auf Durchsuchen, um die Datei zu öffnen. Ihr Kilometerstand wird mit diesem Programm variieren, erwarten Sie also nicht viel.
Erwähnenswert ist auch, dass Sie, wenn Sie sich in einer Unternehmensumgebung befinden oder eine Kopie von Adobe Acrobat von der Arbeit erhalten können, wirklich bessere Ergebnisse erzielen können. Acrobat ist natürlich nicht kostenlos, aber es bietet Optionen zum Konvertieren von PDF-Dateien in das Word-, Excel- und HTML-Format. Es ist auch die beste Aufgabe, die Struktur des Originaldokuments beizubehalten und komplizierten Text zu konvertieren.