Extrahieren Sie Text aus PDF- und Bilddateien


Haben Sie ein PDF-Dokument, aus dem Sie den gesamten Text extrahieren möchten? Was ist mit Bilddateien eines gescannten Dokuments, das Sie in bearbeitbaren Text konvertieren möchten? Dies sind einige der häufigsten Probleme, die ich am Arbeitsplatz bei der Arbeit mit Dateien gesehen habe.

In diesem Artikel werde ich über verschiedene Wege sprechen, wie Sie versuchen können, Text aus einer PDF-Datei zu extrahieren oder von einem Bild. Ihre Extraktionsergebnisse variieren je nach Art und Qualität des Texts in der PDF-Datei oder im Bild. Außerdem variieren die Ergebnisse je nach verwendetem Werkzeug. Daher sollten Sie möglichst viele der unten aufgeführten Optionen ausprobieren, um die besten Ergebnisse zu erzielen.

Extrahieren Sie Text aus Bild oder PDF

Der einfachste und schnellste Weg zum Starten ist ein Online-PDF-Text-Extraktor-Service. Diese sind normalerweise kostenlos und können Ihnen genau das geben, wonach Sie suchen, ohne etwas auf Ihrem Computer installieren zu müssen. Hier sind zwei, die ich mit sehr guten bis ausgezeichneten Ergebnissen verwendet habe:

ExtractPDF

extractpdf

AuszugPDF ist ein kostenloses Tool, um Bilder, Text und Schriftarten aus einer PDF-Datei zu holen. Die einzige Einschränkung ist, dass die maximale Größe für die PDF-Datei 10 MB beträgt. Das ist ein bisschen klein; Wenn Sie also eine größere Datei haben, probieren Sie einige der folgenden Methoden aus. Wählen Sie Ihre Datei und klicken Sie dann auf die Schaltfläche Datei senden. Die Ergebnisse sind normalerweise sehr schnell und Sie sollten eine Vorschau des Textes sehen, wenn Sie auf die Registerkarte Text klicken.

download text

Es ist auch nett Zusatznutzen, dass es auch Bilder aus der PDF-Datei extrahiert, falls Sie diese benötigen! Alles in allem funktioniert das Online-Tool gut, aber ich habe ein paar PDF-Dokumente gefunden, die mir lustige Ergebnisse liefern. Der Text ist gut extrahiert, aber aus irgendeinem Grund wird es einen Zeilenumbruch nach jedem Wort haben! Kein großes Problem für eine kurze PDF-Datei, aber sicherlich ein Problem für Dateien mit viel Text. Wenn das bei Ihnen der Fall ist, versuchen Sie es mit dem nächsten Tool.

Online OCR

Online-OCR funktioniert normalerweise bei Dokumenten, die nicht korrekt mit ExtractPDF konvertiert wurden Es ist also eine gute Idee, beide Dienste auszuprobieren, um zu sehen, welche die bessere Ausgabe liefert. Online-OCR hat auch einige schönere Funktionen, die sich für jeden mit einer großen PDF-Datei als nützlich erweisen können, die nur Text auf einigen Seiten anstatt dem ganzen Dokument konvertieren muss.

Das erste, was Sie tun möchten, ist zu gehen vor und erstellen Sie ein kostenloses Konto. Es ist ein bisschen nervig, aber wenn Sie das kostenlose Konto nicht erstellen, konvertiert es nur teilweise Ihr PDF und nicht das gesamte Dokument. Anstatt nur ein 5-MB-Dokument hochladen zu können, können Sie bis zu 100 MB pro Datei mit einem Konto hochladen.

online ocr

Zuerst Wählen Sie eine Sprache und dann die Art der Ausgabeformate, die Sie für die konvertierte Datei wünschen. Sie haben ein paar Optionen und Sie können mehrere auswählen, wenn Sie möchten. Unter Mehrseitiges Dokumentkönnen Sie Seitenzahlenauswählen und dann nur die Seiten auswählen, die Sie konvertieren möchten. Dann wählen Sie die Datei aus und klicken auf Konvertieren!

online ocr docs

Nach der Konvertierung gelangen Sie in den Bereich Dokumente (sofern Sie angemeldet sind), in dem Sie sehen können, wie viele freie Seiten Sie noch haben und Links zum Herunterladen Ihrer konvertierten Dateien. Es scheint, als ob Sie nur 25 Seiten pro Tag kostenlos haben. Wenn Sie also mehr benötigen, müssen Sie entweder etwas warten oder mehr Seiten kaufen.

Online-OCR hat eine hervorragende Arbeit geleistet meine PDFs, weil es das tatsächliche Layout des Textes beibehalten konnte. In meinem Test habe ich ein Word-Dokument verwendet, das Aufzählungszeichen, verschiedene Schriftgrößen usw. verwendet und es in ein PDF konvertiert hat. Dann habe ich Online-OCR verwendet, um es wieder in Word-Format zu konvertieren, und es war ungefähr 95% das gleiche wie das Original. Das ist ziemlich beeindruckend für mich.

Wenn Sie ein Bild in einen Text konvertieren möchten, dann kann Online OCR das genauso einfach machen wie das Extrahieren von Text aus PDF-Dateien.

Kostenlos Online-OCR

Da wir über Bild-zu-Text-OCR gesprochen haben, möchte ich noch eine gute Website erwähnen, die wirklich gut auf Bildern funktioniert. Free Online-OCR war sehr gut und sehr genau beim Extrahieren von Text aus meinen Testbildern. Ich habe ein paar Fotos von Seiten von Büchern, Flugblättern usw. von meinem iPhone gemacht und ich war überrascht, wie gut es in der Lage war, den Text zu konvertieren.

free online ocr

Wählen Sie Ihre Datei und klicken Sie dann auf die Schaltfläche Hochladen. Auf dem nächsten Bildschirm gibt es einige Optionen und eine Vorschau des Bildes. Sie können es zuschneiden, wenn Sie das ganze nicht OCR wollen. Klicken Sie dann einfach auf den OCR-Button und Ihr konvertierter Text erscheint unter der Bildvorschau. Es hat auch keine Einschränkungen, was wirklich nett ist.

Zusätzlich zu den Online-Diensten gibt es zwei Freeware-PDF-Konverter, die ich erwähnen möchte, falls Sie Software benötigen, die lokal auf Ihrem Computer ausgeführt wird die Konvertierungen. Bei Online-Diensten benötigen Sie immer eine Internetverbindung, und das ist möglicherweise nicht für alle möglich. Allerdings stellte ich fest, dass die Qualität der Conversions aus den Freeware-Programmen deutlich schlechter war als die der Websites.

A-PDF Text Extractor

A-PDF Text Extraktor ist eine Freeware, die ziemlich gut Texte aus PDF-Dateien extrahiert. Sobald Sie es heruntergeladen und installiert haben, klicken Sie auf die Schaltfläche Öffnen, um Ihre PDF-Datei auszuwählen. Klicken Sie dann auf Text extrahieren, um den Prozess zu starten.

apdf extractor

Sie werden nach einem Speicherort für die Textausgabedatei gefragt und dann beginnt die Extraktion . Sie können auch auf die Schaltfläche Optionklicken, mit der Sie nur bestimmte zu extrahierende Seiten und den Extraktionstyp auswählen können. Die zweite Option ist interessant, weil sie den Text in verschiedenen Layouts extrahiert und es lohnt sich, alle drei auszuprobieren, um zu sehen, welche die beste Ausgabe liefert.

PDF2Text Pilot

PDF2Text Pilot macht es gut, Text zu extrahieren. Es hat keine Optionen; Sie fügen einfach Dateien oder Ordner hinzu, konvertieren und hoffen auf das Beste. Es funktionierte gut auf einigen PDFs, aber für die Mehrheit von ihnen gab es zahlreiche Probleme.

pdf2text

Klicken Sie einfach auf Dateien hinzufügen und dann auf Konvertieren. Sobald die Konvertierung abgeschlossen ist, klicken Sie auf Durchsuchen, um die Datei zu öffnen. Ihre Laufleistung variiert mit diesem Programm, also erwarten Sie nicht viel.

Es ist auch erwähnenswert, dass Sie, wenn Sie sich in einer Unternehmensumgebung befinden oder eine Kopie von Adobe Acrobat von der Arbeit bekommen, wirklich viel bessere Ergebnisse erzielen können. Acrobat ist natürlich nicht kostenlos, aber es gibt Optionen, um PDF in das Word-, Excel- und HTML-Format zu konvertieren. Es macht auch die beste Arbeit, die Struktur des Originaldokuments zu erhalten und komplizierten Text zu konvertieren.

Adobe Acrobat Tutorial: Alle Bilder einer PDF Datei extrahieren

Zusammenhängende Posts:


13.11.2014