Was ist neu

PTTGui, reine Texte aus Pdf extrahieren (Pdf2Txt).

Mitglied
Beitritt
25.08.2004
Beiträge
305
Zuletzt bearbeitet:

PTTGui, reine Texte aus Pdf extrahieren (Pdf2Txt).

Ein Freeware-Tool, um reine Texte (ohne Seiten- und Herstellerangaben) aus Pdf-Dateien/Pdf-EBooks zu extrahieren.

Aus der Idee heraus entstanden, EBooks per Sprachausgabe zu vertonen. Ebooks können im Internet auf vielen Seiten runtergeladen werden, meisstens als PDF-Datei.
In diesen Dateityp eingebettet sind aber oft Seitenangaben, Copyright-Meldungen und sonstige - in einem Hörbuch unerwünsche - Textstellen. Und da kommt jetzt mein Tool PTTGui ins Spiel.
Das Programm ist eine grafische Oberfläche zur Pdf2txt.exe aus dem Xpdf-Pakets (2.02) von Glyph & Cog, LLC (liegt im Programmordner als Zip-Datei vor) und extrahiert alle Texte aus Pdf-Dateien. Erweitert habe ich das Ganze um ein paar einfach zu handhabene Buttons und eine editierbare Floskel-Liste (verkraftet auch Reguläre Ausdrücke), um unerwünsche Textpassagen schnell entfernen zu können.

Zu finden auf meiner Webpage.

 

Hey Nordwind, nur damit ich das richtig verstehe.
Das Tool sorgt also dafür, dass Microsoft Sam mir die Seitenzahlen und Copyrightshinweise nicht mit vorliest?
Wozu vertont jemand E-Books per Sprachausgabe, da fehlt doch jede Betonung?

 
Zuletzt bearbeitet:

Hi Sim,

nein, nein. Das Tool macht aus Pdf-Dateien nur Text-Dateien. Nebenbei kann der Benutzer aber auf einfache Weise vor dem Speichern der Texte Seitenzahlen und sonstige nicht benötigte Textpassagen entfernen.

Die systeme SAPI-Sprachausgabe ist natürlich nicht das Gelbe vom Ei. Ich persönlich habe mir den Voice Reader von linguatec zugelegt. Die dort erzeugte Sprache hört sich viel menschlicher an, und betont Wörter und Sätze auch, fast wie ein menschlicher Vorleser. Dabei werden Textdateien eingelesen und heraus kommen gesprochene MP3-Dateien. Wirklich sehr praktisch für unterwegs zum Hören!
Hier ein Link zum Hersteller des Voice Readers, sogar zum Ausprobieren der Sprachumsetzung: http://www.linguatec.de/onlineservices/voice_reader

Ich hoffe, du siehst jetzt etwas klarer.
Hier noch eine meiner Geschichten als fertige Mp3-Datei zum anhören.

 

Das Programm an sich ist sehr nützlich!
Doch ich habe ein Problem: Die meisten, oder fast alle, meiner E-Books haben als erste Seite ein Cover oder ein sonstiges Bild.
Öffne ich nun mit dem Programm ein solches E-Book, wird der Text nicht umgewandelt.

Kann ich was tun, um diese Bücher trotzdem zu extrahieren?

 

Wenn Du Zugriff auf den Adobe Acrobaten oder ein vergleichbares Tool hast, kannst Du die erste Seite rausnehmen und die restliche pdf-Datei dann speichern und extrahieren.

 

Das Programm an sich ist sehr nützlich!
Doch ich habe ein Problem: Die meisten, oder fast alle, meiner E-Books haben als erste Seite ein Cover oder ein sonstiges Bild.
Öffne ich nun mit dem Programm ein solches E-Book, wird der Text nicht umgewandelt.

Kann ich was tun, um diese Bücher trotzdem zu extrahieren?


Hallo,

einige E-Books sind verschlüsselt abgespeichert. Solche Pdf's können durch das Programm nicht gelesen werden.
Wenn nur der Text des Titelbilds nicht mit angezeigt wird, der restliche Text aber schon, dann liegt das daran, dass der Text im Titelbild nur Teil der Grafik ist. Diese Daten liegen also nicht in Textform vor.

Wenn du mir eines dieser E-Books zuschickst, kann ich gerne mal nachsehen, ob sich dieses umwandeln lässt oder nicht. Meine Mailadresse kannst du meiner Webpage entnehmen.

Gruß, Nordwind

 

bei mir gehts auch nicht.
ich habe allerdings das programm nur mit einem musikbuch probiert, weuil ich einen titel- indez anlegen wollte. ( damit ich songtitel im computer schnell finden kann, also welcher titel in welchem buch ist)
weisst du da ein programm für?

 

So auf die Schnelle nicht. Pdf's sind eben sehr unterschiedlich und variabel.

 

Letzte Empfehlungen

Neue Texte

Zurück
Anfang Bottom