Was ist neu

Texte bereinigen mit Simple Concordance

Mitglied
Beitritt
31.12.2005
Beiträge
67

Texte bereinigen mit Simple Concordance

Liebe Textschaffende,
folgenden Tip habe ich aus einem anderen Forum rüberkopiert. Ich habe das Programm auch schon getestet und muss sagen, für krankhafte Benutzer von Füllwörtern und alle unter Adjektivitis leidende ist das endlich mal was wirklich Nützliches, um seine Texte von überflüssigem Schrott zu befreien. Guckst Du hier:

wie findet man Wortwiederholungen und allzu häufig genutzte Lieblingswörter? Es gab schon den Tipp mit der farbigen Kennzeichnung in Word, wenn man ein einzelnes Wort überprüfen will. Aber nachdem Quidam bei mir ein extrem häufiges Wort gefunden hat, bei dem ich nie auf die Idee gekommen wäre, es zu überprüfen, wollte ich endlich ein Überprüfungsprogramm mit vielen Funktionen für alle Wörter finden.

Und ich habe es gefunden s20

Das Programm heißt Simple Concordance und ist Freeware.
Die Seite des Programmierers: http://www.textworld.com/

Das Programm gibt es für MacOS X und Windows.
An der Version 4.0.8 wird noch gearbeitet, also habe ich die Version SCP 4.0.7 (das ist auch die empfohlende Version) als self-installing-File heruntergeladen (10,9 MB, mit DSL ca. 1 Minute).

Bei zwei schlanken Systemen funktionierte die Installation perfekt. Bei einem vollgestopften System gab es die Meldung, dass im Windows-Systemordner bei der Datei Vbscript.dll kein Update möglich war, weil diese Datei von Windows 'protected' wurde. Das hatte bei mir aber keine Auswirkung auf die Funktionsweise des Programms.

Das Programm kann sehr, sehr viel, deswegen empfehle ich, wenigstens ein bisschen die Anleitung zu lesen:
Menüpunkt Help - Contents - Getting started.
In 'What is SCP' steht die Kurzbeschreibung.
In 'Beginner' steht der Rat, erst mal mit der Beispieldatei lincoln.scp das Programm kennenzulernen.

Für die extrem Ungeduldigen Wink habe ich hier den Schnelldurchlauf aufgeschrieben.

Die Frage: Welche Wörter schreibe ich in meinem Text viel zu oft und in welchen Sätzen stehen sie?

1. Den Text als *.txt-Datei abspeichern. Weil Word mir hier unübersichtlich viele Möglichkeiten bietet und ich jetzt auch zu faul war nachzulesen, was SCP denn gerne hätte, habe ich meinen gesamten Text in das Windows eigene 'Word Pad' kopiert und hier als normales Textdokument abgespeichert. (bei Textdokument MS-DOS-Format fehlen die Umlaute).

2. In SCP Datei laden (unten in der Auswahl von *.scp auf *.txt wechseln.)
SCP braucht zum Bearbeiten sein eigenes *.scp-Format, deswegen kommt jetzt ein auf den ersten Blick unübersichtliches Fenster.
Die wichtigen Punkte:
- unten rechts wählt man bei 'Alphabet': German
- rechts mitte kann man bei 'Build Vocabulary' auswählen, ob die Groß- oder Kleinschreibung bei Wörter beachtet werden soll.
'Merge' = Es und es werden zusammen gezählt.
'Separate' = Es und es werden als einzelne Wörter gezählt.
Ich wähle 'Separate', weil ich dadurch z. B. sehen kann, ob ich unverhältnismäßig viele Sätze mit Es beginne.
- abspeichern mit 'Save' als *.scp-Projekt.
- Button 'OK' anklicken.

3. Jetzt erscheint wieder das normale Fenster.
In der dritten Zeile unter den Bildchen steht 'Keywords' und daneben die Anzahl der verschiedenen Wörter im Text. Rechts davon ist das Pull-Down-Menü, wie man seine Wörter und deren Häufigkeiten denn gerne sortiert hätte.
Die erste Auswahl ist 'Ascending Alphabetic Order'.
Ich will die Wortliste nach Häufigkeiten geordnet haben mit den häufigsten zuerst. Das ist 'Decreasing Frequency Order'.

Es gibt drei Karteikartenreiter:
Concordance (hier sucht man einzelne Wörter und die Sätze, in denen sie stehen)
Word List (hier steht unsere wichtige Gesamt-Liste)
Statistics (für noch mehr statistische Angaben)

4. Word List anklicken
Für die Bildschirmansicht mag ich gerne eine einzige Spalte. Deswegen ändere ich im linken Pulldownmenü das 'Columns Left Aligned' auf 'One Column'. Wenn man seine Ergebnisse ausdrucken will, sind mehrere Spalten papiersparender.
Auf den Button rechts 'Word List' klicken - und die Liste erscheint!

5. Jetzt sehe ich dort ein häufiges Wort, bei dem ich die Sätze sehen will, in denen es steht.
Auf den Karteikartenreiter 'Concordance' klicken.
Das Wort neben 'Keys' eintippen. (Bei mehreren Wörtern 'Keys' im Pulldownmenü auf 'Phrase' ändern)
Unter dem Wort kann ich auswählen: Vorsilbe, Nachsilbe, Wort, irgendwo.
Ich suche das exakte Wort und wähle 'word'.
Klicke ich links auf den Button 'Kwic' werden mir alle Zeilen mit Nummern aufgelistet. Das Wort ist jeweils mittig zentriert und hat vor und hinter sich noch die Teilsätze (so viel eben in die Zeile passt).
Klicke ich links auf den Button 'Line', dann werden alle Absätze gelistet, in denen das Wort steht.

Wie sieht das alles bei Romanlänge aus? Eine Testdatei von 400.000 Anschlägen hat SCP auf einem Pentium III innerhalb von Sekunden verarbeitet.
Selbst wenn man sich alle Sätze anzeigen lässt, in denen 'die' steht, schafft es das in 10 Sekunden.

Viel Spaß beim Überprüfen!
Andrea

Und viel Spaß auch von mir
Stefan

 

Öhm...
Es gibt eine Rubrik, die heißt Tools. Einfach mal die Augen aufmachen ;). Und aussagekräftige Titel sind praktisch.

Thread verschoben. Titel geändert.

 

Hi,

klingt recht kompliziert.
Ich könnte bei Gelegenheit vielleicht ein Utility programmieren, welches z.B. die 100 meistverwendeten Wörter in einem Text ausgibt. Wenn sowas gebraucht wird und ich die Zeit dazu finde.

Gruß, Nordwind

 

Hi Nordwind,

Das mit den "meistverwendeten Wörtern" klingt zwar interessant, aber wie stellst du dir das vor? So ein Programm müsste ja streng genommen gebeugte Verben, Adjektive in unterschiedlichen Fällen und Singular/Plural bei Wörter unterscheiden können. Sonst gibt es ja nur die am meisten vorkommenden Zeichenketten und das ist nicht besonders aussagekräftig ...

Gruß,
HienTau

 

Hallo HienTau,

ich denke, so eine Unterscheidung macht "Simple Concordance" auch nicht. Der Aufwand für so etwas wäre imens gross, genau wie die Pflege einer damit verbundenen Datenbank.
Letzten Endes ist der User für die Auswertung der Analyse zuständig.

Gruß, Nordwind

 

Hi,

hab' mal ein wenig Zeit gehabt und das Rahmengerüst des Programms steht schon.
Interessant, welche Worte häufig vorkommen. Der John Sinclair Roman 1240 z.B. beinhaltet 774 mal "die", 742 mal "ich" und 698 mal "und".
"Jetzt" kommt immerhin 72 mal vor und "richtig" nur 6 mal.
Die Statistik kann bisher sortiert werden nach Häufigkeit und den gefundenen Wörtern.
Anregungen nehme ich gerne entgegen.

Gruß, Nordwind

 
Zuletzt bearbeitet:

Das Programm ist fast fertig. Screenshot.

Gruß, Nordwind

 

Letzte Empfehlungen

Neue Texte

Zurück
Anfang Bottom