[Mediaevistik] Mediaevistik Nachrichtensammlung, Band 117, Eintrag 4

putmans.jean at telfort.nl putmans.jean at telfort.nl
Do Sep 1 14:15:09 CEST 2016


Vielen Dank Herr Bickel,

genau so, wie bei den Excel-Sheets mit den Übersetzungen, funktioniert mein System eigentlich ebenfalls:

Jeder einzelne Text wird nach Zeilen geordnet und mit einer für alle Textzeugen gemeinsamen übergeordneten laufenden Nummerierung (Fehlzeilen in einem Textzeugen werden in dem betreffenden Textzeugen als “FEHLZEILE” eingegeben, so dass die fortlaufende Nummerierung weiterläuft) in einer Spalte einer Tabelle eingegeben.

Für die Erstellung des Variantenapparats werden anschließend alle Texte einzeln in eine gesonderte Tabelle überführt, in der dann jedes Wort eine eigene Zelle in der Tabelle bekommt.

Danach ermittelt man für jeden Text, die höchste Zellenzahl einer Zeile (normalerweise: die meisten Wörter in einer Zeile). Die Textzeile mit den meisten Zellen ist dann die Grundlage für den nächsten Schritt (nehmen wir mal an die längste Textzeile braucht 20 Zellen, um jedem Wort eine eigene Zeile zu geben).

Gehen wir mal aus von einer Hs A und einer Hs B.

In einer Tabelle wird eine Gruppe van jeweils 20 Spalten für die Hs A und eine weitere Gruppe von 20 Spalten für die Hs B eingerichtet (leere Zellen erhalten alle den Wert “0” (Null).

Zeile 1 von Hs A enthält dann die Zellen A1, B1, C1 usw.

Zeile 1 von Hs B enthält dann die Zellen AA1 AB1 AC1 usw.

Jede einzelne Zelle enthält dann ein Wort der betreffenden Textzeile.

Nun kann man unterschiedliche Vergleiche automatisch anstellen:
A)
1)
A1 mit AA1
B1 mit AB1
C1 mit AC1
usw.

2)
Ausserdem kan man Vergleichen:
A1 mit AA1 AB1 AC1 … AT1 : Also ist A1 überhaupt in der betreffenden Zeile der Hs B enthalten.

3)
oder umgekehrt: ist AA1 überhaupt in der ersten Zeile von Hs A enthalten.

4)
Auch kann man eine Art von n-Gram-Prüfung einrichten

z.B. ein 3-Gram:
Ist die Folge "A1 B1 C1" in der ersten Zeile von Hs B enthalten (und umgekehrt.), danach "B1 C1 D1", dann "C1 D1 E1" usw.

B)
Die Ergebnisse der einzelnen Vergleiche kann man anschliessen zusammenfassen (Also man vergleicht Ergebnis aus dem 1:1 Vergleich mit den Ergebnissen aus den Vergleichen Eine Zelle: vollständige Zeile , und die Ergebnisse aus den n-Gram-Vergleichen).

Das Gesamtergebnis ergibt einen reinen Textvariantenapparat, der erhebliches Potenzial hat. Bislang bin ich soweit gekommen, dass der Schritt A soweit fertig ist. Ich arbeite noch an Schritt B.

Der Vorteil dieses Vorgehens ist, dass insbesondere in dem n-Gram-Vergleich noch viele Möglichkeiten gegeben sind (zB. ist erst dieser Vergleich in der Lage auch die Wörter genau (auch ihre Stelle in der Zeile) zu  ermitteln, die in einer Hs wohl, in der anderen  aber (an der Stelle) nicht enthalten sind.

Beispiel:

Text A
Der große Mann hat das Buch in dem Laden gekauft.

Text B
Der Mann hat das Buch in dem Laden gekauft

3-Gram-Vergleich

der große Mann    : Nicht in B
große Mann hat    : Nicht in B
Mann hat das       : Wohl in B
hat das Buch       : Wohl in B
usw.

Die Vergleichsmethode A1) (Zellenweise) schlägt leider schon nach “Der" (steht in beiden Hs als erste Zeile) fehl, da “große” in B fehlt und alle weiteren Zellen sich dadurch in der Reihenfolge  nicht mehr entsprechen.

Die Vergleichsmethode A2 ergibt, dass “große” in der betreffenden Zeile von Text B überhaupt nicht enthalten ist.

Die Vergleichsmethode A3 zusammen mit der aus A4 ergibt, dass alle Wörter in der Text-B-Zeile wohl in der Text-A-Zeile enthalten sind.

Der Vergleich der einzelnen Vergleichsmethoden (also Arbeitsschritt B) müsste dann dazu führen “große” als in Text B fehlendes Wort zu identifizieren.


Dies alles entspringt übrigens nicht meinem “Genie” sondern den Methoden des sogenannten “Textminings”, wie sie von Firmen wie Google, Facebook usw. angewandt werden (hin und wieder haben auch die Nützliches zu bieten).

Ich arbeite weiter daran.

Eigentlich hatte ich gehofft, dass es schon solche Softwaretools gäbe, die diese Art der Apparaterstellung als eigenständige Aufgabe erfüllen.


Mit freundlichem Gruß

Jean Putmans






Mehr Informationen über die Mailingliste Mediaevistik