You had one job to do (Don Cheadle).
Journaillisten sein ist eben die dümmste Lebensform hierzulande, da sie im voprliegenden Fall mit the great leak swindle dahergeschwindelt kommt.
So behalten die Schmierfinken die Deutungshoheit über das Dokument, und genau darum geht es. Um nichts anderes.
Das, was ich im folgenden Beitrag darstelle wäre Aufgabe dieser lebensunfähigen species gewesen, die sich durch Arbeitsverweigerung auszeichnet. Es geht darum, aus den 1017 Seiten Internetzitatesammlung eine nach Textmustern durchsuchbare Datei zu erstellen. Ich werde den Workflow am Beispiel der Seite 577, die ich bereits zitierte, erläutern. Am Ende wird man mit einer durchsuchbaren Datei belohnt, die nur durch die technischen Grenzen wegen der schlechten Bildqualität beeinträchtigt ist.
Da ganze fand unter Windows statt. An Software kamen zum Einsatz:
- PDF24 11.25.1 mit integriertem tesseract 5.4.1
- tesseract v5.4.0.20240606
- Image Magick 7.1.1-47 Q16 x64
- Ghostscript 10.05.1 (von Image Magick benötigt, weil die PDF-Routinen von dort gezogen werden)
- xnview 2.52.1
Für alle Zwischenschritte muß genügend Holz vor der Hütte rumliegen. So an die 20 GB wären angenehm, werden allerdings nicht benötigt.
Zuerst startet man PDF24. Damit läßt sich die PDF-Datei in eine Bildersammlung separieren. Als Ausgabedensity sollte mindestens 200dpi, besser 300dpi gewählt werden, damit die OCR später genügend Pixelmaterial für die Texterkennung hat.
Die Bilddateien liegen dann in dieser Qualität vor und harren der Stapelverarbeitung.
Nun kommt xnview zum Zuge, denn das ist stapelverarbeitungsfähig.
Man öffnet den Ordner, in dem alle Bilddateien gespeichert sind und markiert alle mit STRG+a.
Hier weden die Standards eingestellt, Zielformat usw.
Jetzt werden die Umwandlungsschritte für die Stapelverarbeitungsschritte hinzugefügt. Das sind in der Reihenfolge
Die Leinwandgröße muß man per Experiment selber rauskriegen. Lieber großzügig, sonst werden inhaltliche Teile der der Bilder weggeschnitten.
Bei Kontrast trägt man 120 ein. Das sorgt dafür, daß die grauen Flächen in großen Teilen eleminiert werden.
Um die Lesbarkeit de Textes etwas zu pimpen, ist der Gammawert auf 0.9 zu stellen.
Der letzte Stapelschritt wäre die Wandlung in Dateien mit 8-Bit-Farbtiefe, was 256 Graustufen ergibt.
Jetzt geht man zur Kaffemaschine und leiert sich einen Schwarzen raus, denn das dauert, bis das fertig ist.
Das Ergebnis ist dann unter anderem ein Ordner solcher Bilder, als wenn sie von Achim Detjen höchstpersönlich mit einer Minox abfotografiert und anschließen an die Genossen in Berlin zur Auswertung gesandt wurden. Die sind für tesseract ausreichend gut gewesen.
Da PDF24 beim OCR geschwächelt hat und einige Seiten ausließ, habe ich alles mit tesseract ocert (heißt das so?). Dazu wird im Ordner, der ocert werden soll, eine Kommandozeile geöffnet. (PDF24 nutzt auch nur tesseract, hat aber weiße Seiten hinterlassen.)
c:\ordner\for %i in (*.tif) do tesseract %i %~ni -l deu pdf
Vermittels dieses Kommandos werden alle Tif-Dateien in dem Ordner einem OCR-Waschgang unterzogen und unter gleichem Namen als PDF-Datei mit hinterlegtem Textlayer abgespeichert. Am Ende steht man mit über 1000 einzelnen PDF Dateien da.
Jetzt kann man wieder PDF24 Starten und die Option als PDF zusammenfügen in der Toolbox wählen. Das geht schnell genug und am Ende wird man mit einer durchsuchbaren Datei belohnt, die gut genug ist, um herauszufinden, daß Danisch darin nicht mehr vorkommt.
Als Beispiel sei die hier vorgestellte Seite für eine Suche empfohlen. LGBTQI kommt zweimal vor, wird nur einmal gefunden. Für einen schnellen Überblick ist das völlig okay.
Schwierig wird es bei Impfung, denn das ist Bestandteil von Verunglimpfung, das von den Schrifstellern des Zirkels schreibender Geheimdienstler beim Bundesamt für Verfassungsschutz gefühlt 2000 Mal im Text verwandt wurde, so daß die Unterscheidung zwischen Verunglimpfung von Impfkritikern durch Verfassungsschützer und der Impfkritik schwer ist. Das muß dann leider in separater Fallunterscheidung anhand gefundener Textstellen geklärt werden.
Der reine Text für Interessenten as raw as possible, also so, wie die Texte aus tesseract rausgefallen sind und in einer Textdatei vereint wurden (copy *.txt neu.txt, geht in unter einer Sekunde).
Ich mag keine deutschen Journaillisten, die vorgeben, daß sie tolle und fleißige Kerle sind. Sind sie nicht. Deren Sympathielevel bewegt sich in etwa auf dem Level von Drogendealern. Eigentlich gehören die in die Produktion, denn da können sie deutlich weniger Schaden anrichten. Ihr seid Luschen.