Linux und die Idee der freien Software sind eng verwoben. Proprietäre Software kann zwar theoretisch für Linux vertrieben werden, das ideologische Umfeld und die geringe Verbreitung haben hier aber kein großes Ökosystem entstehen lassen. Einige prominente Ausnahmen möchte ich hier kurz vorstellen. Im vierten Teil: VueScan von Hamrick.
Ich habe bereits 2014 meine Arbeitsweise komplett digitalisiert. Sowohl was den privaten Papierkram betrifft als auch meine wissenschaftliche Tätigkeit. Das Prinzip ist denkbar einfach: Alles was an Papier reinkommt, jage ich durch einen Einzugscanner (immer noch der gleiche Brother Dokumentenscanner) und speichere es auf meinem System in einer simplen Dateistruktur. Auf eine umfangreiche DMS-Lösung verzichte ich bewusst, weil man sich damit einem gewaltigen Vendor-Lock-in-Risiko aussetzt. Eine gute Dateistruktur, PDF + OCR und eine mächtige Suchfunktion auf dem Desktop (Spotlight und Baloo machen einen guten Job) reichen völlig aus.
2020 war ich für diesen Ansatz aus zweierlei Gründen unglaublich dankbar. Im April schlossen im ersten Lockdown auch alle wissenschaftlichen Bibliotheken und seitdem ist der Besuch in Bibliotheken je nach Bundesland erheblich eingeschränkt. Ich hatte alle relevante Literatur privat gescannt und konnte einfach weiterarbeiten. Im Oktober ging ich dann unter die Berufspendler und bei zwei Wohnsitzen ist es sehr praktisch, wenn man alle relevanten Unterlagen immer auf dem Notebook dabei hat (umso mehr braucht es starke Verschlüsselung).
VueScan
Schwache Alternativen
Scannen unter Linux ist insgesamt einfacher als 2014. Manuelle Bearbeitung irgendwelcher udev-Richtlinien und ständige Treiberprobleme sind nicht mehr so an der Tagesordnung wie damals. Ansonsten sind die Fortschritte aber marginal.
Mancher mag sich jetzt denken: Wozu braucht es noch eine Scanner-Software für Linux? Und ja, der Sachverhalt ist auf gewisse Art sehr traurig. Linux hat alles, was es für eine gute Scan-Lösung braucht. Eine ungewöhnlich einheitliche Grundlage (sane), tolle freie Lösungen wie tesseract für OCR und gute Werkzeuge für Grafikmanipulation.
Nur bleibt es eben bei diesen Einzellösungen. Die KDE-Lösung Skanlite ist im letzten Jahrtausend stecken geblieben, das gilt ebenso für xsane und die GNOME-Alternative SimpleScan folgt der GNOME-Philosophie (hält den Nutzer also für einen Idioten, den man nicht mit Optionen überfordern darf). GScan2PDF ist zwar theoretisch sehr mächtig, aber ich habe es nie geschafft, damit gute OCR-Ausgaben hinzubekommen. Gleiches gilt für Paperwork.
Um mit Linux zu scannen, braucht man also mehrere Tools. Sane und Treiber, eine Scan-Anwendung, eine OCR-Lösung, eine PDF-Bearbeitung. Das ist nicht unmöglich, aber für den täglichen Einsatz viel zu kompliziert und zeitaufwendig. Oder man nimmt eben VueScan von Hamrick.
Manche mögen mir wieder eine negative Sicht auf die Möglichkeiten freier Software vorwerfen, aber mit dieser Meinung scheine ich nicht alleine zu sein:
Leider sind Scannerprogramme unter Linux nicht vergleichbar zu den Programmen, die man unter Windows kennt. Es fehlen durchweg wichtige – professionelle – Funktionen (z.B. Entrastern oder Staub/Fleckenentfernung).
ubuntuusers Wiki – Scanner
Funktionen
VueScan spielt seine Stärken gleich doppelt aus. Es ist von Sane unabhängig und unterstützt unfassbar viele Geräte. VueScan wird deshalb gerne beworben, wenn es um die Unterstützung von Geräten geht, die schon lange keinen Hersteller-Support mehr bekommen und für die keine Treiber mehr zur Verfügung gestellt werden.
VueScan hat aber auch sehr viele Funktionen. Die Professional Edition unterstützt als Kernfunktionen:
- Flachbett und Dokumenteneinzug.
- Duplex
- OCR
- Optimierung für Fotos
Hinzu kommen ungeahnte Möglichkeiten zur Feinjustrierung. Als Beispiel kann hier ein Screenshot der erweiterten Einstellungen dienen:
Diese muss man aber nicht nutzen, da VueScan bereits bei Standardeinstellungen sehr gute Ausgaben liefert.
VueScan nutzt für die Oberfläche Gtk2, wodurch es sich leidlich gut in moderne Desktopumgebungen integriert.
Ähnlich wie bei den anderen proprietären Softwarelösungen, die in dieser Serie vorgestellt werden, bin ich froh, VueScan nutzen zu dürfen. Ich mag Linux und arbeite gerne damit, aber wenn es in den semi-professionellen Office-Bereich geht, ist freie Software einfach oft unzureichend. Für Office, Scannen, Banking bin ich einfach dankbar, auf professionelle Software zurückgreifen zu können, die ein funktionierendes Geschäftsmodell haben und deren Entwickler diese langfristig pflegen.
Hey Gerrit, ich weiß du bist kein großer Fan von Insellösungen, aber kennst du ocrmypdf?
https://ocrmypdf.readthedocs.io/en/latest/docker.html
Das ist was ich benutze um meine Scans durchsuchbar zu machen. Allerdings habe ich auch einen Netzwerkscanner, der automatisch die Datein auf meinem SMB Server ablegt. Der Watchdog bei ocrmypdf macht dann ein durchsuchbares pdf draus. Ich hatte, mehr oder weniger für mich selbst, auch eine kleine Anleitung online gestellt.
https://deisi.github.io/posts/papierloses_buero/
Ich brauch/will halt eine integrierte Lösung. Die Scansoftware soll mir ein fertiges PDF mit OCR in guter Qualität ohne notwendige Nacharbeiten in ein Eingangsverzeichnis packen. Wie schon geschrieben: Natürlich kann man das auch mit 2-3 Lösungen separat bewerkstelligen, die man vielleicht per Script hintereinander schaltet, aber das ist mir echt zu nervig 😉
Also da braucht es kein Script. Im Prinzip funktioniert die Verarbeitung wie ein Emailpostfach mit automatischer Sortierung. Du definierst den Input- und den Outputordner. Danach werden alle PDFs die im Inputordner landen automatisch OCR gescannt und in den Outputordner verschoben.
Man muss das ganze halt einmal konfigurieren. Danach läuft es aber voll automatisch. Es handelt sich um eine modulare Lösung. OCR ist unabhängig vom Scan. “Do one thing and do it well” mit all seinen Nach- und Vorteilen. Aber klar, wenn du eine Integrierte Lösung willst, dann ist das eben eine deiner monierten Insellösungen. Muss man ja nicht wollen.
Für mich ist es perfekt, da so auch z.B. meine Frau das Problemlos nutzen kann. Einfach den Scanner anmachen, einlegen, scannen und am PC kann die Datei abgeholt werden. Lernkurve ist das bedienen des Scanners und das öffnen einer Datei. Weniger kann man kaum erwarten.
Und die sonstige Nachbearbeitung übernimmt die Firmware vom Scanner?
Was meinst du damit genau? Sortieren, oder Daten in Felder eintragen oder was? Nachbearbeitung im sinne von Kontrast verbessern und Feinjustage der Seitenausrichtung mache ich nicht.
Sortieren mache ich auch nicht, da ich großer Fan von suchen statt sortieren bin. Das Internet ist auch nicht sortiert. Dank google finde ich aber alles schnell. Darum geht’s mir ja beim OCR, dass ich alles schnell finden kann in dem ich danach Suche.
“Nachbearbeitung im sinne von Kontrast verbessern und Feinjustage der Seitenausrichtung mache ich nicht.”
Genau das meinte ich. Ich vermute mal aber stark, dass dein Scanner das dann bereits automatisch macht, weil die Qualität sonst extrem schlecht sein kann.
Ja, dass macht ocrmypdf für einen. Kann man aus oder anschalten. Ist eine der Optionen mit denen man den Docker container startet. Ich war bisher mit der Qualität sehr zufrieden.
Das OCR ist allerdings auch nur ein Overlay. D.h. man sieht selbst nur den Originalscan, kann dann allerdings den Text durchsuchen und Markieren. Wie gut oder schlect das OCR im sinne von Recognition ist, aber ich nie versucht zu überprüfen.
Für mich geht es um durchsuchbare Dokumente ich kann dann einfach nach Stichwörtern suchen und so meine Dokumente finden.
Overlay ist ja genau das gewünschte Ergebnis. Und hier ist die Qualität entscheidend. Genau daran haperte es bei mir bei freien Tools immer.
Ich möchte nach dem nächsten Release bei Gelegenheit paperless testen. Der Scan Teil wird zwar nicht von der Software bedient aber von OCR bis zur Tag-Verwaltung. Mal schauen. Dazu gibt es offenbar mittlerweile auch eine app.
Zurzeit wird es stark weiterentwickelt. Der Letzte release scheint auch gerade noch einen Fehler zu haben, weshalb ich noch warten muss.
https://github.com/jonaswinkler/paperless-ng
https://paperless-ng.readthedocs.io/en/latest/screenshots.html
Wie wichtig eine gute Lösung wäre kann, man auch gut an diesem Beitrag des Entwicklers des Vorgängers sehen als er das Projekt zu Grabe trug. Das Tool war zu schnell zu beliebt:
https://github.com/the-paperless-project/paperless#important-news-about-the-future-of-this-project
Ich habe das jetzt nur oberflächlich angesehen, aber ist Paperless nicht faktisch eher ein Dokumenten Management System?
Wenn man den Scan Teil weglässt, dann würde ich das so bezeichnen. Soweit ich das aber verstanden habe, dann werden da die PDFs offen sowie getaggt abgelegt. Somit auch für Indexdienste indizier- und migrierbar. Aber eben. Ich habe es noch nicht getestet.
Ich mag den webdienst, bzw. die Idee der app. Das könnte einen akzeptablen WAF Faktor haben.
Hallo Gerrit, vielen Dank für den Hinweis auf VueScan. Nutzt du eine Netzwerkscanner? Dann würde mich interessieren wie du die Firewall unter OpenSuse konfiguriert hast. In der Doku von OpenSuse habe ich zwar allgemeine Hinweise gefunden, aber bis jetzt hat keine Konfiguration wirklich funktioniert – nur ganz Abschalten der FW, aber das ist ja auch nicht im Sinne des Erfinders.
Nein ich schließe meinen Scanner ganz herkömmlich via USB an.
Bei mir schaut es ähnlich aus SoftMaker Office, Master PDF Editor und VueScan sind auch bei mir im Gebrauch, dazu Haben ich noch PhotoLine (mit der Hilfe von WINE) als Bildbearbeitung am Start.
Ich arbeite seit vielen Jahren mit PhotoLine (mittels WINE) auf allen Ubuntu-PCs, weil ich mit GIMP nicht klarkomme…