Gedanken zum automatischen Bildverstehen


Seit es digitale Bilddaten gibt, besteht auch der Wunsch den Inhalt der Daten (möglichst) automatisch auszuwerten, beziehungsweise deren Bildinhalt automatisch zu erfassen (Bildverstehen). Leider ist dieser Wunsch auch heute noch eine Utopie, und das trotz immenser Fortschritte in der Informationstechnologie sowohl auf der Seite der Hard- wie auch der Software. Natürlich gibt es etliche Ansätze, die bestimmte Objektarten mehr oder weniger zuverlässig erfassen, so zum Beispiel Strassen oder Gebäude aus Satellitenbilddaten oder Luftbildern. Auch bietet die Methode der Klassifikation von multispektralen Satellitenbilddaten eine sehr gute Möglichkeit die Landnutzung im kleinen Maßstab recht zuverlässig zu erfassen. Diese Klassifikationsansätze können jedoch nicht als automatisch bezeichnet werden, da immer die spektrale Signatur der gesuchten Objekte manuell erfasst werden muss. Auch stößt man mit dieser Technik im großen Maßstab durch den extremen Detailreichtum der Bilddaten schnell an die Grenzen.

roadextraction02Der vor rund 20 Jahren vorherrschende Optimismus in den Forschungslaboren das Problem des automatischen Bildverstehens in naher Zukunft lösen zu können ist einer ziemlichen Ernüchterung gewichen. Bis heute gibt es wohl nur ein System, das mit etwas Training, ein Bild „automatisch“ Interpretieren kann – das menschliche Gehirn.

Was macht der Mensch anders als ein Computer, und sei er noch so leistungsfähig? Der Mensch ist wie kein anderes System in der Lage seinen Erfahrungsschatz zu nutzen, um ein Bild hierarchisch und mit Kontextwissen zu analysieren. So weiß ein menschlicher Biuldinterpret zum Beispiel, dass ein Straßennetz hierarchisch aufgebaut ist und dazu dient Siedlungen miteinander zu verbinden oder, dass Seerosen einen Teich so sehr bedecken können, dass er fast nicht mehr als Teich zu erkennen ist. Schon diese beiden kleinen Beispiele zeigen meiner Meinung nach eindrucksvoll, welche Mengen oder besser Massen an Alltags- und Expertenwissen in einem automatischen System hinterlegt sein müsste, um vergleichbare Ergebnisse erzielen zu können. Natürlich gibt es Systeme die für einen kleinen Ausschnitt der Welt das wichtigste Wissen so umgesetzt haben, dass ein Computer System eine Objektklasse in einer bestimmten geographischen Region der Erde mit befriedigender Zuverlässigkeit erfassen kann. Aber was passiert wenn ich das selbe System auf den entsprechenden Objekttyp am anderen Ende der Welt loslasse? In der Regel werden die Ergebnisse nicht mehr ganz so erfreulich ausfallen. Man denke hierbei nur an den Unterschied von Siedlungsstrukturen zwischen den USA, Deutschland und Afrika….

Was kann und sollte der potentielle Nutzer von Auswertesystemen oder der Auftraggeber einer Objektextraktion aus dem obigen lernen? Das wichtigste nach meiner Meinung ist eine gewisse Skepsis gegenüber vollautomatischen Verfahren zum Bildverstehen und natürlich auch gegenüber der Qualität der Ergebnisse. Aus meiner Arbeit hat es sich bewährt, die beiden Kriterien Vollständigkeit und Korrektheit zusammen mit der geometrischen Genauigkeit als ein Maß für die Qualität der Ergebnisse heranzuziehen. Die Vollständigkeit gibt hierbei den Prozentsatz an mit dem die Referenz (die Realität) mit der Extraktion (das Ergebnis) übereinstimmt, also wie viel vom Gesuchten auch tatsächlich gefunden wurde. Die Korrektheit hingeben gibt an wie gut die Extraktion mit der Referenz übereinstimmt, also wie viel vom gefundenen auch wirklich das ist was gesucht wurde. Jedes dieser beiden Kriterien sagt für sich alleine nichts über die Qualität aus, nur gemeinsam zeigen sie wie gut das Ergebnis mit der Realität übereinstimmt.

Wenn der Einsatz vollautomatischer Systeme nicht zielführend ist, was kann man stattdessen machen? Nach meinem Verständnis sollte man die stärken der automatischen Systeme mit denen des Menschen kombinieren und daraus effiziente halbautomatische Systeme ableiten. Hierbei macht der Computer die Rechenintensiven und der Mensch übernimmt die Interpretation und die Kontrolle. Das macht jedoch nur dann Sinn, wenn der „menschliche“ Anteil so gestaltet ist, dass der Auswerter nur noch fragliche Stellen überprüfen bzw. korrigieren muss. Hierbei sollte möglichst viel Wert auf die Korrektheit der Ergebnisse gelegt werden, denn nur wenn möglichst wenig fehlerhafte Objekte vorhanden sind stellt sich ein Vertrauen in die automatischen Anteile ein. Für die Ergänzung fehlender Anteile muss der Auswerter bei der Auswertung von Hilfsmitteln unterstützt werden, um fehlenden Anteile effizient zu ergänzen, z.B. durch einen „Road Tracker“ oder einen Optimierer für topologisch korrekte Kreuzungen, bei der Erfassung von Straßen.

Fortsetzung folgt…

twitterlinkedintwitterlinkedin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.