Über Informationsqualität, und …

… über die Suche nach der Perle in der Müllhalde.

Stellen Sie sich vor, Sie brauchen für Ihre Arbeit den Siedepunkt eines selten benutzten Lösungsmittels oder den Marktanteil für ein generisches Arzneimittel. Sie werfen Google an und werden fündig.

Wagen Sie es, die gefundenen Informationen für Ihre Planung einzusetzen?

Im heutigen Beitrag soll es um zwei Themen gehen:

  1. Informationsqualität - wie  richtig und wie treffend sind die Fundstellen?
  2. Der Feind, die Suchmaschine - gesponsort, unterwandert  und alles in allem “zugemüllt”.

Über Informationsqualität

In der Informationswissenschaft wird Informationsqualität bzw. Datenqualität mit komplizierten Definitionen eingegrenzt, um sie von anderen informationswissenschaftlichen Begriffen zu unterscheiden.

Für die einfacheren Bedürfnisse des Internetnutzers, der im Web nach isolierten Fakten sucht, braucht es nicht so kompliziert zu sein. Die Qualität eines gefundenen Faktums wird bestimmt durch die folgenden Eigenschaften:

a) Die Information ist richtig.
b) Die Information ist zutreffend.

Dass die Information “richtig” ist, bedeutet zum Beispiel, dass der Siedepunkt von Wasser bei 1013,25 mbar mit 100,0 °C angegeben wird, und nicht mit 100 °F, 100 K oder 79,8 °C.

“Zutreffend” bedeutet, die Information ist genau die, die wir gesucht haben. Wenn wir, um bei dem banalen Beispiel zu bleiben, den Siedepunkt von Wasser bei 1013 mbar suchen, dann könnte der Siedepunkt von Wasser bei 50 mbar zwar eine richtige Information sein, aber keine, die unsere Frage beantwortet.

Der Begriff “richtig” ist übrigens nicht so trivial, wie es scheint: Ein Faktum - eine Stoffeigenschaft zum Beispiel - ist nur dann richtig, wenn alle damit verknüpften Randbedingungen zutreffen. Als Beispiel sei der Flammpunkt von Acetonitril genannt [1]: Je nach abgefragter Datenquelle schwankt er zwischen 2 °C und 13 °C, was mit den zur Bestimmung verwendeten Verfahren zusammenhängt. Daraus ergibt sich eine weitere Forderung für die Informationsqualität:

c) Die Information muss vollständig dokumentiert sein.

Für unser Beispiel bedeutet das, die Information kann sowohl richtig (a) als auch zutreffend (b) sein, wenn wir aber nicht wissen, nach welchem Verfahren der Wert gemessen wurde, können wir ihn nicht verwenden.

Checklisten für die Beurteilung von Informationen

Über klassische und Internetrecherchen

Im Jahr 2004 habe ich mich noch ausführlich über die Auffindbarkeit von wap- und ftp-Seiten, Framesets und Verzeichnistiefen ausgelassen. Das ist mittlerweile - mehr oder weniger - alles Geschichte. Dieser Blogeintrag war daher ein Anlass, der ausführlicheren Artikel zum Thema Informationsqualität und Zusammenarbeit mit Infobrokern auf meiner Website noch einmal zu überarbeiten.

Buchtipp

“Web Wisdom” von J. E. Alexander und M. A. Tate, ISBN 0-8058-3123-1, enthält eine vollständige und lesbare Darstellung des Themas Informationsqualität im Internet. Das Buch ist auch nützlich für Webautoren, die sichergehen wollen, dass ihre Seiten als glaubwürdig eingestuft werden.

Der Feind, die Suchmaschine

Wenn hochwertige Informationen (a) richtig und (b) zutreffend sind, dann sollte die ideale Suchmaschine auch nur richtige und zutreffende Suchergebnisse liefern.

Bei Punkt (a) sind die Suchmaschinen machtlos (beinahe). Es gibt aber viel Entwicklungsarbeit, um wenigstens möglichst zutreffende Ergebnisse zu liefern. Die richtige Suchmaschine für die jeweilige Anfrage richtig zu bedienen, ist der Trick.

Die Suchfibel

Eben die Leute, die wissen, wie man mit seiner Website bei den Suchmaschinen nach oben kommt, wissen auch, wie die Suchmaschinen “ticken”, wie man also am besten suchen kann. Stefan Karzauninkat ist einer der “dienstältesten” Suchmaschinenexperten in Deutschland.

Web Information Retrieval - Das Suchmaschinenbuch

Das Buch von Dirk Lewandowski enthält eine ausführliche Darstellung der “Technologien zur Informationssuche im Internet”. Wer sich genau über die mögliche Informationsqualität im Web informieren möchte, ist mit dem Buch gut bedient. Die Druckausgabe ist zwar vergriffen, das Buch ist jedoch kostenlos online zugänglich. Es ist mit dem Erscheinungsjahr 2005 nicht mehr ganz taufrisch, aber größtenteils noch aktuell und richtig.

Weitere Publikationen des selben Autors, alle zum Thema Suchmaschinenqualität, Suchmaschinenlandschaft und Sinn und Unsinn von Ranking-Verfahren (d. h. des Verfahrens, mit dem die Suchmaschine die Treffer ineiner Rangfolge anordnet), gibt es auf der Website durchdenken.de.

Alternative Suchmaschinen

Die Seite “Top 100 Alternative Search Engines” bietet eine Liste von Suchmaschinen, die irgendetwas anders machen. Die Suchmaschinen verarbeiten entweder natursprachliche Anfragen, oder sie gruppieren die Ergebnisse, oder sie geben dem Benutzer einen Rat, was er denn mit den Ergebnissen anfangen soll (und darauf haben wir alle schon gewartet).

—————————

[1] Jörg Steinbach, “Chemische Sicherheitstechnik”, ISBN 3-527-28710-8

Leave a Reply