Recall und Precision
Aus BIT-Wiki
Precision und Recall sind die klassichen Standardmaße des Information Retrievals zur Evaluierung der Effektivität von Suchergebnissen.
Recall
Der Recall beschreibt die Vollständigkeit des Retrieval-Systems, die Fähigkeit relevante Dokumente zu selektieren. Dabei werden die relevanten der gefundenen Dokumente ins Verhältnis zu den relevanten Dokumenten des Gesamtbestands an Dokumenten gesetzt:
Precision
Die Precision beschreibt die Genauigkeit eines Retrievalergebnisses, die Fähigkeit unerwünschte Ballastdokumente auszufiltern. Dabei werden die relevanten der gefundenen Dokumente ins Verhältnis zur Treffermenge gesetzt.
Bei beiden Maßen resultiert ein Wert zwischen 0 und 1. Mit 100 multipliziert ergibt sich ein Prozentwert.
Zusammenhang
Jedes Maß für sich alleine ist nicht sehr aussagekräftig. Daher ist es von Nöten, beide Werte zusammenspielen zu lassen. Beispiel:
Ein System, das im Durchschnitt einen Recall von 0,7 und eine Precision von 0,3 besitzt, liefert dem Benutzer im Mittel 7 relevante von insgesamt 10 relevanten Dokumenten, wobei ein Ballast (Fallout) von ca. 2 Dokumenten pro relevantem Dokument auftritt.
Kritik
Die beiden Begriffe werden seit 1966 verwendet und sind bis heute, trotz vieler Abwandlungen, am weitesten verbreitet und einfach zu interpretieren, wobei die bekannten Schwachstellen bei der Interpretation zu berücksichtigen sind. Kritik wurde hauptsächlich in folgenden Punkten am Recall geübt:
- die Ballastquote wird bei der Berechnung nicht miteinbezogen
- die Anzahl der nicht gefundenen relevanten Treffer ist nur schwer ersichtlich, daher muss ein Schätzwert angenommen werden
Für eine genauere Annäherung an diese Anzahl wurden verschiedene Methoden entwickelt, beispielsweise die Known-item-search und die Pooling-Methode.
Weblinks
- Artikel in der deutschen Wikipedia
- Abschnitt auf information-retrieval.de
- PDF des National Institute of Standards and Technology (Englisch)
Literatur
- Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In: Grundlagen der praktischen Information und Dokumentation / Rainer Kuhlen ... (Hrsg.). Begr. von Klaus Laisiepen ... - 5., völlig neu gefasste Ausg. - München: Saur, 2004. Band 1. S. 228 f.



