Tydlig framställning av preliminära resultat, dvs resultat utan manuell
genomgång av skillnaderna i automatisk och manuell indexering
Utvärdering utgår ifrån att manuellt tilldelade nyckelord är korrekta och
presenterar först en jämförelse av resultat (utifrån filen stat.txt).
Automatiskt tilldelade nyckelord som inte på något sätt är relaterade i
tesaurusträdet till manuellt tilldelade ord (”DIFFERENT” i stat.txt) betraktas
som felaktiga. Nyckelord som inte
återfinns bland tesaurustermer (”NON_TERM” i stat.txt, ”Förslag: Term?” i
diff.txt) betraktas på två sätt: som felaktiga och som ej existerande. I det
senare fallet beräknas procentsatsen annorlunda. Dessa preliminära antagande justeras efter en manuell genomgång
av de dokument som visar största skillnader i automatisk och manuell
indexering.
Manuell genomgång av skillnader i automatisk och manuell indexering
”DIFFERENT” antas i den preliminära sammanställningen av resultat vara fel
i automatisk indexering men egentligen innebär ”DIFFERENT” att nyckelordet saknas i den manuella
indexeringen och att det inte ligger under samma rot i tesaurusen. Detta
behöver inte innebära att ett nyckelord inte är relevant för dokumentet.
Indexeraren kunde ha missat just det nyckelordet och tesaurusen har inte uteslutande
utan snarare överlappande kategorier. Jfr dokument 1999-2000-M-N208 där ”INVESTERING” markeras som ”DIFFERENT”
därför att den inte har valts i den
manuella indexeringen och ligger inte under samma rot i tesaurusen som ”VINST”,
trots att de är uppenbarligen besläktade. Tittar man på dokumentets text visar
det sig vara befogat med nyckelordet ”INVESTERING”: ” Vinstmedlen bör användas
till investeringar …”