Generella problem vid utvärdering av ett textkategoriseringssystem
1. Huruvida indexering är korrekt eller ej kan bedömas oavsett den konkreta
tillämpningen. I vissa tillämpningar bör även prestanda tas hänsyn till,
speciellt om systemet antas arbeta on-line.
2. Vid användning av måtten "precision" och "täckning"
skall också den specifika tillämpningen beaktas. Ibland krävs 100% precision,
som i djupindexering där antal nyckelord är förbestämt för varje dokumenttyp.
3. Relevansbedömning är subjektiv - överlapp vid manuell indexering kan
vara så lågt som 30% till 40% (jfr. Kristina Bäckströms utvärdering).
4. Hur kan man sluta sig till vad är rätt och vad är fel vid skillnader i
manuell och automatisk indexering? Blir man inte påverkad i sin bedömning av
att veta vem som valde nyckelorden: en människa eller en maskin?
5. Behöver man veta hur systemet fungerar vid utvärdering?
Hantering av problem
1. Textkategorisering behöver inte ske on-line. (Djupindexering är snabb -
i genomsnitt under en sekund per dokument på en PC (Pentium 3, 800 Mhz, 256 MB
RAM). Systemets uppstart tar mest tid, dokumenten varierar i storlek upp till
26 000 ord.)
2. 100% precision krävs
3. Införa procentuell bedömning av relevans hos nyckelord: från 0% för
fullständigt orelevanta till 100% för bäst valda.
4. Svårt. Först en separat analys av resultat i automatisk indexering med
tanke på ev. regelbundet återkommande fel. Sedan separat analys av
skiljaktigheter i automatisk och manuell indexering.
5. Egentligen inte. Systemet kan hämta sina svar direkt från Gud. Det
väsentliga är att man kan testa att resultaten upprepas.