Generella problem vid utvärdering av ett textkategoriseringssystem

 

1. Huruvida indexering är korrekt eller ej kan bedömas oavsett den konkreta tillämpningen. I vissa tillämpningar bör även prestanda tas hänsyn till, speciellt om systemet antas arbeta on-line.

 

2. Vid användning av måtten "precision" och "täckning" skall också den specifika tillämpningen beaktas. Ibland krävs 100% precision, som i djupindexering där antal nyckelord är förbestämt för varje dokumenttyp.

 

3. Relevansbedömning är subjektiv - överlapp vid manuell indexering kan vara så lågt som 30% till 40% (jfr. Kristina Bäckströms utvärdering).

 

4. Hur kan man sluta sig till vad är rätt och vad är fel vid skillnader i manuell och automatisk indexering? Blir man inte påverkad i sin bedömning av att veta vem som valde nyckelorden: en människa eller en maskin?

 

5. Behöver man veta hur systemet fungerar vid utvärdering?

 

 

Hantering av problem

 

1. Textkategorisering behöver inte ske on-line. (Djupindexering är snabb - i genomsnitt under en sekund per dokument på en PC (Pentium 3, 800 Mhz, 256 MB RAM). Systemets uppstart tar mest tid, dokumenten varierar i storlek upp till 26 000 ord.)

 

2. 100% precision krävs

 

3. Införa procentuell bedömning av relevans hos nyckelord: från 0% för fullständigt orelevanta till 100% för bäst valda.

 

4. Svårt. Först en separat analys av resultat i automatisk indexering med tanke på ev. regelbundet återkommande fel. Sedan separat analys av skiljaktigheter i automatisk och manuell indexering.

 

5. Egentligen inte. Systemet kan hämta sina svar direkt från Gud. Det väsentliga är att man kan testa att resultaten upprepas.