Utvärdering av automatisk djupindexering av svenska texter med Lexware - en kunskapsbaserad språkmotor för svenska

Generella problem vid utvärdering av ett textkategoriseringssystem

1. Huruvida indexering är korrekt eller ej kan bedömas oavsett den konkreta tillämpningen. I vissa tillämpningar bör även prestanda tas hänsyn till, speciellt om systemet antas arbeta on-line.

2. Vid användning av måtten "precision" och "täckning" skall också den specifika tillämpningen beaktas. Ibland krävs 100% precision, som i djupindexering där antal nyckelord är förbestämt för varje dokumenttyp.

3. Relevansbedömning är subjektiv - överlapp vid manuell indexering kan vara så lågt som 30% till 40% (jfr. Kristina Bäckströms utvärdering).

4. Hur kan man sluta sig till vad är rätt och vad är fel vid skillnader i manuell och automatisk indexering? Blir man inte påverkad i sin bedömning av att veta vem som valde nyckelorden: en människa eller en maskin?

5. Behöver man veta hur systemet fungerar vid utvärdering?

Hantering av problem

1. Textkategorisering behöver inte ske on-line. (Djupindexering är snabb - i genomsnitt under en sekund per dokument på en PC (Pentium 3, 800 Mhz, 256 MB RAM). Systemets uppstart tar mest tid, dokumenten varierar i storlek upp till 26 000 ord.)

2. 100% precision krävs

3. Införa procentuell bedömning av relevans hos nyckelord: från 0% för fullständigt orelevanta till 100% för bäst valda.

4. Svårt. Först en separat analys av resultat i automatisk indexering med tanke på ev. regelbundet återkommande fel. Sedan separat analys av skiljaktigheter i automatisk och manuell indexering.

5. Egentligen inte. Systemet kan hämta sina svar direkt från Gud. Det väsentliga är att man kan testa att resultaten upprepas.