Hur kännetecknas textkategoriseringssystem som är kunskapsbaserat, så som
Lexware Djupindexering
Kännetecknande för ett kunskapsbaserat system.
Antal förekomster av en term i dokumentet är inte avgörande för att välja
termen som nyckelord. T.ex. i Djupindexering i dokumentet 1999-2000-M-A710 har ”Ledighet” lika många förekomster som
”Handikapp” (14) men den första har dubbel så stor viktning än den andra.
Tesarusens struktur och egenheter hos lexikala enheter i en term bidrar vid
bedömning av viktnig: hur specifik är
termen i tesaurusträdet (D depth of term sub-tree), och i tesaurusen
överhuvudtaget (T thesaurus frequency), hur flertydig är lexikala enheter som
termen består av (F term familiarity = number of senses), hur relevant är
termen med tanke på domänen, dvs riksdags debatter (R term relevance).