Informationsextrahering

Med stödet av språkmotorn kan mängder av olika typer information utvinnas från svenska texter: nya ord, underlag för författarbestämning eller textkategorisering. Information som utvinns kan användas för att beteckna stilen på ett dokument - nedan jämförelse av ett riksdagsdokument och ett brev från barn till Gud.


Offentligt och vardagligt språk

Parameter

Ett riksdagsdokument

Ett brev från barn

Jämförelse

Antal satser
Genomsnittlig satslängd
Genomsnittlig ordlängd
Längsta ordet

Lexikonord
Innehållsord
Funktionsord

Sammansatta ord
Enkla ord

Adjektiv
Adverb
Substantiv
Verb

55
16 textord
7.42 bokstäver
29 bokstäver

908
80%
20%

72%
28%

15.17%
8.78%
39.72%
22.95%

55
5 textord
4.86 bokstäver
15 bokstäver

187
63%
37%

8%
92%

11.76%
17.65%
21.93
27.81%

samma längd i satser
över 3 gger längre
nästan 2 gger längre
nästan 2 gger längre

över 4 gger fler
1.25 gger fler
nästan 2 gger färre

9 gger fler
över 3gger färre

fler
färre
fler
färre


Exempel på möjliga urval (från riksdagsdokumentet): ämnesområde,  sammansatta substantiv,  samhällsrelaterade ord.

«- Tillbaka