
Slovenci in Katalonci imamo veliko skupnega. Med drugim sta bila oba naroda dlje časa pod nadvlado različnih imperijev, skupna pa nam je tudi ljubezen do branja in materinščine. Po katalonskem vzoru so raziskovalci Inštituta za slovenski jezik Frana Ramovša (ISJFR) ZRC Sazu oblikovali besedno igro Besedomat, s katero želijo raziskovalci ugotoviti, kakšen je povprečni besedni zaklad pri Slovenkah in Slovencih. Ta podatek pa bo v pomoč strokovnjakom s področja logopedije, možganskih poškodb, demence in podobno.
Pobudniki raziskave so logopedi z Nevrološke klinike Univerzitetnega kliničnega centra v Ljubljani. "Oni namreč te podatke potrebujejo za klinično obravnavo oseb z jezikovnimi težavami, na primer po možganski kapi, poškodbi glave po kakšni nesreči ... Naši rezultati jim bodo pomagali pri pripravi testov za prepoznavanje prvih znakov kognitivnega upada oziroma demence. To namreč lahko ugotovijo z jezikovnimi testi," nam je pojasnil vodja projekta, Andrej Perdih z ISJFR.
Z raziskavo pa bomo dobili tudi zanimive podatke o tem, koliko besed v povprečju poznamo, ali pa denimo, kakšno je običajno število besed, ki jih poznamo pri različnih starostih. "Ker z leti besedni zaklad narašča, bomo lahko ugotovili, pri kateri starosti pa se to neha. Zaenkrat imamo le podatke tujih raziskav, za ameriško angleščino. Pri Američanih so ugotovili, da pri starosti 20 let povprečen govorec ameriške angleščine pozna približno 42.000 besed, potem pa se jih do 60. leta nauči še dodatnih 6000 – se pravi, približno eno besedo na dva dni. Verjetno je tudi pri nas kaj podobnega, ni pa nujno, ker so si jeziki precej različni. Pri nas je besedotvorje zelo močno – poveste glagol, pa že vemo iz njega tvoriti samostalnik, pridevnik in tako naprej," pravi Perdih.
Projekt poteka od oktobra 2023, spletno stran z besedno igro Besedomat pa so zagnali novembra lani. Do sredine februarja so ljudje besedomat rešili že več kot 25.000-krat. A za konkretne in uporabne znanstvene rezultate bo potrebnih še več podatkov. V Kataloniji, ki ima okoli devet milijonov prebivalcev, so se reševanja igre lotili kar 200.000-krat. "Če se primerjamo s Katalonci, po katerih se zelo zgledujemo, bi mi morali v enem letu zbrati približno 40.000 odgovorov," pravi naš sogovornik.
Znate ločiti prave od izmišljenih besed?
Spletna igra Besedomat je zelo preprosta. Po uvodni anketi, kjer podate nekaj osnovnih podatkov o spolu, starosti, izobrazbi ipd., vam aplikacija ponudi nabor besed – nekatere med njimi so prave slovenske besede (tudi pogovorne, narečne ali prevzete), druge pa so izmišljene (t. i. psevdobesede). Vaša naloga je, da se za vsako posebej odločite, ali je prava beseda ali ne. Preizkus traja približno pet minut, vsak uporabnik pa ga lahko opravi večkrat – vsakič pa bo nabor besed, med katerimi izbira, drugačen.
Perdih pravi, da so v Besedomatu zajeli 79.413 pravih besed in 20.644 lažnih oziroma izmišljenih besed. "Prave besede smo izbrali iz treh slovarjev: Slovarja slovenskega knjižnega jezika, nastajajočega novega slovarja slovenskega knjižnega jezika in Sprotnega slovarja slovenskega jezika, to pa je slovar, ki ima predvsem novo besedje in besede, ki niso nove, a jih v drugih slovarjih še ni. Iz tega smo potem dobili nekaj več kot 100.000 besed, ampak smo na podlagi določenih kriterijev to število potem malo zmanjšali. Denimo, v igro nismo vključili besed, ki so daljše od 17 črk, saj ne pridejo na zaslon telefona. Izločili smo tudi lastna imena, kratice, okrajšave in simbole ipd.," pravi vodja projekta.
Zanimivo dejstvo: v slovenščini imamo kar 606 besed, ki imajo več kot 17 črk.
Na koncu igre vam aplikacija pove, koliko odstotkov pravih in izmišljenih besed ste prepoznali in vam tudi naniza besede, ki jih niste prepoznali – tako se lahko naučite tudi nekaj novega.
"Pomembno je, da čim več ljudi to v celoti reši. Za vsako besedo potrebujemo 100 odgovorov. Trenutno pa je aplikacija narejena tako, da naenkrat ponuja besede iz paketa 7000 besed in ko vsaka beseda dobi 100 odgovorov, skoči na naslednji paket. Tako, da zdaj imamo že dovolj odgovorov za 21.000 besed, to so trije paketi, zdaj smo pri četrtem. Idealno bi bilo, da bi imeli okoli 100.000 odgovorov, saj bi na ta način pokrili vse besede. Glede na to, da slovenščino govori dva milijona ljudi, pa to ni ravno realen scenarij, da se to zgodi v enem letu," pravi Perdih. Podatke za analizo bodo zbirali do jeseni, nato jih bodo nekaj mesecev analizirali. Besedna igra pa bo živela še naprej. "Morda bomo čez pet let analizirali nove podatke," dodaja.
"Nekaj novega celo v svetovnem merilu pa je to, da bomo mi te podatke skušali uporabiti pri izdelavi slovarjev. Pričakujemo, da bomo s to raziskavo dobili še izboljšano metodo za izdelavo slovarja oziroma za izbor besed za slovarje," pravi Perdih.
Koliko besed ima slovenščina?
"Na to vprašanje je zelo težko odgovoriti, a več kot 300.000 gotovo, najbrž pa blizu pol milijona. 100.000 besed je bilo zajetih v slovarju slovenskega knjižnega jezika. Ko so med letoma 1970 in 1991 delali ta slovar, so ob tem nabrali še skoraj 200.000 besed, ki pa jih niso uvrstili v slovar, saj so bile preredke. Rad se pošalim, da imamo v Sloveniji neskončno besed. Če recimo vzamemo vrstilne števnike, prvi, drugi, tretji, četrti ..., potem pridemo lahko do milijonti in tako naprej do neskončnosti. Dejansko v rabi pa imamo nekje okoli pol milijona besed."
Za konec pa še nasvet, kako lahko obogatite svoj besedni zaklad, če z rezultatom v Besedomatu ne boste zadovoljni. "Na splošno velja, da besedni zaklad obogatimo tako, da čim več beremo in da beremo raznolike stvari. Se pravi, ne samo na primer 24ur.com, ampak tudi leposlovje, strokovne knjige, različne stvari. Da beremo in poslušamo čim bolj pestro vsebino. In seveda, da smo v stiku z različnimi situacijami, da nismo zaprti samo doma med štirimi stenami. V komunikaciji z drugimi ljudmi smo vedno lahko soočeni tudi z novim besedami," svetuje Perdih.
KOMENTARJI (27)
Opozorilo: 297. členu Kazenskega zakonika je posameznik kazensko odgovoren za javno spodbujanje sovraštva, nasilja ali nestrpnosti.