40 millionar ord som vi kan boltre oss i

Forskning.no melder at ein bande leksikografar og og ingeniørar ved institutt for lingvistiske og nordiske studium ved Universitetet i Oslo i løpet av åtte år har samla ein heller stor korpus av tekstar henta frå bøker, blad, aviser, tekstar frå privatpersonar – det dei meiner er eit balansert materiale, både når det gjeld teksttypar, kjønn på forfattar og tidsspenn (tekstane er frå perioden 1985 og fram til i dag). Tekstane er digitaliserte (i dei tilfella dei ikkje er digitalt tilgjengelege i utgangspunktet), tagga med allslags opplysingar (forfattar, teksttype, kontekst, grammatikk) og det dreier seg om bokmålstekstar.

Korpuset det er tale om er det første balanserte korpuset over moderne norsk nokon sinne, og det er denne påstanden eg synest er interessant. For målet er i følgje Ruth E.V. Fjeld å dokumentere «moderne norsk skriftspråk i sin fulle bredde,» mellom anna for å gje eit rettare grunnlag for å ta inn ord i ordbøker og normere språket vårt. Språkrådet kan her «finne ut hvordan ulike ord og uttrykk faktisk blir brukt,» seier Fjeld.

Eg er ikkje i tvil i det heile at dette er ein bra måte å skaffe seg kunnskapar om språket vårt på, for vidare å utnytte denne kunnskapen når ein skal normere språket, lage ordbøker – i det heile for å skaffe oss kunnskapar om koss språket vårt faktisk blir brukt. Men eg må seie at eg er litt skeptisk, med atterhald om at eg berre har lest Forsking.nos artikkel om dette, til tekstgrunnlaget her:

20 % av tekstane er frå aviser og vekeblad
45 % av tekstane er sakprosatekstar, til dømes frå fagbøker
25 % er frå skjønnlitteratur
5 % er frå TV-teksting
5 % er frå upublisert materiale

Med andre ord er brorparten (rundt (eller minst) 95 % — ein kravstor bror, med andre ord) av tekstane frå kjelder som i utgangspunktet er underlagt nokså streng normering. Utgangspunktet for denne tekstkorpusen, som altså skal gje oss eit reelt blikk inn i språket vårt, og for framtidig normering er altså eit språk som er nokså trufast normert med utgangspunkt i dei eksisterande normene våre.

Kan det kallast eit innblikk i norsk språk slik det faktisk blir brukt? Det kjem an på koss du definerer «språkbruk,» og her ser det ut som at det ligg til grunn ei nokså grundig utsiling av svært viktige domene for språkbruk, som til dømes talespråk og munnleg kommunikasjon (som eg meiner er viktige når vi skal snakke om ordtilfang, trass i at det ikkje er skriftleg), og ikkje minst fleire nye, digitale arenaer for skriving. Eg synest ikkje dette er særleg balansert, snarare balsamert, om eg skal tillate meg å prøve å vere morosam. Som i så mange andre tilfelle i akademia blir dei digitale arenaene kasta ut frå festen.

Det er desse digitale arenaene eg vil dra fram her. Eg synest det er rart at ein så produktiv arena for litteratur som det dei utallige skriveromma vi har sett vokse fram (bloggosfæren, SMS, privat og offentleg e-postbruk, tekstar frå bokmåls- og nynorskversjonen av Wikipedia og andre wikitekstar) ikkje blir betrakta som meir interessant i normeringsaugnemed, nettopp av di fleire av desse tekstane har eit anna forhold til både normering og ordtilfang enn tekstgrunnlaget i dette prosjektet, og følgjeleg mest sannsynleg vil reflektere ein heilt annan grad av nye ord og strukturar i språket enn dei redaksjonelt bearbeidde og eksplisitt norm-underlagte tekstane. Eller er her ei halding til at desse tekstane er mindreverdige andsynes andre tekstar? Kva vil det gjere med språket vårt og kva syn vi skal ha på det, viss vi dreg inn slike tekstar i denne tekstkorpusen? Og kva haldningar til og meiningar om språk har forskarar som ikkje dreg inn slike tekstar i tekstkorpusen?

No handlar dette om ein bokmålskorpus, men også for nynorsken sin del må dette vere umåteleg interessant. Erfaringane mine her frå Rogaland er at mange nyttar eit svært dialektnært og munnleg språk, både når dei sender SMS, sender e-post og skriv i bloggen sin, på Myspace eller Facebook – altså arenaer for skriftleg tekst som er svært mykje i bruk. Dette trur eg er gjengs over heile landet, jamfør ulike diskusjonar om dei folkelege (vulgære, i ordets beste forstand) formene.

Det paradoksale er at fleire skuleelevar mislikar å skrive nynorsk medan dei likar å skrive (og skriv svært mykje, i mange sjangrar og samanhengar), både dialektnært og syntetiserande. Kva om vi etter same modell lagar ein tekstkorpus basert på ei rekkje av desse sjangrane (SMS, blogg, etc.) og byrjar å tenkje skriftspråknormalar bygd rundt talemålsnært språk? Kan hende kan vi her vere rausare i ordtilfang og strukturar enn både i bokmål og nynorsk, slik det er no, slik at det er ein større samanheng mellom talemålet og skriftspråket? Sist eg sjekka, var det ei av hovudsøylene i landsmålet/nynorsken.

Medan vi går i retning av engelsk som skriftspråkleg norm både i akademia og i større bedrifter, verkar det for mange som eit håplaust prosjekt å lappe på eit språkprosjekt som byrja som eit språk for landet, men som mange påstår har enda opp som eit uoversiktleg roterom som dei færraste meistrar – eller endå verre: eit elitespråk for verbalatletar og intellektuelle. Det stikk motsette av planen, med andre ord. Kan hende bloggosfæren og den uoppfordra skrivinga, hjartespråket, til digitalskribentar i alle aldrar nettopp viser oss ei retning for nynorsken?

Om Arne Olav

Doktorgradsstipendiat ved Universitetet i Stavanger.
Dette innlegget ble publisert i Klasserom og data, Lesing/skriving, Web 2.0. Bokmerk permalenken.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.