Nasjonalbiblioteket fekk i budsjettproposisjonen for 2010 i oppdrag å etablere ein norsk språkbank og byrje arbeidet med innsamling og oppbygging av dei språkressursane som skal inngå i han. Språkbanken er ein teknologisk infrastruktur som er samansett av digitaliserte språkressursar til bruk i utvikling av IKT-basert teknologi som fordrar handsaming av språklege data.
Språkbanken er ei teneste til den delen av næringslivet som arbeider med utvikling av språkbasert IKT, til forskarar innanfor språkvitskap og språkteknologi, og til offentlege verksemder som utviklar elektroniske løysingar for offentlege tenester.
Språkbanken skal innehalde tekst- og talespråkskorpus, dvs. store samlingar av tekst og tale i maskinleseleg format. I mange tilfelle må desse lagrast i fleire versjonar, med ulik grad av oppmerking i form av informasjon om uttale (fonetisk transkripsjon), ordklassemerking av alle orda i teksten/talen, samt informasjon om setningsstruktur (kva ord som heng saman, kva som er subjekt og objekt osb.) og tydingsrelasjonar mellom ord og setningsledd. Ulike behov i høve til kva ein skal bruke data til, vil avgjere kva grad av oppmerking som er påkravd. Vidare vil Språkbanken innehalde databasar, t.d. maskinleselege ordbøker og uttaleleksikon, og dataverktøy til handsaming av elektronisk tekst og tale.
Nasjonalbiblioteket vil byggje opp og strukturere innhaldet i Språkbanken gradvis. I starten vil vi innlemme og vidareutvikle nokre sentrale, allereie eksisterande ressursar, og prioritere mellom prosjekt som krev nyutvikling. Det vil difor ta nokre år før vi har ein fullt ut representativ språkbank.
Nasjonalbiblioteket har oppnemnt eit fagleg råd for dette arbeidet.