22. september 2012

Sprogteknologi skal sikre det danske sprog mod digital udryddelse

sprogteknologi

Ny rapport fra sprogforskere på Københavns Universitet, CBS og Dansk Sprognævn viser, at Danmark sakker bagud på det sprogteknologiske område. Hvis der ikke kommer flere digitale sprogresurser på dansk, kan det få negative konsekvenser for det danske sprogs overlevelsesmuligheder i den digitale verden.  

Rapporten er det danske bidrag til EU-initiativet META-NET's undersøgelse af 30 europæiske sprogs status på det sprogteknologiske område. De 30 rapporter viser, at dansk ikke er enestående: 21 af de undersøgte sprog mangler helt grundlæggende sprogteknologiske resurser for at kunne klare sig digitalt.

   Pande kan oversættes med forehead, men...
   Kilde: Google Translate

Når Google Translate oversætter den danske sætning "Han hælder olie på panden" til "He pours oil on the forehead", kan vi godt grine lidt ad oversættelsesmaskinens mangelfulde håndtering af nuancerne i det danske sprog. Men ifølge sprogforskerne illustrerer eksemplet, hvad der sker, når et sprog ikke er tilstrækkeligt dækket ind med sprogteknologiske data:

- Google Translate og andre oversættelsesprogrammer er fremragende redskaber.  Men hvis vi ikke sikrer, at oversættelsesmaskiner også kan fungere ordentligt på dansk, risikerer vi, at værktøjer som netop Google Translate på længere sigt vil skade mere, end de gavner. Vi kan fx forbedre programmerne ved at fodre dem med tekstsamlinger, der sammenligner dansk med andre sprog sætning for sætning, forklarer professor Bolette Sandford Pedersen fra Center for Sprogteknologi ved Københavns Universitet, som er initiativtager til den danske META-NET-rapport Det danske sprog i den digitale tidsalder.

Medforfattere til rapporten er desuden forskere fra CBS, Det Danske Sprog- og Litteraturselskab, Dansk Sprognævn samt en række danske kommercielle virksomheder, der udvikler sprogteknologi for det danske marked.

De små sprog er ikke kommercielt bæredygtige

Whitepaper 'Det danske sprog i den digitale tidsalder'- Problemet er, at udviklingen af fx maskinoversættelsesprogrammer og søgemaskinerne på internettet primært foregår i kommercielt regi og i udlandet. Det danske marked er ikke stort nok til, at det kan bære udviklingen, og derfor får vi ikke nødvendigvis adgang til de nyeste metoder eller nye data – hvilket vi ser som problematisk for den fremtidige udvikling. I sidste ende kan det betyde, at danskerne ikke gider bruge de sprogteknologiske redskaber, fordi de alligevel ikke fungerer ordentligt på dansk, eller værre: ikke gider bruge dansk i digitale sammenhænge, fordi det er for upraktisk, vurderer Bolette Sandford Pedersen.

Og Dansk Sprognævns direktør Sabine Kirchmeier-Andersen uddyber:

 - Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden vi har. Det viser META-NET-rapporten med stor tydelighed. Ellers risikerer vi, at kun folk, der taler flydende engelsk, vil få glæde af de nye generationer af web-, tele- og robotteknologi, der er på vej.

Men Danmark er ikke alene om denne risiko: Professor Hans Uszkoreit, international koordinator for META-NET og ansat ved det tyske forskningscenter for kunstig intelligens, DFKI:

- Undersøgelsens resultater er ganske alarmerende Hovedparten af de europæiske sprog er underforsynede med sprogteknologiske resurser; de er på ingen måde fremtidssikrede. Gabet mellem ’store og ’små’ sprog bliver stadig større, og hvis vi ikke forsyner de mindre sprog med basisteknologier, er de simpelthen dømt til digital udryddelse.

Danmark bør have en sprogbank

Ifølge Bolette Sandford Pedersen og de øvrige forskere og udviklere bag rapporten er der mange gode og rigtige ting i gang i Danmark på den sprogteknologiske front både i forskningsinstitutionerne og i virksomhederne. Men der mangler stadig nogle helt afgørende elementer for, at vi kan holde trit med udviklingen.

- Til sammenligning har det norske kulturministerium fx igangsat projektet ”Norsk Språkbank” med det formål at styrke norsk på den globale sprogscene. En sprogbank er en stor samling af digitale data om et sprog fx i form af tekst og video. Tanken med sprogbanken er, at hvis norsk skal bestå som samfundsbærende sprog, der kan udvikle sig i takt med den rivende udvikling inden for nye måder at kommunikere på, er det altafgørende, at nye teknologiske løsninger bliver tilgængelige på norsk. Det samme gælder efter vores opfattelse dansk, siger Bolette Sandford Pedersen.

- Og selv om der er givet støtte til sprogteknologiske projekter i Danmark, er der brug for en mere samlet og fokuseret indsats på området. Vi anbefaler i rapporten, at Danmark også som minimum etablerer en digital sprogbank, så den almindelige dansker også i fremtiden kan få teknologistøttet sproghjælp af høj kvalitet.

Kontakt

Professor Bolette Sandford Pedersen
Center for Sprogteknologi
Mobil: 29 89 92 49

Kommunikationsmedarbejder Carsten Munk Hansen
Det Humanistiske Fakultet
Mobil: 28 75 80 23