31. august 2015

Sprogforskere bruger Bibelen til at yde oversete sprog førstehjælp

sprogteknologi

Apples Siri, Google Translate og andre sprogteknologiske værktøjer har længe været forbeholdt mennesker, der taler engelsk eller et andet stort sprog. Taler man fx færøsk, walisisk eller galicisk, er der ikke meget hjælp at hente i teknologien. Nu viser sprogforskere fra Københavns Universitet, at de med udgangspunkt i bibeltekster og Wikipedia kan lave sprogteknologi for op mod 100 små og store sprog – på én gang

I Danmark kan vi tale dansk til vores mobiltelefon, taste danske ord ind i en søgemaskine eller få oversat tekster ved hjælp af maskinoversættelsesprogrammer. Det kan vi, fordi dansk er et stort sprog med mange eksempeltekster, som sprogforskerne kan bruge, når de udvikler sprogteknologi. Så heldige er mennesker, der taler sprog som færøsk, walisisk eller galicisk ikke.  

- Normalt når vi udvikler maskinoversættelse og søgemaskiner, fodrer vi en computer med en masse tekst, hvor alle ordene manuelt er blevet opmærket med oplysninger om, hvilken funktion og betydning det enkelte ord har i teksten – og af historiske grunde er det især avisartikler på engelsk og andre store sprog, der er blevet brugt. Den type opmærkede tekster har vi ganske enkelt ikke for mange mindre sprog som færøsk, walisisk, galicisk og irsk, men heller ikke for et stort afrikansk sprog som yoruba, som 28 millioner mennesker taler, siger professor Anders Søgaard fra Københavns Universitet.

Anders Søgaard og hans kolleger i forskningsprojektet LOWLANDS har derfor sat sig for at finde måder at udnytte opmærkede tekster fra store sprog til at udvikle sprogteknologi for små sprog. Nøglen er at finde oversatte tekster, der gør det muligt at overføre viden om ét sprogs grammatik til et andet:

- Bibelen er blevet oversat til overraskende mange sprog, selv de allermindste og mest ”eksotiske”, og det, det gør den anvendelig i denne sammenhæng, er, at Biblen er ekstremt konservativt oversat. Versene har en fast struktur og ensartethed på tværs af sprogene, så vi kan lave velegnede computermodeller af selv de meget små sprog, hvor det eneste, vi har på skrift, faktisk er nogle hundrede siders Bibel-tekst, siger Anders Søgaard, og uddyber:

- Vi lader maskinerne lære, hvad der oversættes med hvad i de oversatte bibeltekster, og det gør det muligt at finde så mange ligheder mellem de opmærkede og uopmærkede bibeltekster, at vi kan producere præcise computermodeller for 100 forskellige sprog, som vi nu har gjort tilgængelige for andre udviklere og forskere – bl.a. for sprog som swahili, wolof og xhosa, som er sprog talt i Niger-Congo. Det betyder, at vi i fremtiden vil kunne tilbyde de sprogsamfund de samme sprogteknologiske løsninger, som alle vi andre nyder godt af.

Anders Søgaard og hans kolleger har netop præsenteret artiklen If all you have is a bit of the Bible med deres resultater på den prestigefulde konference Annual Meeting of the Association of Computational Linguistics.

Wikipedia som universalordbog

Det brugerdrevne netleksikon Wikipedia har også vist sig at være en velegnet kilde til tekster, som forskerne kan bruge til at udvikle løsninger for nogle af de mange sprog, hvor sprogbrugerne ikke har adgang til sprogteknologi. Der er over 35 millioner artikler i Wikipedia, men for forskerne er det mere interessant, at hele 129 forskellige sprog har rundet 10.000 artikler hver. Og mange af artiklerne på de 129 sprog handler naturligvis om de samme begreber og emner.

- Det gør det muligt for os at lave det, vi kalder ”omvendt indeksering”, hvilket vil sige, at vi bruger det begreb, Wikipedia-artiklen handler om, til at beskrive ordene brugt i artiklerne på de forskellige sprog. Normalt hæfter man jo ordene på begreberne for at beskrive dem, men vi gør det omvendte, forklarer Anders Søgaard og fortsætter:

- Hvis nu det engelske ord ”glasses” optræder i det engelske Wikipedia-opslag om Harry Potter, og det tyske ord ”Brille” optræder i det tilsvarende tyske, er der god sandsynlighed for, at de to ord bliver repræsenteret samme måde i vores modeller, som danner grundlag for fx maskinoversættelsesprogrammer. Og den helt store fordel er jo, at vi kan gøre det for over 100 sprog på samme tid. Også mange af de sprog, som ikke allerede har adgang til samme slags ressourcer, som vi har.

Metoden er beskrevet i artiklen Inverted indexing for cross-lingual NLP, som Anders Søgaard har skrevet sammen med bl.a. forskere fra Google i London. Den er også netop blevet præsenteret på konferencen Annual Meeting of the Association of Computational Linguistics

Kontakt

Professor Anders Søgaard
Nordisk Forskningsinstitut, Københavns Universitet
Mobil: 28 34 84 09
Mail: soegaard@hum.ku.dk

Kommunikationsmedarbejder Carsten Munk Hansen
Det Humanistiske Fakultet
Mobil: 28 75 80 23
Mail: carstenhansen@hum.ku.dk