23. juni 2010

Maskinoversættelse version 2.0 kan gøre en ende på absurde oversættelser

Det er snart slut med at grine ad, hvad maskinoversættelse a la Google Oversæt kan finde på at komme op med af ufrivilligt morsomme og nogle gange uforståelige oversættelser af ellers helt almindeligt kedelige, informative tekststykker. 

Sprogforsker Anders Søgaard

Forskere ved Stanford University har under dette års NAACL-konference i juni (den vigtigste konference inden for datalingvistik, red.) lanceret et spritnyt maskinoversættelsessystem ved navn Phrasal – og det er forskning ledt af sprogforsker Anders Søgaard ved Center For Sprogteknologi (CST) på Københavns Universitet, der ligger til grund for nyskabelsen:

-Min forskning er gået ud på at dokumentere og opregne de mest fundamentale oversættelsesmønstre, som de nuværende oversættelsessystemer ikke kan producere. Oversættelsessystemer bliver bedre og bedre, jo mere oversat tekst man føder ind i dem, men de nuværende systemer har principielle begrænsninger. Jeg har i samarbejde med forskere fra Berlin og Hong Kong vist, hvad disse begrænsninger består i, og hvilken betydning de har for systemernes oversættelseskvalitet, forklarer forsker Anders Søgaard.

Anders Søgaard fortæller, at det i nogle tilfælde er to tredjedele af oversættelserne, som de gængse maskinoversættere ikke kan håndtere. Resultaterne blev første gang publiceret ved sidste års NAACL-konference.

Sort tale

Sådanne mangler i første generation af maskinoversættelsessystemer har resulteret i adskillige mærkværdige og til tider uforståelige bud på oversættelser som i eksemplet fra en artikel i Århus Stiftstidende 15. maj 2008, hvor redaktionen havde fodret Google Oversæt med en bid fra Visit Aarhus’ engelsksprogede turistinformation og fået følgende ud på dansk:

»Dette er tydelig bevis langs Vadestedet ved floden, hvor der plejede at være en Ford i de tidlige dage af byen, og hvor den studerende befolkning i dag frequents de mange cafeer og restauranter pakket stramt der.«

Som redaktionen spurgte bagefter: hvad lavede den Ford der i gamle dage..?! Programmet havde her oversat det engelske ord for vadested - »ford« - til en bil af mærket Ford.

Nye oversatte tider

I mellemtiden har Anders Søgaards og Stanford-forskernes arbejde på at forbedre maskinoversættelsers formåen resulteret i, at det nye system Phrasal langt bedre kan håndtere såkaldte diskontinuerte oversættelsesenheder – og det er et tigerspring i forhold til 1. generation af maskinoversættelsessystemer:

- I de allerførste maskinoversættelsessystemer oversatte man ét ord ad gangen. I nuværende systemer er oversættelsesenhederne sammenhængende fraser, som f.eks. ’slå til lyd for’. Frasen ’slå til lyd for’ kan oversættes med ’advocate’ på engelsk, og ikke med ’make to sound for’. Dér, hvor de nuværende systemer løber ind i problemer, er, når de naturlige oversættelsesenheder ikke er sammenhængende, men diskontinuerte. Google Oversæt oversætter fint sætningen ’Ingen slår til lyd for cølibat her’ med ’Nobody advocates celibacy here’, men ’Her slår ingen til lyd for cølibat’, hvor ’slår til lyd for’ ikke længere hænger sammen, oversættes med ’This suggests no call for celibacy’.

- Min forskning viste, at diskontinuerte oversættelsesenheder var uden for nuværende systemers rækkevide, og jeg kvantificerede deres forekomst i oversat tekst. Og det fik forskerne på Stanford University til at udvikle Phrasal, fortæller Anders Søgaard.

I udviklingstrin kan Phrasal altså opfattes som en pendant til det, man for et par år siden kaldte web 2.0, fordi 2. generation af internettet bød på helt nye muligheder. Med version 2.0 af maskinoversættelsessystemer er det måske snart slut med at køre diverse tekster gennem oversættelsesprogrammer på nettet for at få et godt grin ud af det – til gengæld kan vi så med Phrasals potentiale se frem til en verden, der åbner sig for os gennem kommunikation og forståelse i hidtil uset omfang. 

Systemet bliver offentligt tilgængeligt i løbet af juni måned på nlp.stanford.edu/phrasal.

Kontakt

Hvis du vil vide mere om projektet, kan du kontakte lektor Anders Søgaard.

Du kan også læse mere om forskningen på Center for Sprogteknologi.

Emner