20. juni 2014

Sprogteknologi skal virke for alle slags sprog

sprog og maskiner

Der er større chance for at få Google Translate eller en søgemaskine til at virke godt, hvis det sprog, du taster ind, er standardengelsk. Maskinerne fungerer dårligere med uformelt engelsk eller små sprog som dansk og svensk. Dén skævhed arbejder sprogforsker Anders Søgaard på at udligne i sin nye doktorafhandling, så teknologien i fremtiden kan håndtere flere varianter af engelsk og flere forskellige sprog.

- Hvis vi vil have en computer til at oversætte eller analysere almindeligt sprog, bliver vi først nødt til at fodre den med enorme mængder tekst, så den kan lære systematikken i sproget. Mange af de maskinoversættelsesprogrammer, vi bruger i dag, fx Google Translate, er af historiske grunde især blevet fodret med avisartikler på engelsk og andre store sprog. Derfor er programmet også bedst til at oversætte netop avisartikelsprog, fortæller lektor og sprogforsker Anders Søgaard fra Center for Sprogteknologi på Københavns Universitet.  

- Men så snart vi bevæger os væk fra standarden og gerne vil have maskinerne til at analysere og oversætte fx uformelt sprog som Facebook-opdateringer, får de svært ved at følge med. Min forskning går ud på at kompensere for den skævhed – eller bias – så maskinerne også kan håndtere andre former for sprog.

Anders Søgaard har netop forsvaret doktorafhandlingen Learning Linguistics Models under Bias, hvor han tester forskellige statistiske metoder til at behandle store tekstsamlinger, så det er muligt at korrigere for den sproglige ensretning. Hans ambition er, at sprogteknologien skal være tilgængelig for alle mennesker. Og ikke kun dem, der taler og skriver det ”rigtige” sprog.


Se videointerview med Anders Søgaard, hvor han fortæller om sin doktorafhandling.

Twitter og Facebook som ødelagt avissprog

En af de metoder, Anders Søgaard afprøver i sin afhandling, er kendt fra statistikken som vægtning. I sprogteknologisk sammenhæng går vægtning ud på at tildele bestemte sætninger i tekstsamlingerne mere vægt end andre.

- Selv i en tekstsamling, der primært består af tekster skrevet på Politiken- eller Jyllands-Posten-dansk, vil der være sætninger, som ligner Facebook- eller talesprog mere end andre. Og de sætninger tildeler man vægte, sådan at maskinen foretrækker dem, når den skal analysere sproget i Facebook-opdateringer, forklarer Anders Søgaard.

Vægtning er velkendt fra statistisk metode inden for andre videnskabelige felter, og Anders Søgaard undersøger i afhandlingen, hvordan andre videnskaber – såsom økonomi, psykologi og statskundskab – tager højde for statistiske skævheder for at finde inspiration til at forbedre sprogteknologien.

- En anden metode, jeg har haft held med at bruge, er at ”korrumpere” de avisartikeltekster, maskinerne bruger, ved bevidst at stave ord anderledes og bruge færre kommaer og punktummer. Tanken bag den metode er, at Facebook-sprog bare er en form for ødelagt avissprog, hvor der er gået noget tegnsætning tabt, og stavningen er anderledes. På den måde kan sprogteknologien tilnærme sig et sprog, der er mere dagligdags end avisartikelsprog. Der er en del af studierne i afhandlingen, som netop handler om denne metode; om at finde gode måder at ødelægge tekst på, så det mere kommer til at ligne den type tekst, man forventer, fx statusopdateringer på Facebook, siger Anders Søgaard.

I doktorafhandlingen, som er tilgængelig på Anders Søgaards hjemmeside, er der beskrevet flere eksempler på metoder, der kan forbedre sprogteknologien for andre typer sprog end standardsprog.

Læs Anders Søgaards doktorafhandling

Kontakt

Lektor Anders Søgaard
Center for Sprogteknologi
Københavns Universitet
Mobil: 28 34 84 09

Kommunikationsmedarbejder Carsten Munk Hansen
Det Humanistiske Fakultet
Mobil: 28 75 80 23