Computeren skal lære at genkende dobbelttydige ord – Københavns Universitet

Videresend til en ven Resize Print Bookmark and Share

Forside > Nyheder > Nyheder fra 2014 > Januar > Computeren skal lære a...

15. januar 2014

Computeren skal lære at genkende dobbelttydige ord

sprogundervisning for maskiner

Visse ord skifter betydning på en måde, der er næsten organisk. Eksempelvis kan et ord som glas dække over både det, der sidder i vinduesrammen, eller det vi drikker vand af. Den forskellighed er svær for computernes søgemaskiner at håndtere. Derfor har ph.d. Héctor Martinez forsket i ord med flere betydninger og skabt mulighed for, at søgemaskiner kan lære at genkende de flertydige ords betydninger.

Spanske Héctor Martinez har netop forsvaret sin ph.d. ved Center for Sprogteknologi på Københavns Universitet. En ph.d. der ikke bare består af, men også handler om ord. Ord som har flere betydninger.

- Min forskning handler om det, man med et fint udtryk kalder systematisk polysemi – flertydige ord og navne, forklarer Héctor Martinez og fortsætter:

- Tag nu et ord som 'stamme'. Det kan være en del af et træ eller udsagnsordet at stamme. Hvis det er et udsagnsord, kan det betyde to ting. Hvor du stammer fra, eller det, at du stammer, forklarer Héctor Martinez.

Den slags kan en computer ikke forstå. Men det forsøger forskeren at få den til.

- I løbet af mit projekt har jeg arbejdet på at genskabe den automatiske genkendelsesproces. Sådan at den elektroniske tekst så at sige kan genkende et flertydigt ords betydning i den kontekst, det nu engang optræder i.

Med andre ord har Martinez efterabet folks opfattelse af, hvad forskellige ord rent faktisk betyder – og så overført den viden til computeren.

- Det er jo den samme måde, vi mennesker lærer sproget på – altså ved at få forståelse af hvad forskellige ord betyder i forskellige sammenhænge. At ordet glas i én sammenhæng kan betyde den fysiske beholder, du drikker af, mens samme ord i en anden sammenhæng kan betyde indholdet – altså det, at man fik tre glas her til aften.

For at computeren forstår den slags, skal der rigtig mange ord – og rigtig meget tekst igennem dens system, og efter milliarder af ord kan den statistisk beregne, hvordan ordene ligner hinanden, alt efter hvilken kontekst de optræder i.

- Hvis jeg fx siger, at XY smager godt, så ved man, at XY er spiseligt. Og tilføjer jeg så, at XY er mørkt, så ved man også, at XY er noget fysisk, fordi kun fysiske ting kan have farve. Sådan lidt forenklet så kan man sige, at det er det samme, jeg har lært maskinernes søgemekanisme at gøre.

Ph.d. med praktikophold

Undervejs i sin ph.d. tilbragte Martinez en måned i praktik på mediebureauet Infomedia, som bl.a. har en database over avisartikler. Her lød opgaven på at opbygge en systematisk liste over de mange forskellige betydninger, som enkelte navne kan have. Praktikken var en mulighed for Héctor Martinez til at formidle sin forskning og samtidigt teste sine danskkundskaber, da Infomedias store database primært består af danske tekster.

- Det var meget tilfredsstillende, at jeg var i stand til at arbejde på dansk, slutter Martinez, der håber, at han får mulighed til at forske videre i Danmark.

Kontakt

Ph.d. Héctor Martinez
Center for Sprogteknologi
Københavns Universitet
Mobil: +45 25 78 95 69

Kommunikationsmedarbejder Jette Marinus Thoreau
Det Humanistiske Fakultet
Mobil: 22 28 45 54