Ben je geĂŻnteresseerd in de wereld van wetenschap & technologie en wil je hier graag meer over lezen? Word dan lid van KIJK!Â
Hij is je redder in nood als je de taxichauffeur in het Italiaans moet uitleggen dat hij wat minder wild mag rijden. Maar hoe werkt de vertaalmachine van Google eigenlijk?
Hedendaagse vertaalmachines baseren zich grotendeels op een parallel corpus: een tekst met dezelfde inhoud, maar dan in verschillende talen. Met dank aan menselijke vertalers bestaan er veel van zulke corpora. Zo is er een online-verzameling van allerlei Bijbelvertalingen, en ook van de Harry Potter-boeken. Google Translate gebruikt als bron het grootste parallelle corpus dat er bestaat: het internet. Veel sites zijn in twee of meer talen vertaald. Bovendien zijn er veel websites met min of meer dezelfde inhoud, bijvoorbeeld Wikipedia-paginaâs met hetzelfde thema in verschillende talen.
Lees ook:
I’m decorating you
Het programma deelt al die teksten in stukjes op: in woorden, maar ook in woordgroepen. Stel dat het een Nederlandse/Engelse website over olifanten gebruikt. Dan blijkt al snel dat het woord âolifantâ steeds correspondeert met âelephantâ. Aha, denkt Google, een match! Hij ziet bovendien dat dicht bij âolifantâ vaak het woord âzwaarâ voorkomt, en in het Engels op diezelfde plek âheavyâ. Als nu iemand aan Google vraagt hoe je âzware olifantâ in het Engels zegt, dan voorspelt hij: âheavy elephantâ.
Het basisprincipe is simpel, maar uiteraard zijn er problemen, bijvoorbeeld met woorden die meerdere betekenissen hebben. Je zult in parallelle corpora wel vinden dat âversierenâ in het Nederlands correspondeert met âdecorateâ in het Engels. Toch klopt dat niet altijd â wie iemand versiert, zegt niet âIâm decorating youâ (behalve Louis van Gaal misschien). Google probeert zoiets te voorkomen door ook de context van woorden te bekijken. Als in de buurt ook âflirtenâ en âdateâ voorkomen, dan is het beter om âhit on youâ te gebruiken.
Als je je verveelt, kun je dit principe gebruiken om Google tĂłch om de tuin te leiden. Voer maar eens een zin in als âIk wil je bij de kerstboom versierenâ. Wedden dat-ie de fout in gaat?
Deze vraag kon je vinden in KIJK 8/2021.
Ook een vraag voor de rubriek âKIJK Antwoordtâ? Mail hem naar info@kijkmagazine.nl.
Tekst: Sterre Leufkens
Beeld: Robin Lubbock/WBUR