Maskinoversættelse er oversættelse, der bruger algoritmer til at oversætte fra et sprog til et andet. De første generationer af maskinoversættelse virkede ved at oversætte ved hjælp af grammatiske og lingvistiske regler eller ved hjælp af statistiske regler. Moderne maskinoversættelse anvender i stigende grad generativ AI, som er baseret på kæmpestore sprogmodeller og maskinlæring.

Maskinoversættelsesværktøjer

Et udpluk af de mest gængse maskinoversættelsesværktøjer omfatter Google Translate, DeepL, Microsoft Translator eller Systran. Maskinoversættelse sker også i stigende grad med ChatGPT, Gemini, Copilot eller Claude, som alle fire er baseret på generativ AI.

Post-editering

Kvaliteten af maskinoversættelse er med generativ AI og store sprogmodeller blevet væsentligt forbedret, men der er stadig stor brug for menneskelig kvalitetssikring. Denne kvalitetssikring af maskinoversatte tekster kaldes post-editering.

Post-editeringen indeholder både en kommunikativ og kognitiv kvalitetssikring, hvor oversætteren gennemgår den kommunikative del af teksten, fx sprogets stil, tone og grammatik, samt den kognitive del af teksten, fx korrektheden i indholdet, argumenter, etik osv. Her tilføres der den helt nødvendige omverdensviden til teksten.

Maskinoversættelsens historie

Vigtige begivenheder

800-tallet

Al-Kindi tænker de første tanker om en oversættelsesmaskine

1933

Artsrouni indsender patentansøgning om en oversættelsesmaskine

1949

Weaver udgiver Warren Weaver Memorandum om maskinoversættelse

1954

Forskerhold fra Georgetown University præsenterer den første oversættelsesmaskine

1968

Virksomheden SYSTRAN stiftes

1984

Virksomheden TRADOS stiftes

1997

Altavistas BabelFish lanceres

2006

Google Translate lancerets

2017

Googles Transformer Model udvikles

2022

ChatGPT lanceres

Den arabiske filosof al-Kindi er ifølge flere kilder den første kendte person, som allerede i 800-tallet udviklede metoder, der i dag anvendes i maskinoversættelse, fx frekvensanalyser og sandsynlighedsberegninger. I sidste århundrede, i 1933, indgav den armensk-franske ingeniør Georges Artsrouni den første patentansøgning om en "oversættelsesmaskine", der brugte bilingvale ordbøger og hulkort.

Computerbaseret oversættelse

Det var dog først i 1949, at den amerikanske naturvidenskabsmand og matematiker Warren Weaver (1894-1978) for første gang talte om decideret computerbaseret maskinoversættelse. Han var forfatter til det meget toneangivende Warren Weaver Memorandum, som fik stor betydning for forskningen i maskinoversættelse. Et par år senere blev den første forsker i maskinoversættelse, den israelske logiker og sprogfilosof Yehoshua Bar-Hillel, ansat på MIT, og i 1954 gennemførte et hold forskere fra Georgetown University sammen med IBM en offentlig demonstration af et oversættelsessystem, der dog kun kunne oversætte ganske få russiske sætninger til engelsk.

Sidst i 1950’erne pegede Yehoshua Bar-Hillel dog på nogle af de store udfordringer ved maskinoversættelse, herunder især sprogs kompleksitet, ords dobbeltbetydninger og semantisk tvetydighed.

Udvikling af maskinoversættelsessystemer

Forskningen i maskinoversættelse fortsatte op igennem 1960’erne, og selvom det hele blev sat lidt i stå med ALPAC-rapporten (fordi den var meget kritisk over for forskning i maskinoversættelse), blev maskinoversættelsessystemer som SYSTRAN og Logos udviklet. I 1970’erne blev maskinoversættelse for første gang rigtig brugt kommercielt, da fx Xerox brugte SYSTRAN til at oversætte tekniske manualer, og det var også i 1970’erne, at regelbaseret maskinoversættelse så dagens lys. Regelbaseret maskinoversættelse indebar, at systemer oversatte efter specifikke sproglige regler og forudsætninger om grammatik.

I 1980’erne fortsatte udviklingen, og oversættelseshukommelsessystemer som TRADOS blev lanceret. Udviklingen tog virkelig fart i 1990’erne med internettet, hvor Altavistas BabelFish blev lanceret i 1997 og Microsofts Translator i 1999. Det var også i 1990’erne, at man begyndte at udvikle nye metoder som eksempelbaseret maskinoversættelse og statistisk baseret maskinoversættelse. Eksempelbaseret maskinoversættelse brugte et korpus af bilingvale sætningspar til at oversætte med, og statistisk baseret maskinoversættelse anvendte statistiske modeller til at beregne sandsynligheder for den bedste oversættelse.

Google Translate og neural maskinoversættelse

Maskinoversættelse udviklede sig voldsomt i 00’erne, og den meste epokegørende hændelse kan siges at være, da Google lancerede Google Translate i 2006. Googles forskning var toneangivende og omfattede bl.a. forskning i statistisk baseret maskinoversættelse og i neurale netværk. Denne toneangivende forskning satte dagsordenen for det næste årti, og 2010’erne blev det årti, hvor neural maskinoversættelse vandt indpas.

Da Google lancerede deres Transformer-model i 2017, var feltet forandret for altid. Transformer-modellen er trænet med maskinlæring og giver neural maskinoversættelse, som er meget præcis, og som kan håndtere sprogligt komplekse sætninger. I 2017 blev det meget anerkendte maskinoversættelsesværktøj DeepL desuden lanceret.

Maskinoversættelse med kunstig intelligens

I 2020’erne har denne udvikling bare taget endnu mere fart. Maskinoversættelse bliver bedre og bedre, og systemerne bag er baseret på maskinlæring og kunstig intelligens, der konstant lærer af sig selv og via enorme tekstmængder.

Det første skridt hen imod maskinoversættelse vha. generativ AI blev for alvor taget, da OpenAI lancerede ChatGPT i november 2022. Flere kommunikationsværktøjer anvender allerede maskinoversættelse i realtid, hvilket betyder, at man via fx chatbots eller mødefaciliteter kan føre multilingvale (flersproglige) samtaler i realtid. Maskinoversættelse gennemført med generative AI-værktøjer fører til en dramatisk ændring i fx translatørers hverdag, idet opgaver nu ikke længere er oversættelsesopgaver, men oftere og oftere er post-editering af maskinoversatte tekster (PEMT).

Læs mere i Den Store Danske

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig