Fördjupningskurs i maskinöversättning, vt 2003

 

Förkunskapskrav

Maskinöversättning och språkgranskning, 5 p.

 

Undervisning

Kursen består av nio undervisningstillfällen om tre klocktimmar vardera. Första delen av varje sådant tillfälle har seminariekaraktär, medan återstående tid ägnas arbete med kursprojekt. Det kan vara såväl teoretiskt som praktiskt laborativt arbete. Vid det första tillfället ges en introduktion till kursen och till maskinöversättningsområdet som sådant. Vidare diskuteras förslag till kursprojekt och deras uppläggning diskuteras. Vid det sista tillfället redovisas projektet.

 

Översikt

 

 

Dag

Tid

Innehåll

Lärare

1

6 feb

14-17

Kursintroduktion samt introduktion till MT (J&M 21, 21.1) + diskussion av kursprojekt och deras uppläggning [ljusbilder pdf] [ljusbilder postscript]

ASH

2

10 feb

14-17

Maskinöversättningens möjligheter och begränsningar (A&SH, EW,  MK, H&S 12, RI 2,) + kursprojekt inkl. genomgång av MATS-systemet) [ljusbilder pdf] [ljusbilder postscript]

ASH

3

18 feb

9-12

Direktöversättning och dess utvidgningar (J&M 21.4, H&S 10,) + kursprojekt [ljusbilder pdf] [ljusbilder postscript]

ASH

4

20 feb

14-17

Transferbaserad MT (RI 6, J&M 21.2, H&S 6.1-6.6, 14, 15), lexikalistisk MT (SH1, SH2, JB) interlinguabaserad MT (J&M 21.3, H&S 6.7-6.8, SN ?) + kursprojekt [ljusbilder pdf] [ljusbilder postscript]

ASH

5

25 feb

9-12

Metal, Comprendio och erfarenheter av infogande av danska i Comprendio (MHM) + kursprojekt

MHM

6

27 feb

14-17

Korpusbaserade översättningslexikon (RI 5, JT , SH3)  + kursprojekt

 

JT, ASH

7

6 mar

14-17

Exempelbaserad översättning (HS) och statistiskt baserad översättning (J&M 21.5 + kursprojekt

ASH

8

13 mar

14-17

Evaluering av maskinöversättning (RI 7, H&S 9) + kursprojekt [ljusbilder pdf]

EF, ASH

9

25 mar

9-12

Redovisning av kursprojekt

 

ASH, EF, JT

 

Lärare

Anna Sågvall Hein, ASH, kursansvarig, Eva Forsbom, EF, Margrethe Hansen Möller, MHM, Jörg Tiedemann, JT

 

Litteratur

 

A&SH  = Almqvist, I & Sågvall Hein, A. (2000) A language checker of controlled language

and its integration in a documentation and translation workflow. Proceedings of the

22nd Conference on Translating and Computing 22. London. Association for information

management. 2000.

EW = Wikholm, E. (1989) Kontrastivitet på lexikal nivå. En arbetsrapport från pilotstudien

Flerspråkigt datorstöd för översättare. Språkdata. Göteborgs universitet. April

1989

HS = Somers. H. (1999) Example-based machine translation. Machine translation 14(2). pp.

113-157.

H&S = Hutchins, J. & Somers, H. (1992) An Introduction to Machine Translation. Academic

 Press Limited. (6, 9, 10, 12, 14, 15)

JB =  Beaven, J. L. (1992) Shake-and-Bake Machine Translation. Proceedings of Coling

1992. pp. 603-609

JT  = Tiedemann, Jörg (2002) MatsLex - a Multilingual Lexical Database for Machine

Translation.In

Proceedings of the Third International Conference on Linguistic

 Resources and Evaluation (LREC 2002), Las Palmas de Gran Canaria, Spain, 29-31 

May, 2002, Vol VI, pp. 1909-1912 [pdf, 280 kB] [gzipped ps, 69 kB]

J&M = Jurafsky, D. & Martin, J. H. (2000) Speech and Language Processing. Prentice-Hall.

MHM = Hansen Möller, M., xx  (2003) ”kompendium om Metal och Comprendio”

RI = Ingo, R. (1991) Från källspråk till målspråk. Introduktion till översättningsvetenskap.

Studentlitteratur (2, 5, 6, 7 )

SH1 = Sågvall Hein, A. (1993) On the translation of nominal expressions in a multilingual

unification-based setting. In: Hajicova, E. (ed.) Functional approaches to language

description. Proceedings of a conference in Prague, November 24-27 1992.

SH2 = Sågvall Hein, A. (1997) Language control and machine translation. In: Proceedings of

the 7th International Conference on Theoretical and Methodological Issues in Machine

Translation. July 23-25, 1997. St. John’s College, Santa Fe, New Mexico.

SH3 = Sågvall Hein, Anna, Eva Forsbom, Jörg Tiedemann, Per Weijnitz, Ingrid Almqvist,

Leif-Jöran Olsson and Sten Thaning, 2002, Scaling Up an MT Prototype for Industrial

Use – Databases and Data Flow.In

Proceedings of the Third International Conference 

on Linguistic Resources and Evaluation (LREC 2002), Las Palmas de Gran Canaria, 

Spain, 29-31 May, 2002, Vol V, pp. 1759-1766 [pdf, 116 kB] [gzipped ps, 49 kB]

SN = Nirenburg, S. (ed.) (1987) Machine translation, Theoretical and methodological issues

(2,  4)

 

 

Examination

Examinationen består i genomförande av ett kursprojekt samt uppgifter knutna till seminariedelen av de olika undervisningstillfällena. Kursprojektet utförs i grupp av valfri storlek. Seminarieuppgifterna utförs individuellt. De består i att läsa angiven litteratur, göra en skriftlig sammanfattning och redovisa den muntligt. Alla kursdeltagare deltar i diskussionen  av presentationen.

 

Projekt

Det har visat sig, att man kan utveckla maskinöversättningssystem av god kvalitet för begränsade domäner och texttyper. Dessa system är vanligen regelbaserade, dvs. översättningen går via en sammanhängande lingvistisk struktur, mening för mening. MATS-systemet är ett sådant system. Det översätter från svenska till engelska inom bilunderhållsdomänen.

 

En intressant fråga gäller hur man kan byta domän för ett regelbaserat system. En annan handlar om hur man kan byta översättningsriktning. Dessa två frågeställningar utgör utgångspunkt för två olika förslag till projektuppgifter. De utgår alla från MATS-systemet.

 

Den första strategi som tillämpades för maskinöversättning var direktöversättning, dvs. översättning som i huvudsak är lexikonbaserad och inte går via någon sammanhängande satsstruktur. Vanligen utförs översättningen stegvis, där varje steg tar han om något översättningsproblem. Direktöversättningsstrategin har befunnits alltför begränsad för kvalitetsöversättning. Ändå har man på senare år genom tillgång till korpusbaserade översättningsdata samt användning av statistiska metoder kommit längre med denna metod än vad man tidigare hade förväntat sig. Ett fjärde förslag till projektuppgift är sålunda att utveckla ett direktöversättningssystem från eller till svenska utifrån eget huvud.

 

Tre förslag till projektuppgifter

 

  1. Byte av domän för MATS-systemet
  2. Byte av översättningsriktning för MATS-systemet (sv-->en à en-->sv)
  3. Ett nytt direktöversättningssystem från eller till svenska för godtycklig domän

 

Projektuppgiften utförs i grupp av valfri storlek. En eller flera av de föreslagna uppgifterna väljs. Första steget i genomförandet av uppgiften består i att göra en projektspecifikation. Detta gäller oberoende av vilken/vilka uppgift/er som väljs. Att utforma specifikationen innebär att göra en noggrann målbestämning. Vad och hur mycket/långt skall man hinna? Hur bra skall systemet bli? Vilka är de olika delstegen på vägen mot målet? Hur lång tid får varje steg ta? Vem gör vad? Projektledare? Projektspecifikationen arbetas fram stegvis och diskuteras i samband med undervisningen. När den godkänts vidtar det egentliga arbetet med genomförandet. Projektspecifikationen är en viktig del av projektrapporten.

 

1. Byte av domän

Utgångspunkten är, att översättningen skall gå från svenska till engelska på samma sätt som i MATS-systemet.

 

Det första är att ta ställning till är vilken domän man skall inrikta sig på. Det bör vara en avgränsad domän där maskinöversättning kan vara ett realistiskt alternativ.

 

Det är en fördel om redan översatt text finns tillgänglig inom den domän man vill arbeta med. Man behöver översatta texter som ”facit” för översättningen men vanligen också för att bygga lexikon. Det är lämpligt att etablera en översättningskorpus och dela upp den i en träningsdel och en evalueringsdel.

 

I genomförandet av projektet får man återanvända hela språkmodulen i MATS-systemet exklusive det domänspecifika billexikonet:

 

En stor del av arbetet kommer att handla om att tillföra de domänspecifika orden till databasen. MATS-systemet flaggar rött för de ord som saknas i den svenska databasen och orden sparas upp på sådant vis, att man kan komma åt dem samlat. Det är också rimligt att förutse, att de flesta filerna ovan kommer att behöva viss komplettering.

 

Med lämpligt val av domän bör uppgiften kunna resultera i ett nytt översättningssystem inom ramen för MATS-systemet.

 

Tillgänglig mjukvara:

 

MATS-systemet

 

Program för uppdatering av databasen (Tiedemann)

 

Evalueringsprogram för MATS-systemet (Forsbom och Weijnitz)

 

Länkningsprogram (Tiedemann)

 

 

2. Byte av översättningsriktning för MATS-systemet (sv-->en à en-->sv)

För denna uppgift behöver man inte etablera någon ny översättningskorpus. Man kan utgå från MATS-korpusen (xxx). Den engelska delen av korpusen får utgöra källspråk och den svenska delen ”facit”. Vidare får man tillgång till hela MATS-lexikonet, dvs. arbetet med lexikonet bör vara försumbart. Däremot tillhandahåller MATS-systemet ingen parser för engelska och inte någon generringsgrammatik för svenska. De dominerande uppgifterna i detta projekt kommer sålunda att bestå i att byta ut den svenska parsern mot en engelsk parser och att definiera genereringsregler för svenska i MULTRA:s genereringsformalism. Vad gäller den engelska parsern, så kan man tänka sig två alternativ: skriva engelsk parser i UCP eller koppla in en extern parser. För- och nackdelar med dessa båda alternativ bör diskuteras i arbetet med projektspecifikationen. Lexikala transferregler för översättning av lexikala enheter i kontext (endic.tra) kommer också att behöva utvecklas för god översättningskvalitet. I vad mån de strukturella transferreglerna (engra.tra) är mer svårbedömt.

 

Tillgänglig mjukvara:

 

MATS-systemet

 

Evalueringsprogram för MATS-systemet (Forsbom och Weijnitz)

 

3. Utveckling av ett nytt direktöversättningssystem från eller till svenska

Här är det fritt fram!

 

/Anna Sågvall Hein

2003-01-09

Uppdaterad 2003-03-24 bd