UPPSALA UNIVERSITET : Inst. f. lingvistik och filologi : STP
Uppsala universitet
Hoppa över länkar

Syfte
Uppgift
Examination
Länkar


STP
Kursplaner (pdf)


UPPSALA UNIVERSITET
Institutionen för lingvistik och filologi
Metoder och tillämpningar inom språkteknologin, ht06
Eva Pettersson

Labb 2 - Korpusbehandling i Linux

Variant för studenter på Introduktion till språkteknologi, se sist i detta dokument!

Syfte

Syftet med labben är att ge praktisk erfarenhet av hur skalkommandon i Linux kan användas för utvinning av information ur stora textmängder (korpusar).

Uppgift

Uppgiften består i att utvinna olika typer av information ur en korpus (större textmängd), med hjälp av kommandon som finns inbyggda i Linux. Till din hjälp har du ett kompendium som tar upp användbara kommandon:

Kenneth Ward Church, Unix for Poets

I kompendiet finns svaret på det mesta när det gäller denna uppgift. Se till att du verkligen förstår vilka kommandon som används till vad och varför!

Observera också att tanken till stora delar är att ni ska använda er av de kunskaper ni har fått från kursen "Grundläggande databehandling". Om ni där har lärt er något kommando, och "Unix for Poets" visar ett annat sätt att lösa uppgiften på, så lös den hellre på ert eget sätt, som ni förstår till fullo.

Om du känner sig osäker på hur man använder de olika kommandona, kan du konsultera de s.k. man-sidorna. Skriv 'man' följt av det kommando du vill veta mer om, så får du lite information om hur kommandot används.

Börja med att välja ut en lämplig text (på valfritt språk) som du vill arbeta med. För att studien ska bli intressant, bör du välja en ganska lång text (runt 1 000 ord, men gärna mer).

Om du har svårt att hitta texter av lämplig storlek, kan du t.ex. välja en text från Project Runeberg, som innehåller klassisk nordisk litteratur i elektronisk form. Runeberg-texterna finns att tillgå här:

http://runeberg.org/search.pl?view=catalog

När du har valt ut en lämplig text, ska nedanstående uppgifter utföras.

1. Räkna ord
Inom korpuslingvistiken är det viktigt att göra en skillnad mellan löpord (tokens) och typord (types), där löpord är antalet ordförekomster i texten, medan typord är antalet unika ord i texten. Om vi t.ex. har satsen en apa såg en annan apa, så innehåller den sex löpord (en, apa, såg, en, annan, apa), men bara fyra typord (en, apa, såg, annan).

Den första deluppgiften går ut på att på automatisk väg ta reda på antalet löpord respektive typord i din text.

Hur många löpord innehåller din text?
Hur många typord innehåller din text?

2. Skapa frekvensordlista
I många sammanhang när man arbetar med en korpus, är man intresserad av att få reda på hur ofta ett visst ord förekommer i korpusen eller vilka ord som är vanligast förekommande. För att få reda på detta kan man skapa en frekvensordlista.

Skapa en frekvensordlista utifrån din korpus. Se till att den resulterande frekvensordlistan är ordnad i fallande frekvensordning. Utdata bör alltså se ut ungefär så här:

   3134 att
   2342 och
   1977 i
   1746 för
   1727 som
   1581 det
   1531 av
   1268 är
   1038 på
   1034 har
   1017 en
   1009 om
Vilka är de tjugo mest frekventa orden i din korpus och vilken frekvens har de?

3. Titta på kollokationer
Det är inte bara frekvensen för enstaka ord som är av vikt för en korpuslingvist. Kollokationer, dvs sekvenser av två eller flera ord, är minst lika intressant. Ur kollokationer kan man få fram viktig information om sammanhängande fraser, partikelverb, flerordade egennamn, verbvalenser m.m.

Skapa en frekvenssorterad bigramslista. Den kan se ut ungefär så här:

    364 för     att
    242 kommer  att
    238 att     det
    200 att     vi
    185 Det     är
    161 Herr    talman
    145 om      att
    139 det     är
    126 att     de
    104 till    att
    102 det     gäller
    100 av      de
Tips: tail och paste kan vara användbara kommandon här.

Vilka är de tjugo mest frekventa bigrammen i din korpus och vilken frekvens har de?

Skapa på liknande sätt en frekvenssorterad trigramslista. Den kan se ut ungefär så här:

     72 när     det     gäller
     47 mul     och     klövsjukan
     47 att     det     är
     43 i       fråga   om
     37 inom    ramen   för
     35 Herr    talman  Jag
     34 beviljandet     av      ansvarsfrihet
     30 se      till    att
     27 beviljande      av      ansvarsfrihet
     27 att     det     inte
Vilka är de tjugo mest frekventa trigrammen i din korpus och vilken frekvens har de?

Experimentera med att skapa större n-gramslistor. Ser du någon anledning till varför korpuslingvister ofta begränsar sig till att inte titta på sekvenser större än trigram?

4. Jämför med andra korpusar
Leta upp en ny text på samma språk, och skapa en frekvensordlista, en frekvenssorterad bigramslista och en frekvenssorterad trigramslista utifrån denna.

Vilka är de tjugo mest frekventa orden, bigrammen och trigrammen i den nya texten, och vilken frekvens har de?

Är det till stor del samma ord/bigram/trigram som är vanligast i de två texterna, eller skiljer det sig mycket åt? Diskutera kring varför du tror att det är som det är på den punkten!

Examination och inlämning

För varje deluppgift i labbinstruktionerna ska labbrapporten innehålla följande:

Rapporten ska lämnas in i pappersformat (ej handskrivet) till Eva Pettersson, senast fredag 10 november. Lämna rapporten i facket uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).

Länkar

Variant för studenter på Introduktion till språkteknologi

Ni som läser kursen Introduktion till språkteknologi kan istället för ovan beskrivna uppgift välja att skriva ett ca 2 A4-sidor långt referat om korpuslingvistik.

Skriv sakligt och översiktligt. Nivån måste vara relativt elementär. Försök bearbeta materialet så att ni verkligen begriper vad ni skriver.

Det är viktigt att ni anger referenser ordentligt: Titel, författare, publikation (antologi, tidskrift, nätplats), förlag, och år. Exempel: Hänvisning i löptexten: Spärck Jones (1999). Referens under rubriken Referenser:

Spärck Jones, K. 1999, "Automatic Summarization: Factors and Directions", i Mani, I. och Maybury, M. T., Advances in Automatic Text Summarization Cambridge, Massachusetts: MIT Press, 1-12.

Om ni ska referera till en webbsida är det viktigt att ni anger vilket datum den aktuella webbsidan var tillgänglig.

Sök information i kurslitteraturen och i andra böcker och artiklar, och på nätet. Försök hitta material som är aktuellt och uppmärksammat.

Referatet ska lämnas in i pappersformat (ej handskrivet) till Eva Pettersson, senast fredag 10 november. Lämna referatet i facket uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).