Institutionen för lingvistik och filologi
Metoder och tillämpningar inom språkteknologin, ht06
Eva Pettersson
Labb 2 - Korpusbehandling i Linux
Variant för studenter på Introduktion till språkteknologi, se sist i detta dokument!Syfte
Syftet med labben är att ge praktisk erfarenhet av hur skalkommandon i Linux kan användas för utvinning av information ur stora textmängder (korpusar).Uppgift
Uppgiften består i att utvinna olika typer av information ur en korpus (större textmängd), med hjälp av kommandon som finns inbyggda i Linux. Till din hjälp har du ett kompendium som tar upp användbara kommandon:Kenneth Ward Church, Unix for Poets
I kompendiet finns svaret på det mesta när det gäller denna uppgift. Se till att du verkligen förstår vilka kommandon som används till vad och varför!
Observera också att tanken till stora delar är att ni ska använda er av de kunskaper ni har fått från kursen "Grundläggande databehandling". Om ni där har lärt er något kommando, och "Unix for Poets" visar ett annat sätt att lösa uppgiften på, så lös den hellre på ert eget sätt, som ni förstår till fullo.
Om du känner sig osäker på hur man använder de olika kommandona, kan du konsultera de s.k. man-sidorna. Skriv 'man' följt av det kommando du vill veta mer om, så får du lite information om hur kommandot används.
Börja med att välja ut en lämplig text (på valfritt språk) som du vill arbeta med. För att studien ska bli intressant, bör du välja en ganska lång text (runt 1 000 ord, men gärna mer).
Om du har svårt att hitta texter av lämplig storlek, kan du t.ex. välja en text från Project Runeberg, som innehåller klassisk nordisk litteratur i elektronisk form. Runeberg-texterna finns att tillgå här:
http://runeberg.org/search.pl?view=catalog
När du har valt ut en lämplig text, ska nedanstående uppgifter utföras.
1. Räkna ord
Inom korpuslingvistiken är det viktigt att göra en skillnad mellan
löpord (tokens) och typord (types), där löpord är
antalet ordförekomster i texten, medan typord är antalet
unika ord i texten. Om vi t.ex. har satsen en
apa såg en annan apa, så innehåller den sex löpord (en,
apa, såg, en, annan, apa), men bara
fyra typord (en, apa, såg, annan).
Den första deluppgiften går ut på att på automatisk väg ta reda på antalet löpord respektive typord i din text.
Hur många löpord innehåller din text?
Hur många typord innehåller din text?
2. Skapa frekvensordlista
I många sammanhang när man arbetar med en korpus, är man intresserad
av att få reda på hur ofta ett visst ord förekommer i korpusen eller
vilka ord som är vanligast förekommande. För att få reda på detta kan
man skapa en frekvensordlista.
Skapa en frekvensordlista utifrån din korpus. Se till att den resulterande frekvensordlistan är ordnad i fallande frekvensordning. Utdata bör alltså se ut ungefär så här:
3134 att 2342 och 1977 i 1746 för 1727 som 1581 det 1531 av 1268 är 1038 på 1034 har 1017 en 1009 omVilka är de tjugo mest frekventa orden i din korpus och vilken frekvens har de?
3. Titta på kollokationer
Det är inte bara frekvensen för enstaka ord som är av vikt för en
korpuslingvist. Kollokationer, dvs sekvenser av två eller flera ord, är
minst lika intressant. Ur kollokationer kan man få fram
viktig information om sammanhängande fraser, partikelverb, flerordade
egennamn, verbvalenser m.m.
Skapa en frekvenssorterad bigramslista. Den kan se ut ungefär så här:
364 för att
242 kommer att
238 att det
200 att vi
185 Det är
161 Herr talman
145 om att
139 det är
126 att de
104 till att
102 det gäller
100 av de
Tips: tail och paste kan vara användbara kommandon här.Vilka är de tjugo mest frekventa bigrammen i din korpus och vilken frekvens har de?
Skapa på liknande sätt en frekvenssorterad trigramslista. Den kan se ut ungefär så här:
72 när det gäller
47 mul och klövsjukan
47 att det är
43 i fråga om
37 inom ramen för
35 Herr talman Jag
34 beviljandet av ansvarsfrihet
30 se till att
27 beviljande av ansvarsfrihet
27 att det inte
Vilka är de tjugo mest frekventa trigrammen i din korpus och vilken
frekvens har de?Experimentera med att skapa större n-gramslistor. Ser du någon anledning till varför korpuslingvister ofta begränsar sig till att inte titta på sekvenser större än trigram?
4. Jämför med andra korpusar
Leta upp en ny text på samma språk, och skapa en frekvensordlista, en
frekvenssorterad bigramslista och en frekvenssorterad
trigramslista utifrån denna.
Vilka är de tjugo mest frekventa orden, bigrammen och trigrammen i den nya texten, och vilken frekvens har de?
Är det till stor del samma ord/bigram/trigram som är vanligast i de två texterna, eller skiljer det sig mycket åt? Diskutera kring varför du tror att det är som det är på den punkten!
Examination och inlämning
För varje deluppgift i labbinstruktionerna ska labbrapporten innehålla följande:- En beskrivning av vilka problem du skulle lösa, samt hur du har valt att lösa dessa problem
- De kommandon du har använt dig av
- Svaren på de frågor som ställts i labbinstruktionerna
Rapporten ska lämnas in i pappersformat (ej handskrivet) till Eva Pettersson, senast fredag 10 november. Lämna rapporten i facket uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).
Länkar
- Kenneth Ward Church, Unix for Poets
- Project Runeberg
Variant för studenter på Introduktion till språkteknologi
Ni som läser kursen Introduktion till språkteknologi kan istället för ovan beskrivna uppgift välja att skriva ett ca 2 A4-sidor långt referat om korpuslingvistik.Skriv sakligt och översiktligt. Nivån måste vara relativt elementär. Försök bearbeta materialet så att ni verkligen begriper vad ni skriver.
Det är viktigt att ni anger referenser ordentligt: Titel, författare, publikation (antologi, tidskrift, nätplats), förlag, och år. Exempel: Hänvisning i löptexten: Spärck Jones (1999). Referens under rubriken Referenser:
Spärck Jones, K. 1999, "Automatic Summarization: Factors and Directions", i Mani, I. och Maybury, M. T., Advances in Automatic Text Summarization Cambridge, Massachusetts: MIT Press, 1-12.
Om ni ska referera till en webbsida är det viktigt att ni anger vilket datum den aktuella webbsidan var tillgänglig.
Sök information i kurslitteraturen och i andra böcker och artiklar, och på nätet. Försök hitta material som är aktuellt och uppmärksammat.
Referatet ska lämnas in i pappersformat (ej handskrivet) till Eva Pettersson, senast fredag 10 november. Lämna referatet i facket uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).
