Stefnumót: Á mörkum málfræði og tölvutækni

Laugardagur 26. mars kl. 10.30-16.30 í stofu 231 í Aðalbyggingu Háskólans

Málstofan skiptist í tvo meginþætti sem þó eru nátengdir. Fyrri hlutinn nefnist Málgögn og máltæki. Þar verða flutt þrjú erindi þar sem sagt verður frá íslenskum gagnasöfnum og máltæknitólum sem hafa verið í vinnslu. Einnig verður gerð grein fyrir Evrópuverkefninu META-NORD sem Máltæknisetur tekur þátt í, en markmið þess er að skrá, safna, staðla og gera aðgengileg ýmiss konar málleg gagnasöfn og máltæknibúnað. 

Seinni hluti málstofunnar nefnist Net til að fanga orð. Greining og lýsing á merkingu og merkingarvenslum. Í brennidepli verða sk. orðanet sem hafa verið smíðuð fyrir ýmis tungumál, en um þessar mundir er unnið að tveimur íslenskum verkefnum á því sviði. Fræðimenn úr báðum þessum verkefnum verða meðal fyrirlesara, en málstofunni lýkur með pallborðsumræðum. Málstofan er haldin á vegum tímaritsins Orð og tunga og markmiðið er að erindin verði að greinum í þemahluta næsta heftis (2012).

Fyrri hluta málstofunnar lýkur með samantekt kl. 13.45 og þá tekur síðari hlutinn við með nokkrum inngangsorðum. Honum lýkur með pallborðsumræðum og fyrirspurnum úr sal.

Málstofustjórar: Ásta Svavarsdóttir, rannsóknardósent, Stofnun Árna Magnússonar í íslenskum fræðum, og Eiríkur Rögnvaldsson, prófessor í íslenskri málfræði.

Fyrirlesarar:

Fyrri hluti: Málgögn og máltæki

  • Sigrún Helgadóttir, verkefnisstjóri hjá Stofnun Árna Magnússonar í íslenskum fræðum: Mörkuð íslensk málheild – ný leið til þess að skoða málfar 21. aldarinnar
  • Hrafn Loftsson, lektor við tölvunarfræðideild Háskólans í Reykjavík: Mörkun og leiðrétting íslenskrar staðalmálheildar
  • Kristín Bjarnadóttir, rannsóknarlektor við Stofnun Árna Magnússonar í íslenskum fræðum: Stafastrengur á milli bila. Málleg gagnasöfn um orðmyndir og máltæknitól

Hádegishlé

  • Eiríkur Rögnvaldsson, prófessor í íslenskri málfræði: META-NORD og META-NET – brýr milli tungumála
  • Samantekt og yfirlit

Seinni hluti: Net til að fanga orð. Greining og lýsing á merkingu og merkingarvenslum

  • Inngangur
  • Matthew Whelpton, dósent í ensku: From dictionaries to databases – trying to pin down words

Kaffihlé

  • Anna Björk Nikulásdóttir, doktorsnemi í íslenskri málfræði: Íslenskur merkingarbrunnur – tölvutækt merkingarnet
  • Jón Hilmar Jónsson, rannsóknarprófessor við Stofnun Árna Magnússonar í íslenskum fræðum: Að fanga orðaforðann: Orðanet í þágu orðabókar
  • Pallborðsumræður

 

Útdrættir:

 

Sigrún Helgadóttir, verkefnisstjóri hjá Stofnun Árna Magnússonar í íslenskum fræðum
Mörkuð íslensk málheild – ný leið til þess að skoða málfar 21. aldarinnar

Í erindinu verður sagt frá gerð markaðrar íslenskrar málheildar. Málheildin er safn fjölbreytilegra texta frá þessari öld. Í málheildinni verða um 25 milljónir lesmálsorða og hverju orði fylgir greiningarstrengur (mark) sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í málheildinni fylgja jafnframt bókfræðilegar upplýsingar um verkið sem textinn er úr. Sagt verður frá textaöflun fyrir málheildina og hvers konar textar eru í henni. Jafnframt verður sagt frá leitarkerfi fyrir málheildina sem nú er á tilraunastigi. Leitarkerfið nýtir nefnimyndir og málfræðilegar upplýsingar í markinu til þess að leitin geti orðið ítarlegri en unnt er með venjulegri textaleit. Í leitarkerfinu eru núna aðgengileg til leitar ríflega 14 milljónir lesmálsorða.

 

Hrafn Loftsson, lektor við tölvunarfræðideild Háskólans í Reykjavík
Mörkun og leiðrétting íslenskrar staðalmálheildar

Í þessu erindi verður fjallað um þróun nýrrar markaðrar málheildar sem inniheldur rúmlega eina milljón lesmálsorða. Markmiðið er m.a. að nota málheildina sem nýja staðalmálheild (e. gold standard) fyrir þjálfun og prófun á mörkurum fyrir íslenskan texta. Í erindinu verður einstökum hlutum ferlisins lýst, þ.m.t. textavali, tilreiðingu, mörkun með sameiningaraðferð, villugreiningu og villuleiðréttingu. Niðurstaðan sýnir að villugreiningarforritin eru markvirk og að mörkun með sameiningaraðferð skiptir sköpum til að minnka umfang þeirrar handleiðréttingar sem nú stendur yfir. Gert er ráð fyrir að aðferðirnar, sem beitt hefur verið í þessu verkefni, geti nýst öðrum aðilum sem vilja þróa sambærilegar málheildir fyrir önnur tungumál.

 

Kristín Bjarnadóttir, rannsóknarlektor við Stofnun Árna Magnússonar í íslenskum fræðum
Stafastrengur á milli bila. Málleg gagnasöfn um orðmyndir og máltæknitól

Í erindinu verður sagt frá gagnasöfnum um orðmyndir og notkun þeirra í máltækni. Stærst af þessum söfnum er Beygingarlýsing íslensks nútímamáls (BÍN, 270 þús. beygingardæmi) sem nær einungis til nútímamáls. Með því að tengja lista um orðmyndir frá eldri málstigum við nútímamálið opnast leið til ýmiss konar greiningar og úrvinnslu. Sagt verður frá tilraun til að nota slíkar vörpunartöflur til að breyta stafsetningu eldri texta til nútímamáls. Aðferðin er einföld: Orðmynd er „stafastrengur á milli bila“ sem skipt er út fyrir nútímamálsorðmynd, þ.e. annan stafastreng. Breytingin á stafsetningunni gerir m.a. auðveldara að beita máltæknitólum sem gerð hafa verið fyrir nútímamálið til greiningar á eldri textum. Þá má einnig nota vörpunartöflurnar sem stoðgögn í leitarvélar til þess að auka notagildið, eins og sést af afbrigðum af orðinu fjórðungur frá ýmsum tímum: fiorþongr, fiordungur, fiórdungr og fjórðúngr. 

 

Eiríkur Rögnvaldsson, prófessor í íslenskri málfræði
META-NORD og META-NET – brýr milli tungumála

Í erindinu verður sagt frá verkefninu META-NORD sem Norðurlöndin fimm og Eystrasaltslöndin þrjú standa að. Það er eitt þriggja systurverkefna (í Norður-, Austur- og Suður-Evrópu) sem eru útvíkkun á verkefninu META-NET og hafa að markmiði að efla málleg gagnasöfn (s.s. textasöfn og orðasöfn af ýmsu tagi) sem nýst geti í margvíslegum máltækniverkefnum. Ekki er ætlunin að byggja slík söfn frá grunni, heldur ljúka við söfn sem eru í vinnslu, staðla þau og gera aðgengileg. Megintilgangur verkefnisins er að skapa tæknilegar forsendur fyrir margmála upplýsingasamfélagi í Evrópu þar sem allir geti notað móðurmál sitt við öflun og úrvinnslu hvers kyns upplýsinga. Máltæknifyrirtækið Tilde í Riga í Lettlandi leiðir verkefnið sem hófst 1. febrúar sl. og stendur í tvö ár. Af Íslands hálfu tekur Máltæknisetur þátt í verkefninu, en það er samstarfsvettvangur Málvísindastofnunar Háskóla Íslands, tölvunarfræði­deildar Háskólans í Reykjavík og Stofnunar Árna Magnússonar í íslenskum fræðum.

 

Matthew Whelpton, dósent í ensku
From dictionaries to databases – trying to pin down words

Dictionaries are designed for the human user; lexical databases (databases of words) are often designed with computers in mind: to represent information about the form, use and meaning of words which will allow computers to process human language efficiently, to extract information from language input and to reason over the information extracted. Where a human user can be assumed to know a great deal by either common sense or common cultural knowledge, a computer knows nothing in advance. This paper will look at some of the typical information concerning lexical semantics (word meaning) that has been included in resources like WordNet (for English) and DanNet (for Danish), as well as some radically different kinds of resources, such as SALDO (for Swedish).

 

Anna Björk Nikulásdóttir, doktorsnemi í málvísindum
Íslenskur merkingarbrunnur – tölvutækt merkingarnet

Vinna við Íslenskan merkingarbrunn fyrir íslenska tungutækni, þ.e. gagnagrunn með merkingarupplýsingum um íslensk orð á formi sem nýtist við hugbúnaðargerð, hófst árið 2009. Mismunandi algrím til þess að greina sjálfvirkt merkingarupplýsingar úr textum voru keyrð á stóru textasafni og m.a. ný aðferð við greiningu merkingarvensla þróuð. Merkingarbrunnurinn inniheldur nú yfir 100.000 nafnorð og lýsingarorð ásamt u.þ.b. einni milljón merkingartengla. Opinber útgáfa er þó ekki tilbúin en í kringum áramótin 2011/2012 er stefnt að því að hægt verði að fá aðgang að gagnagrunninum til hugbúnaðarþróunar eða annars konar verkefna, t.d. málfræðirannsókna. Í fyrirlestrinum verða aðferðir til greiningar merkingarupplýsinga úr textum kynntar, sem og dæmi úr merkingarbrunninum eins og staða hans er nú.  

 

Jón Hilmar Jónsson, rannsóknarprófessor við Stofnun Árna Magnússonar í íslenskum fræðum
Að fanga orðaforðann: Orðanet í þágu orðabókar

Í þeim orðabókum sem að hefðbundnum hætti birta almenna lýsingu á orðaforðanum eru orðin hvert um sig sjálfstætt og afmarkað viðfangsefni, þar sem merkingarlegur breytileiki ræður mestu um efnisskipan. Af því leiðir að orðaforðinn sem slíkur og innra samhengi hans er ekki í brennidepli. Í Íslensku orðaneti er leitast við að lýsa orðaforðanum sem heild með því að greina og rekja innbyrðis vensl orðanna þar sem merkingarvensl og merkingarflokkun er í fyrirrúmi. Með því að láta greininguna og flokkunina ná til merkingarbærra orðasambanda auk stakra orða skerpist og stækkar myndin af orðaforðanum verulega. Jafnframt er mótuð framsetning og efnisskipan sem tryggir virka stöðu orðasambanda af ólíku tagi í orðabókarlýsingunni.

Deila: 
Þú ert að nota: brimir.rhi.hi.is