Gamlir textar og ný tól

 

Til eru ýmiss konar máltæknitól sem nota má við ýmiss konar greiningu og úrvinnslu á íslensku nútímamáli. Í óbreyttri mynd duga tólin ekki mjög vel á eldri texta, m.a. vegna breytileika í stafsetningu. Ágætur árangur hefur náðst með því að breyta stafsetningu eldri texta til nútímamáls, beita síðan tólum sem gerð eru fyrir nútímamálið og tengja texta síðan saman í lögum þar sem aðgangur er að öllu efninu. Jafnframt skilar úrvinnslan gögnum um breytileika, bæði í stafsetningu og orðmyndum, sem síðan er hægt að nýta sér á ýmsan hátt.

Í málstofunni verður fjallað um fjóra þætti. Ludger Zeevaert fjallar um vinnu sína við greiningu á textum úr Njáluhandritum og stafsetningaraðlögun þar, Jón Friðrik fjallar um máltæknitól sem gerð eru fyrir nútímamál og beitingu þeirra á textana úr Njálu og Kristín fjallar um aðferðir til að breyta stafsetningu á eldri textum til nútímamáls og þau gögn sem þannig verða til. Loks kynnir Steinþór n-stæðuskoðara sem er tól til að skoða þróun orðnotkunar yfir tíma eða skoða breytileika í sambærilegum textum. Verkefnið sem hér er sagt frá er þverfaglegt samvinnuverkefni sem snertir málfræði, textafræði og máltækni.

Málstofustjóri: Kristín Bjarnadóttir

Fyrirlesarar og titlar erinda:

Föstudagur 11. mars kl. 15.15-17.15 (stofa 051 í Aðalbyggingu Háskóla Íslands):

  • Ludger Zeevaert, verkefnisstjóri á handritasviði Stofnunar Árna Magnússonar í íslenskum fræðum: Ein Njála fyrir alla? Fornir textar og nýjar aðferðir
  • Jón Friðrik Daðason tölvunarfræðingur: Máltæknitólin og gömlu textarnir
  • Kristín Bjarnadóttir, rannsóknarlektor á orðfræðisviði Stofnunar Árna Magnússonar í íslenskum fræðum: Stöðlun stafsetningar og aðgengi að textum
  • Steinþór Steingrímsson, verkefnisstjóri hjá Stofnun Árna Magnússonar í íslenskum fræðum: Orð í tíma töluð

Fundarstjóri: Jóhannes Bjarni Sigtryggsson, málfræðingur á málræktarsviði Stofnunar Árna Magnússonar í íslenskum fræðum

Útdrættir:

Ludger Zeevaert, verkefnisstjóri á handritasviði Stofnunar Árna Magnússonar í íslenskum fræðum: Ein Njála fyrir alla? Fornir textar og nýjar aðferðir

Verkefnið „Hið glataða Njáluhandrit Gullskinna: Varðveisla textans og viðtökur á síðari öldum“ (Rannís-styrknúmer 152342-051) rannsakar textasögu handritahóps sem samanstendur af uppskriftum Njáls sögu eftir texta glataðs miðaldahandrits. Aðferðum sem eru notaðar í verkefninu var lýst í erindi á Hugvísindaþingi 2014. Í þessari málstofu verður aðallega sagt frá hvernig hægt er að nota máltæknitól sem voru gerð fyrir nútímaíslensku í handritauppskriftum og hvernig hægt er að nota þessar betrumbættu uppskriftir til þess að bæta máltæknitólin. Að auki verður fjallað um hvaða eiginleika stafrænar handritauppskriftir þurfa að hafa til að tryggja eins breiða notkun og mögulegt er og hvernig hægt væri að bæta þessa eiginleika við textanna á eins skilvirkan hátt og hægt er.

Nákvæm textafræðileg vinnubrögð og vélræn úrvinnsla eru ekki endilega ósamræmanleg. Þetta viljum við sýna með tilraun til að búa til táknrétta uppskrift úr stafréttum texta eins og hann er notaður í verkefninu fyrir textafræðilegar og málvísindalegar rannsóknir, en táknréttur texti gæti verið gagnlegur fyrir skriftarfræðilegar rannsóknir sem hægt væri að nota til að þróa máltæknina áfram. Tilraunin gengur út frá því að skriftarkerfið í íslenskum handritum er ekki hreint stafrófskerfi eins og í nútímaíslensku heldur kerfi sett saman af myndletri, atkvæðatáknum og bókstöfum.

Jón Friðrik Daðason tölvunarfræðingur: Máltæknitólin og gömlu textarnir

Íslensk máltæknitól eru yfirleitt hönnuð með nútímamál í huga og ráða því illa við orðaforðann sem kemur fyrir í eldri textum. Í stað þess að búa til ný tól sérstaklega til greiningar á eldri textum hefur reynst mögulegt að nota tólin sem þegar eru til með því að færa fyrst eldri textana yfir á nútímaíslensku á sjálfvirkan hátt. Í þessu erindi verður farið yfir nokkur íslensk máltæknitól og nákvæmni þeirra þegar þeim er beitt á eldri texta með þessum hætti.

Kristín Bjarnadóttir, rannsóknarlektor á orðfræðisviði Stofnunar Árna Magnússonar í íslenskum fræðum: Stöðlun stafsetningar og aðgengi að textum

Tól til greiningar á íslenskum textum eru gerð til greiningar á nútímamáli og ráða því illa við eldri texta þar sem stafsetning er ekki í samræmi við gildandi stafsetningarreglur. Með því að samræma stafsetningu á slíkum textum og færa hana til nútímamáls batnar árangurinn til muna. Í erindinu verður tilraunum til sjálfvirkrar breytingar á stafsetningu í eldri textum lýst. Þá verður fjallað um hugmyndir um uppsetningu textanna í lögum þannig að efnið geti verið aðgengilegt eftir þörfum hvers notanda. Loks verður sagt frá þeim gagnasöfnum sem til verða við þessa vinnu og áframhaldandi notum á þeim.

Steinþór Steingrímsson, verkefnisstjóri hjá Stofnun Árna Magnússonar í íslenskum fræðum: Orð í tíma töluð

Með n-stæðuskoðara er hægt að bera saman texta á myndrænan hátt. Hann má nota til að skoða þróun orðnotkunar og sýnir þá breytilega tíðni orða og orðasambanda eftir tímabilum. Einnig má nota hann til að bera saman hliðstæða texta til að breytilega orðnotkun eða breytilegan rithátt í mismunandi textaútgáfum. Nýr n-stæðuskoðari verður sýndur, fjallað verður um nýtingarmöguleika hans, gögnin sem liggja undir og hugmyndir um frekari þróun.

Deila: 
Þú ert að nota: brimir.rhi.hi.is