Atrenna að textasöfnum: Úr smiðju og hugskoti Árnastofnunar

Laugardaginn 15. mars kl. 15.00-16.30 í stofu 50 í Aðalbyggingu Háskóla Íslands.

Textasöfn eru í mörgu tilliti undirstöðugögn í rannsóknum á máli og málnotkun. Stafrænum íslenskum textum fjölgar nú ört og byggð hafa verið upp stór og fjölbreytileg íslensk textasöfn á undanförnum árum. Notagildi þeirra til málrannsókna er augljóst en um leið blasir við að ýmissa aðgerða er þörf svo að þau nýtist á sem bestan og markvissastan hátt. Ljóslesnir textar  birtast gjarna í brenglaðri mynd og geta þarfnast verulegra lagfæringa. Á Árnastofnun hefur verið þróaður hugbúnaður, byggður á gögnum Beygingarlýsingar íslensks nútímamáls, sem dregur úr þeim vanda sem af þessu hlýst og auðveldar jafnframt meðferð og greiningu á textum frá ólíkum tíma þar sem gera má ráð fyrir breytileika og óregluleika í orðmyndum og rithætti. Málfræðileg mörkun opnar leiðir til margvíslegra athugana á efni og einkennum textanna, orðaforða þeirra og setningargerð. Með Markaðri íslenskri málheild hefur verið búið í haginn fyrir rannsóknir á íslensku samtímamáli og mótaðar aðferðir við málfræðilega textagreiningu sem enn þarfnast endurbóta og frekari þróunar.

Greining á hinum formlegu eigindum orða og annarra textaeininga er eðlilega í forgrunni en þaðan má rekja leiðina að merkingarlegum einkennum orðanna og þeim umræðuefnum sem um er að ræða hverju sinni. Í Íslensku orðaneti hafa textasöfn verið nýtt til merkingarlegrar greiningar og flokkunar á íslenskum orðaforða, jafnt stökum orðum sem merkingarbærum orðasamböndum.

Í málstofunni  verður litið yfir viðfangsefnið almennt og miðlað af þeirri reynslu sem fengist hefur við meðferð og greiningu textasafna á Árnastofnun, hugað að aðferðum og verkfærum og vakin athygli á nýjum áskorunum sem takast þarf á við.

Fyrirlesarar og titlar erinda:
  • Steinþór Steingrímsson, tölvunarfræðingur: Íslenskur texti: Yfirlit yfir málheildir og textasöfn, aðgengileg, óaðgengileg og þau sem ekki eru til
  • Kristín Bjarnadóttir, rannsóknarlektor, Þórdís Úlfarsdóttir, ritstjóri, og Jón Friðrik Daðason, rannsóknarmaður: Úrvinnsla úr textasöfnum: Tól og verkefni sem eru til og ekki til
  • Jón Hilmar Jónsson, rannsóknarprófessor, og Sigrún Helgadóttir, reiknifræðingur: Það var og: Hliðskipuð sambönd til leiðsagnar um merkingarvensl

Málstofustjóri: Halldóra Jónsdóttir, verkefnisstjóri

Útdrættir:

Steinþór Steingrímsson, tölvunarfræðingur: Íslenskur texti: Yfirlit yfir málheildir og textasöfn, aðgengileg, óaðgengileg og þau sem ekki eru til

Textasafn er safn texta sem formaðir eru með ákveðnum hætti. Textarnir geta verið alveg hráir, þ.e.a.s. hreinn texti, eða markaðir, t.d. með málfræðilegri greiningu, upplýsingum um höfund eða ártali. Textasöfn má nota til að greina málfræðilega þætti tölfræðilega, búa til tungumálalíkön fyrir hvers kyns máltæknitól, skoða breytingar í málnotkun yfir lengri tíma eða jafnvel greina stemningu í málsamfélaginu á ákveðnum tíma.

Á Stofnun Árna Magnússonar í íslenskum fræðum er haldið utan um nokkur textasöfn. Þessi textasöfn eru misjafnlega aðgengileg. Einhver eru opin öllum en önnur eru lokaðri. Farið verður yfir hvernig má betrumbæta þau textasöfn sem til eru og opna eins og mögulega er hægt. Einnig hvernig er hægt að búa til ný textasöfn úr textum sem eru til en hafa ekki verið gerðir aðgengilegir.

Kristín Bjarnadóttirrannsóknarlektor, Þórdís Úlfarsdóttir, ritstjóri, og Jón Friðrik Daðason, rannsóknarmaður: Úrvinnsla úr textasöfnum: Tól og verkefni sem eru til og ekki til.

Textasöfn eru til ýmissa hluta nytsamleg en gagnsemi þeirra byggist ekki síst á því að tæknilegur frágangur á þeim og þau tól sem til eru geri vinnu við þau auðvelda.

Leitarvél er grundvallartólið í vinnu við textasöfn en til þess að hún komi að fullum notum dugar einföld strengjaleit skammt. Í leit að íslenskum orðum er t.d. óhjákvæmilegt að leita að öllum beygingarmyndum orðs í einu. Leitarniðurstöður úr textasöfnum verða þeim mun betri eftir því sem tólin henta betur til þess að finna og greina rannsóknarefni manna. Til þessa hafa verið búin til ýmiss konar tól og önnur eru í undirbúningi, s.s. nafnaþekkjari, orðtökutól, markarar, lemmald, leiðréttingartól og tól sem breytir eldri stafsetningu til nútímamáls. Á hverjum tíma byggist úrvinnsla úr textasöfnunum á því hvaða tól eru til en jafnframt sýnir verkefnisvalið oft hvert hugurinn stendur í framtíðarverkefnum.

Jón Hilmar Jónsson, rannsóknarprófessor, og Sigrún Helgadóttir, reiknifræðingur: Það var og: Hliðskipuð sambönd til leiðsagnar um merkingarvensl

Í efnismikilum textasöfnum birtast einkenni orða og orðanotkunar í margbreytilegri mynd. Þegar athyglin beinist að tilteknum orðum er hið setningarlega umhverfi einkum í sjónmáli, einkennandi orðavensl og orðasambönd verða sýnileg og marka hverju og einu sérstöðu gagnvart öðrum orðum. Merkingarleg vensl orðanna eru óskýrari á yfirborðinu, en að vissu marki má greina þau með hliðsjón af notkunarmunstrum í textunum þar sem merkingarskyld orð og sambönd reynast eiga samleið.

Í Íslensku orðaneti er orðanotkun í textasöfnum dregin fram og látin vitna um merkingarvensl innan orðaforðans. Þar hafa hliðskipuð sambönd með tengiorðinu og reynst gegna athyglisverðu og mikilvægu hlutverki. Í erindinu verður greint frá þessu hlutverki, brugðið upp dæmum um hliðskipuð sambönd jafnt meðal orða sem orðasambanda og vikið að því hvernig greining þeirra getur stutt mat á merkingarskyldleika og merkingarlegri nálægð.

Deila: 
Þú ert að nota: brimir.rhi.hi.is