Hugvísindaþing 2026

Í Árnagarði 301, laugardaginn 14. mars kl. 15:00-16:30.

Gagnamálfræði er aðferð til að rannsaka tungumál með því að skoða málheildir, stór textasöfn sem innihalda jafnan sjálfvirka flokkun og greiningu á textunum. Hún byggist á athugunum á málheildunum og ályktunum sem eru dregnar út frá þeim. Það sem málheildir nútímans eiga flestar sameiginlegt er að málfræðileg greining textanna er fengin með sjálfvirkum hætti. Mikið reikniafl þarf til þess að vinna með þær en aðkoma málfræðinga er ekki síður mikilvæg til þess að draga ályktanir út frá niðurstöðum tölvunnar.

Á málstofunni verða þrjú ólík verkefni kynnt, þar sem mismunandi málheildir eru notaðar og þær skoðaðar út frá ýmsum sjónahornum. Fjallað verður um íslenska og færeyska texta og erindin munu meðal annars fjalla um læsileika þeirra, tilbrigði í beygingu og hvernig nýjar málheildir eru settar saman.

Atli Jasonarson skipulagði málstofuna.

Fyrirlestrar

This talk covers my experience working with Faroese corpora in three contexts. First, I'll discuss using existing Faroese corpora for linguistic research, where practical limitations often require creative workarounds. Second, I'll explore using corpora for training and evaluating LLMs for Faroese, highlighting the specific challenges of low-resource languages. Finally, I'll share what it's been like creating a Faroese corpus from scratch: building tokenizers, lemmatizers, and POS taggers, all the basic NLP infrastructure that's often missing for critically low-resource languages. These three perspectives offer insight into the practical realities of working with Faroese corpora.

Fjallað verður um hvernig stórar málheildir geta gagnast við að kortleggja samkeppni beygingartilbrigða í íslensku. Skoðaðar verða mismunandi beygingarmyndir í Risamálheildinni sem deila lemmu (orðabókarmynd) og málfræðilegu marki en ekki yfirborðsgerð (bát og báti eru til dæmis mismunandi þágufallsmyndir lemmunnar bátur) og þær verða síðan flokkaðar nánar.

Dæmi um slíka flokka:

  1. u-hljóðvarps-ö/a
    1. stigagöngum/stigagangum (stigagangur)
    2. böngsum/bangsum (bangsi)
  2. þágufalls-i/ø-ending nafnorða í karlkyni
    1. bát/báti (bátur)
    2. hóp/hópi (hópur)
  3. tannhljóð/n í nefnifallsendingu lýsingarorða og lýsingarhætti þátíðar
    1. vafðir/vafnir (vafinn, vefja)
    2. skildir/skilnir (skilinn, skilja)
  4. a/ø-ending atviksorða í miðstigi
    1. hægar/hægara (hægt)
    2. nákvæmar/nákvæmara (nákvæmt)
  5. stofnlægt r / ø
    1. sérvitrir/sérvitir (sérvitur)
    2. spilagaldri/spilagaldi (spilagaldur)

Samkeppni beygingarmynda, þ.e. hversu mikill breytileiki er í notkun yfirborðsgerða sömu djúpgerðar, verður skoðuð í nokkrum flokkum og henni lýst með svokallaðri óreiðu (e. entropy). Í fyrirlestrinum verður reynt að varpa ljósi á það í hvaða flokkum þessi samkeppni er virkust og hvort þeir eigi eitthvað sameiginlegt.

Hversu læsilegur er þessi texti? Það getur verið gagnlegt að meta læsileika texta sjálfvirkt: fyrir þau sem skrifa texta svo þau átti sig á því hvort þurfi að einfalda hann eða breyta honum fyrir væntan lesendahóp, en líka fyrir þau sem nota texta í kennslu, búa þá til útgáfu, bera saman misgamla texta eða mismunandi málsnið, eða þurfa texta af ýmsum erfiðleikastigum til að þjálfa mállíkön. Ýmsar aðferðir hafa verið þróaðar fyrir læsileikamælingar fyrir ýmis tungumál, en er hægt að beita þeim á íslenska texta? Í erindinu segi ég frá tilraunum til þess, með og án sérstakrar aðlögunar að málinu. Auk þess að prófa aðferðirnar á texta sem hafa verið skrifaðir til útgáfu fyrir mismunandi lesendahópa, verða sýndar niðurstöður tilraunar til að beita þeim á texta sem skrifaðir eru af stórum mállíkönum og vélþýðingarkerfum, og texta sem gætu virst vera á íslensku en eru merkingarlaust bull.

Share