Gagnagrunnar í málfræði

Laugardagur 10. mars kl. 10-12
Stofa 207 í Aðalbyggingu Háskóla Íslands

Á undanförnum árum hafa íslenskir málfræðingar unnið að ýmsum gagnagrunnsverkefnum með styrk frá Rannsóknamiðstöð Íslands (Rannís) og öðrum aðilum. Í þessari málstofu verður sagt stuttlega frá fjórum gagnagrunnum í málfræði, gerð þeirra og samsetningu og síðast en ekki síst notkunarmöguleikum grunnanna í setningafræðilegum rannsóknum, táknmálsrannsóknum og máltækni.

Fyrirlesarar:

  • Eiríkur Rögnvaldsson, prófessor í málfræði: Sögulegur íslenskur trjábanki og nýting hans
  • Jóhannes Gísli Jónsson, aðjunkt í málfræði og Matthew Whelpton, dósent í ensku: Gagnagrunnur um sagnflokka og táknun rökliða
  • Þórhallur Eyþórsson, fræðimaður hjá Málvísindastofnun: Greinir skáldskapar – gagnagrunnur um forníslenskan kveðskap
  • Rannveig Sverrisdóttir, lektor í táknmálsfræði: Gagnagrunnur íslenska táknmálsins

Málstofustjóri: Bjarki M. Karlsson, doktorsnemi í málfræði

Útdrættir:

Eiríkur Rögnvaldsson, prófessor í málfræði
Sögulegur íslenskur trjábanki og nýting hans

Í haust lauk gerð Sögulegs íslensks trjábanka (Icelandic Parsed Historical Corpus, IcePaHC), safns setningafræðilegra greindra texta frá 12. til 21. aldar – alls ein milljón orða úr rúmum 60 textum. Frumgreining textanna var vélræn en meginvinnan við bankann fólst í handvirkri greiningu textanna sem var mikið verk. Trjábankinn er gerður í tvennum tilgangi. Annars vegar til nota í máltækni, en nákvæmar upplýsingar um setningagerð eru mikilvæg forsenda fyrir gerð ýmiss konar máltæknibúnaðar, svo sem leiðréttingarforrita, vélrænna þýðinga o.fl. Hins vegar er bankinn ætlaður til málrannsókna, einkum á setningagerð og setningafræðilegum breytingum, og hefur þegar sannað gildi sitt í ýmsum rannsóknum af því tagi. Í erindinu verður lýst hvernig staðið var að gerð bankans og lögð áhersla á mikilvægi frjálsrar og opinnar dreifingar hans. Þá verður fjallað um ýmiss konar nýtingarmöguleika bankans og lýst hvernig hann verður notaður við gerð færeysks trjábanka sem nú er í undirbúningi.

 

Jóhannes Gísli Jónsson, aðjunkt í málfræði og Matthew Whelpton, dósent í ensku
Gagnagrunnur um sagnflokka og táknun rökliða

Í þessum fyrirlestri verður fjallað um gagnagrunn sem unnin var í Rannís-verkefninu Sagnflokkar og táknun rökliða (2007-2009), bæði með tilliti til uppbyggingar grunnsins og möguleika á að nota hann til málfræðirannsókna. Í gagnagrunninum eru ýtarlegar upplýsingar um sagnir og ýmis setningafræðileg einkenni þeirra, þar á meðal fallstjórn og setningafræðilegar formgerðir sem sagnirnar koma fyrir í, t.d.
þolmynd og miðmynd. Í grunninum eru nú tæplega 3.000 sagnir og um 10 þúsund notkunardæmi með þessum sögnum, þar af ýmis dæmi sem eru málfræðilega ótæk. Auk þess er mjög öflug leitarvél í grunninum sem gerir notandanum kleift að leita að sögnum út frá mörgum málfræðilegum atriðum í einu.

 

Þórhallur Eyþórsson, fræðimaður hjá Málvísindastofnun
Greinir skáldskapar – gagnagrunnur um forníslenskan kveðskap

Í þessu erindi verður sagt frá rannsóknarverkefninu Samspil bragkerfis, hljóðkerfis og setningagerðar sem naut þriggja ára styrks frá Rannís (2009-2011). Meginmarkmið verkefnisins fólst í gerð gagnagrunns um forníslenskan kveðskap sem nefnist Greinir skáldskapar en með tilstyrk hans er unnt að kalla fram svör við rannsóknarspurningum um samspil ólíkra bragfræðlegra og málfræðilegra þátta. Grunnurinn var þróaður með tilliti til annarra grunna af svipuðum toga (einkum norska grunnsins PROIEL sem er hýstur í Óslóarháskóla). Helsti árangur verkefnisins er sá að öll eddukvæði og úrval af dróttkvæðum og rímum eru í grunninum, með upplýsingum um ris, atkvæðagerð (þung og létt atkvæði) og stuðla, sem og orðhluta-, beygingar- og setningagerð. Því er unnt að framkvæma greiningu á texta í grunninum út frá þeim rannsóknarspurningum um samspil ólíkra þátta á sviði brag- og hljóðkerfis og setningagerðar sem liggja verkefninu til grundvallar. Niðurstöður úr verkefninu staðfesta gildi þeirrar hugmyndar að koma á fót gagnagrunni fyrir forna texta í bundnu máli.

 

Rannveig Sverrisdóttir, lektor í táknmálsfræði:
Gagnagrunnur íslenska táknmálsins

Á árunum 2010 og 2011 fengust nokkrir styrkir, m.a. frá Hugvísindastofnun Háskóla Íslands til að vinna við söfnun og skráningu gagna í íslenska táknmálinu. Markmið verkefnisins var að safna upptökum af samtölum á íslensku táknmáli og skrá þau. Hugmyndin var að skjalfesta hversdagslegt tal þar sem áhrif félagslegra þátta og íslensku væru sem minnst. Yfir tuttugu samtöl voru tekin upp og hafa tvö þeirra verið skráð í forritinu ELAN sem er hannað til að skrá flókna umritun á hljóð og myndskrám. Vonast er til að gögnin sem safnað hefur verið geti orðið hluti af gagnagrunni fyrir íslenska táknmálið þegar fram í sækir. Rætt verður um vandamál, tæknileg og málfræðileg, sem upp komu við skráningu gagnanna sem og sagt frá gagnagrunnum í erlendum táknmálum.

 

Deila: 
Þú ert að nota: brimir.rhi.hi.is