Hugvísindaþing 2026

Í Árnagarði 303, laugardaginn 14. mars kl. 13:00-14:00. 

Tækni til að lesa með vélrænum hætti handrituð skjöl og prentaðan texta hefur þróast mikið undanfarin ár og þar með möguleikum til að gera mun stærra textamagn en áður tölvutækt og leitarbært. Á Íslandi hefur ljóslestur (e. OCR – Optical Character Recognition) prentmáls lengi verið notaður, en þróun líkana til að lesta handrituð skjöl (e. HTR – Handwritten Textual Recognition) er styttra komin. Í þessari málstofu verða kynntar nýjar tilraunir til að nota ljóslestur og vélrænan handritalestur – í sitt hvoru lagi eða saman – til að vinna með texta. Erindin munu fjalla um ljóslestur prentmáls og handritalestur til að stækka og víkka út íslenska málheild, og um tilraunir til að nota vélrænan handritalestur til að lesa eldri handrit. Verkefnin sem verða kynnt hafa verið unnin með stuðningi Miðstöðvar stafrænna hugvísinda og lista og með styrkjum úr Innviðasjóði. Eiríkur Smári Sigurðarson skipulagði málstofuna.

Fyrirlestrar

How can we make Handwritten Text Recognition (HTR) a viable tool for the transcription of Old Norse-Icelandic medieval manuscripts? While digitisation of Old Norse-Icelandic literary heritage has so far relied on high-quality photography or labour-intensive XML encoding, HTR technology offers a revolutionary path toward mass accessibility. This paper addresses the current lack of readily available digital infrastructure by evaluating HTR’s performance on the Old Icelandic corpus. To reveal the precise challenges of automated transcription, we discuss the process of custom-training a Transkribus model for 13th-century Icelandic based on the manuscript AM 519 a 4to (c1280). We then use digital Character Error Rate (CER) tools for comparison and analysis of insertions, deletions, and substitutions. This process allows us to identify the specific codicological and palaeographic limitations by comparing the ground truth to generated transcriptions of contemporary manuscripts. Our results highlight how parchment quality, contrast and large initials influence the accuracy of the recognition model. Furthermore, we examine how specific characters, diacritics, and ligatures affect performance. These findings provide recommendations to ensure more accurate and efficient creation of future models and ultimately to enhance the digital preservation of medieval Icelandic manuscripts.

Málheild síðari alda er væntanleg, málfræðilega mörkuð málheild sem inniheldur íslenska texta allt frá siðaskiptum til aldamótanna 1900. Málheildin er unnin að miklu leyti með ljóslestraraðferðum en að verkefninu standa Stofnun Árna Magnússonar, Landsbókasafn-Háskólabókasafn og Þjóðskjalasafn Íslands.

Ógrynni texta er varðveitt frá tímabilinu og þeir eru misaðgengilegir til útgáfu í málheild. Hingað til hefur ljóslestur reynst of lélegur og handvirkar leiðréttingar of dýrar og tímafrekar til að hægt hafi verið að gera slíka texta aðgengilega en nú hillir undir að það verði hægt. Í þessu erindi fjöllum við um prentaðar bækur í Landsbókasafni frá þessu tímabili sem hafa allar verið ljóslesnar og munu verða meginefniviður væntanlegrar málheildar.

Þessa texta alla þarf að ljóslesa, tilreiða, samræma til nútímastafsetningar og greina málfræðilega. Útkoman er yfirgripsmikið textasafn sem gerir fjölda texta aðgengilega til rannsókna í stafrænum hugvísindum og víðar, sem hluti af Málheild síðari alda.

Share