Klik om de nieuwsbrief als PDF te downloaden

Sluit venster

home


twee

Techniek | Kwaliteit

Kwaliteit boeken

De kwaliteit van de 18e eeuwse boeken laat uiteraard soms te wensen over. Dit kan verschillende oorzaken hebben, bijvoorbeeld:

  • Boeken hebben vochtplekken
  • Boeken hebben last van ongedierte
  • Boeken zijn beschadigd (zie foto)

In de voorbereidingen bekijken de materiaalvoorbewerkers de boeken uiterst nauwkeurig en beslissen dan of de boeken in aanmerking komen om in het digitaliseringstraject te worden opgenomen. Boeken met veel schade of zeer kwetsbare boeken worden niet in de selectie opgenomen.

Kwaliteit Beelden

Binnen de Koninklijke Bibliotheek wordt veel aandacht besteed aan de kwaliteit van de digitale beelden. Het project dient dus niet alleen veel materiaal te ontsluiten maar tevens dient dit te voldoen aan zware kwaliteitseisen. Tijdens de voorbereiding wordt er bij de keuze van het uitvoerende bedrijf zorgvuldig in kaart gebracht welke kwaliteit een bedrijf dient te leveren. Tijdens het project worden deze eisen zorgvuldig in de gaten gehouden door middel van het uitvoeren van (automatische) kwaliteitscontroles van (een selectie van) het aangeleverde materiaal door middel van een Oracle applicatie. Hierbij wordt niet alleen het correcte aantal bestanden gecontroleerd, de juiste bestandsnamen, de correcte samenhang tussen bestanden maar ook of de bestanden inhoudelijk en technisch correct zijn opgeleverd. Indien niet aan de kwaliteitseisen is voldaan dienen de bestanden opnieuw te worden aangeleverd door het bedrijf.

Kwaliteit Tekenherkenning

Goede kwaliteit beeld (image) staat garant voor een optimaal tekenherkennings(OCR)-resultaat. De tekenherkenning is van groot belang aangezien deze borg staat voor een goede ontsluiting van het materiaal. Hoe beter de tekenherkenning, hoe meer informatie de bezoeker van de website uiteindelijk kan vinden. Eerste beperkte testen om na te gaan met welke nauwkeurigheid van de tekenherkenning we te maken zouden krijgen, geven een gevarieerd beeld, zoals te verwachten valt met het kwalitatief zeer diverse materiaal waarmee we gaan werken. De tekenherkenningstest (uitgevoerd met de software van FineReader, versie 8.0) had als doel om, in een beperkt aantal willekeurig gekozen werken uit de periode 1780-1800, de nauwkeurigheid van de tekenherkenning op wooordniveau te kunnen bepalen.

Twee voorbeelden van een minder goede en een een goede tekenherkenning:

drie

Bron: Het geredde kind, of De getrouwe hond. = L'enfant arraché au peril. / [By Johann Jakob Kämmerer].;Translated from the German

De pagina heeft behoorlijke last van bleeding ink en is niet geheel recht gedrukt, waardoor de tekenherkenning niet optimaal is. Het betreft een stuk Franse tekst met veel diakrieten. Links zien we het beeld nadat de pagina is gescand, rechts het tekenherkenningsresultaat, waarbij in het groen de correct herkende woorden zijn aangegeven. In dit geval is slechts iets meer dan de helft van de woorden correct herkend.

vier

Bron: Beknopte geschiedenis der Fransche staats-omwenteling. / By J.P. Rabaud. ; Translated from the French and annotated

Deze tekst laat een vrijwel foutloos tekenherkenningsresultaat zien, waarbij slechts enkele woorden niet correct zijn herkend.

De tekenherkenning bij het project Dutch Prints Online krijgt te maken met enkele specifieke problemen. Zo wijkt bijvoorbeeld de spelling af die gebruikt wordt in de periode 1780-1800 en werden specifieke lettertekens gebruikt, zoals de lange S. Deze wordt door de software herkend als een f:

vijf