Adatelemzés
A sikeres konverzióhoz alapos előkészítés szükséges. Az előkészítés nem csak az adatok elemzését jelenti, hanem annak a rendszernek az ismeretét is, amire a konverzió után áttérünk. A mi esetünkben ez a MARC21 szabvány átnézését, értelmezését és a HUNMARC szabvánnyal való összevetését jelentette.
A MARC21 szabvánnyal a
Library of Congress MARC Standards oldalán ismerkedtünk, tanulmányoztuk a MOKKA wiki oldalon a
MARC21 Kézikönyvet, valamint az ELTE Egyetemi Könyvtár Aleph-ben használt mezősúgóit és katalogizálási segédletét. A MOKKA-ban nem a szabványos MARC21-et alkalmazzák, vannak sajátos megoldások. Az áttérés tervezésekor a legfontosabb alapelv volt: a jövőben a szabvány szerinti fogjuk végezni a katalogizálást, nem térünk el a szabványtól. E cél érdekében nem engedünk meg semmilyen eltérést, ha szükség van az adattartalom miatt a szabványtól eltérő adatmezőre akkor arra helyi mezőt használunk (igyekszünk ezek mennyiségét is határok között tartani). Ezeket figyelembe véve döntöttük el, hogy a MARC21 szabvány alapján alakítjuk ki a konverziós táblázatot és készítjük el a katalogizálás házi szabályzatát. A fordításhoz természetesen felhasználtuk a MOKKA wiki MARC21 Kézikönyvet és az ELTE mezősúgókat, de ahol eltérés volt a szabványtól, ott az angol verzió alapján fordítottunk.
Az előkészítésbe bevont kollégák - a könyvtár feldolgozást végző és a Szakinformatikai osztály munkatársaiból, 5 fővel megalakult MARC21 bizottság, mely 2015. július 1-el kezdte meg a munkát - kezdetben nem látták át, mekkora is valójában a rájuk váró feladat. Az elkészített konverziós tábla ezért csak a legfontosabb HUNMARC és MARC21 szabvány szerinti eltéréseket tartalmazta, és az előzetes adattisztítást sem tudtuk olyan mértékben elvégezni ahogy az kívánatos lett volna.
Ahogy korábban említettem nagyon fontos az adatelemzés, amihez az adatok ismerete szükséges. Ezt nehezíti, hogy esetünkben nem volt házi katalogizálási szabályzat, a könyvtár feldolgozást végző egységei (törzsgyűjtemény és különgyűjtemények, különböző dokumentumfajták) nem egységesen végezték a feldolgozást, nem voltak dokumentálva a különböző típusú leírások és az évek alatt bevezetett változások, az előkészítés során kért információkat sem kaptuk meg maradéktalanul. A könyvtárosok a legtöbb esetben nem tudták leírni az egyes mezőkben lévő adatok elemzéséhez szükséges információt, mert számukra mást jelentett az adat és annak minősége. Az adatok elemzésénél ezért az egyes mezők tartalmának mintavétellel történt vizsgálatát végeztük, ami így nem tette lehetővé az egyes adatmezők szabvány szerinti teljességre törekvő konverzióját.
A bibliográfiai adatokon kívül a besorolási (authority) elemek konverzióját is elő kellett készíteni, valamint két bibliográfiai adatbázist (MTA01, DIS01) egyesíteni akartunk.
Az MTA01 adatbázis könyvtárunk törzsgyűjteményének és a Keleti Gyűjtemény könyv és folyóirat, valamint a Kézirattár és Régi Könyvek Gyűjteménye régi könyv állományának leírásait tartalmazta, a DIS01 pedig a különgyűjtemények speciális dokumentumainak (disszertációk, kéziratok, stb.) leírásait.
A besorolási elemek adatbázisát is meg akartuk tisztítani a konverzió során, ugyanis az évek során többször változtak az Authority rekordok készítésének szabályai. Az alapelv az volt, hogy minden szerző és közreműködő (100 és 700 mezőből) bekerült, függetlenül attól, hogy mennyi kiegészítő adat állt rendelkezésre. A későbbiekben a feldolgozó munka többszöri átszervezése és a feldolgozó munkatársak létszámának csökkenése szükségessé tette, hogy feladjuk eme teljességre való törekvésünket. Az új elv szerint csak a magyar személynevekre, azon belül is pedig főként az MTA köztestületi tagjainak adataira koncentrálunk, de azokra kitüntetett figyelmet fordítunk. Testületi nevekre vonatkozóan szintén fontos, az MTA KIK feladata, az MTA intézményeinek teljességre törekvő leírása a változások követésével.
Tárgyszavazást egy külön Authority adatbázisba (MTA11) töltött Köztaurusz tezaurusz alapján végzünk - ennek adatmezői nem változtak a konverzióval.
Az egyesítendő adatbázisok közül a DIS01 adatbázis rekordjai között disszertáció leírások, kéziratok, a kéziratokon belül levelek, valamint műtárgyak (érmegyűjtemény darabjai) és mikrofilmek leírása is szerepelt. Az elemzés során kiderült, hogy az azonos adatmezők tartalma sem volt egységes. Segítette a munkánkat, hogy a feldolgozáskor a különböző dokumentípusokat logikai bázisokba soroljuk, így csak kis százalékban volt eltérés az egyes bázisokba tartozó rekordok adatmező használatában. Ezt az igen eltérő rekordokat tartalmazó adatbázist kellett illeszteni a törzsgyűjteményi leírásokhoz és a MARC21 mezőihez.
A disszertációs bázisban csak 18 mezővel dolgoztak, de ugyanannak a mezőnek a kitöltése sem volt egységes. Érzékeltetve a problémát néhány példa: a 100 $a almezőjében volt a teljes név (vezetéknév és keresztnév együtt, nem volt $j almező), a $c almezőben a dolgozathoz tartozó tudományos fokozat. A személynév rendszóként való használata miatt a korábbi nyomtatott cédulakatalógus gyakorlatát követve nagybetűsen szerepeltek a nevek. Előfordult azonban $j almező is a keresztnévvel. Személyneveket a 900 mezőben is találtunk.
Az elemzés során a rekord tartalom “sokszínűségével” szembesültünk, a konverzió során ennek egységesítését kellett megoldani. Ha ugyanannak a személynek két, kandidátusi és doktori, dolgozata is volt akkor a két rekordból kétszer került be a név a személynév indexbe a $c almező különbözősége miatt:
1000 $$aNYILAS JÓZSEF$$cKand.
1000 $$aNYILAS JÓZSEF$$cDokt.
A 900 mezőben szintén a dolgozat szerzői szerepeltek (vagy a 100-as mezőhöz tartozóan csak a fokozat). Az alábbi rekordban több név kötőjelesen (társszerzők) és külön mezőben a fokozat
900 $$cKand.
900 $$aMÁRTONFFY TAMÁS -
900 $$aSULYOK ISTVÁN
vagy a szerző a 100-as mezőben és a fokozat a 900-as mezőben
1001 $a DÉZSI ZOLTÁN
900 $c Kand.
Az adatok elemzése során kiderült, hogy a nyelvkódok használata sem volt következetes, a könyvtár szerzeményezői és a feldolgozók nem ugyanazon szabvány szerinti kódokat használták, és voltak rekordok melyekben a 008 és 041 mezőkben sem ugyanaz a kód szerepelt. A MARC21 nyelvkódok is változtak az évek során, ezért a konverzióhoz készített nyelvkód táblázatban a jelenlegi MARC21 kódokhoz hozzá kellett rendelni a korábbi kódokat és az általunk használt kódokat is.
Az előbbiekből nyilvánvaló volt, hogy a már felismert ellentmondásokat még a konverzió előtt próbáljuk meg javítani, vagyis valamilyen szintű adattisztítást végezzünk el.
A disszertációknál ilyen volt például a 100 és 900 mezők megtisztítása: ahol nincs 100 mező, de van 900, ott a 900 mezőből tegyük át a tartalmat a 100 mezőbe, a $c almező tartalmát (fokozat) az 502 mezőbe (dolgozathoz tartozik nem a személyhez). Ha 100 és 900 mező együtt szerepel, azt a későbbiekben kell az eredeti dokumentum alapján javítani. A nevek nagybetűsről az egyébként használt nagy kezdőbetűs alakra való cseréjét a MARC21 konverzió során végezzük el.
A törzsgyűjtemény rekordjaiban a szerzeményezők 900-as mezőket használtak (rendelés, dezideráta készítéskor), melyeket a rekord véglegesítésekor vagy át kellett írni a helyes mezőkódra, vagy törölni kellett. “Természetesen” sok 900-as mezőt találtunk a kész, már raktárba került dokumentumok leírásában. Ezekben a rekordokban ellenőriztük a megfelelő 100, 245, 260, stb. mezők (a 900-as mezők megfelelőjét) és a példányrekord meglétét, utána töröltük a 900-as mezőket.
Készítette: Naszádos Edit
2017. május