Az átállás dokumentálása

Az átállásról

Miért az átállás?

Miért az átállás

A MARC21-re való átállás évek óta foglalkoztatott minket, mivel fontos könyvtárunk számára a katalógusunk láthatósága, a hazai és nemzetközi szolgáltatásokhoz való csatlakozás. Tudjuk, hogy a könyvtárak új típusú szolgáltatásaihoz, a digitális világ térhódításához való alkalmazkodás sokkal nagyobb mértékű együttműködést kíván a könyvtáraktól. Tisztában vagyunk azzal, hogy az együttműködéshez, a szabványokon alapuló rendszerek használatához - vagy csatlakozni azokhoz - csak szabványos feldolgozást alkalmazva lehet.

Az átállás gondolata 2012. októberétől vált komolyabbá, akkor jelent meg ugyanis az OSZK közleménye, mely szerint "... az OSZK vezetősége úgy döntött, hogy a bibliográfiai és besorolási rekordok adatcsere-formátumának tekintetében a jövőben eltekint a HUNMARC fejlesztésétől, és a MARC21 kommunikációs formátum nemzeti könyvtári alkalmazása és magyarországi meghonosítása mellett teszi le voksát."

A tervezés lassan indult el, szervezeti és személyi változások is szükségesek voltak a sikeres végrehajtáshoz. A konverziót az Aleph új verziójára való átállással kötöttük össze, így tűztük ki a 2015. december végi időpontot. Tudtuk, hogy az átállás nagyon nagy munka lesz, mert a konverzióval együtt adattisztítást is végeznünk kell, vagyis a feldolgozás következetlenségeit, hibáit is javítani szeretnénk.

Fontos szempont volt a fenntarthatóság érdekében a nemzetközi szabvány alkalmazásával a szabványos feldolgozás “kikényszerítése” is. Megtapasztaltuk a discovery (Primo) szolgáltatásunk kapcsán, hogy milyen amikor nem szabványosak a bibliográfiai rekordok, vagy nem egységes a leírás: például nem a dokumentumtípusnak megfelelő ikon jelenik meg, nehéz megadni dokumentumtípusonként a megjelenítésre vonatkozó szempontokat, stb.

A nemzetközi szabvány alkalmazásával könnyebb lesz részt venni a különböző együttműködésekben, integrálni a katalógusunkat, és a későbbiekben továbblépni az RDA irányába.
2017-ben csatlakozunk a WorldCat világkatalógushoz, így ez lesz az első nagy próbája a MARC21 konverziónak és a sok munkával járó adattisztításnak.

Készítette: Naszádos Edit
2017. május

Konverzió lépései

Adatelemzés – adatismeret kell hozzá

Adatelemzés

A sikeres konverzióhoz alapos előkészítés szükséges. Az előkészítés nem csak az adatok elemzését jelenti, hanem annak a rendszernek az ismeretét is, amire a konverzió után áttérünk. A mi esetünkben ez a MARC21 szabvány átnézését, értelmezését és a HUNMARC szabvánnyal való összevetését jelentette. A MARC21 szabvánnyal a Library of Congress MARC Standards oldalán ismerkedtünk, tanulmányoztuk a MOKKA wiki oldalon a MARC21 Kézikönyvet, valamint az ELTE Egyetemi Könyvtár Aleph-ben használt mezősúgóit és katalogizálási segédletét. A MOKKA-ban nem a szabványos MARC21-et alkalmazzák, vannak sajátos megoldások. Az áttérés tervezésekor a legfontosabb alapelv volt: a jövőben a szabvány szerinti fogjuk végezni a katalogizálást, nem térünk el a szabványtól. E cél érdekében nem engedünk meg semmilyen eltérést, ha szükség van az adattartalom miatt a szabványtól eltérő adatmezőre akkor arra helyi mezőt használunk (igyekszünk ezek mennyiségét is határok között tartani). Ezeket figyelembe véve döntöttük el, hogy a MARC21 szabvány alapján alakítjuk ki a konverziós táblázatot és készítjük el a katalogizálás házi szabályzatát. A fordításhoz természetesen felhasználtuk a MOKKA wiki MARC21 Kézikönyvet és az ELTE mezősúgókat, de ahol eltérés volt a szabványtól, ott az angol verzió alapján fordítottunk.
Az előkészítésbe bevont kollégák - a könyvtár feldolgozást végző és a Szakinformatikai osztály munkatársaiból, 5 fővel megalakult MARC21 bizottság, mely 2015. július 1-el kezdte meg a munkát - kezdetben nem látták át, mekkora is valójában a rájuk váró feladat. Az elkészített konverziós tábla ezért csak a legfontosabb HUNMARC és MARC21 szabvány szerinti eltéréseket tartalmazta, és az előzetes adattisztítást sem tudtuk olyan mértékben elvégezni ahogy az kívánatos lett volna.

Ahogy korábban említettem nagyon fontos az adatelemzés, amihez az adatok ismerete szükséges. Ezt nehezíti, hogy esetünkben nem volt házi katalogizálási szabályzat, a könyvtár feldolgozást végző egységei (törzsgyűjtemény és különgyűjtemények, különböző dokumentumfajták) nem egységesen végezték a feldolgozást, nem voltak dokumentálva a különböző típusú leírások és az évek alatt bevezetett változások, az előkészítés során kért információkat sem kaptuk meg maradéktalanul. A könyvtárosok a legtöbb esetben nem tudták leírni az egyes mezőkben lévő adatok elemzéséhez szükséges információt, mert számukra mást jelentett az adat és annak minősége. Az adatok elemzésénél ezért az egyes mezők tartalmának mintavétellel történt vizsgálatát végeztük, ami így nem tette lehetővé az egyes adatmezők szabvány szerinti teljességre törekvő konverzióját.

A bibliográfiai adatokon kívül a besorolási (authority) elemek konverzióját is elő kellett készíteni, valamint két bibliográfiai adatbázist (MTA01, DIS01) egyesíteni akartunk.
Az MTA01 adatbázis könyvtárunk törzsgyűjteményének és a Keleti Gyűjtemény könyv és folyóirat, valamint a Kézirattár és Régi Könyvek Gyűjteménye régi könyv állományának leírásait tartalmazta, a DIS01 pedig a különgyűjtemények speciális dokumentumainak (disszertációk, kéziratok, stb.) leírásait.
A besorolási elemek adatbázisát is meg akartuk tisztítani a konverzió során, ugyanis az évek során többször változtak az Authority rekordok készítésének szabályai. Az alapelv az volt, hogy minden szerző és közreműködő (100 és 700 mezőből) bekerült, függetlenül attól, hogy mennyi kiegészítő adat állt rendelkezésre. A későbbiekben a feldolgozó munka többszöri átszervezése és a feldolgozó munkatársak létszámának csökkenése szükségessé tette, hogy feladjuk eme teljességre való törekvésünket. Az új elv szerint csak a magyar személynevekre, azon belül is pedig főként az MTA köztestületi tagjainak adataira koncentrálunk, de azokra kitüntetett figyelmet fordítunk. Testületi nevekre vonatkozóan szintén fontos, az MTA KIK feladata, az MTA intézményeinek teljességre törekvő leírása a változások követésével.
Tárgyszavazást egy külön Authority adatbázisba (MTA11) töltött Köztaurusz tezaurusz alapján végzünk - ennek adatmezői nem változtak a konverzióval. Az egyesítendő adatbázisok közül a DIS01 adatbázis rekordjai között disszertáció leírások, kéziratok, a kéziratokon belül levelek, valamint műtárgyak (érmegyűjtemény darabjai) és mikrofilmek leírása is szerepelt. Az elemzés során kiderült, hogy az azonos adatmezők tartalma sem volt egységes. Segítette a munkánkat, hogy a feldolgozáskor a különböző dokumentípusokat logikai bázisokba soroljuk, így csak kis százalékban volt eltérés az egyes bázisokba tartozó rekordok adatmező használatában. Ezt az igen eltérő rekordokat tartalmazó adatbázist kellett illeszteni a törzsgyűjteményi leírásokhoz és a MARC21 mezőihez. A disszertációs bázisban csak 18 mezővel dolgoztak, de ugyanannak a mezőnek a kitöltése sem volt egységes. Érzékeltetve a problémát néhány példa: a 100 $a almezőjében volt a teljes név (vezetéknév és keresztnév együtt, nem volt $j almező), a $c almezőben a dolgozathoz tartozó tudományos fokozat. A személynév rendszóként való használata miatt a korábbi nyomtatott cédulakatalógus gyakorlatát követve nagybetűsen szerepeltek a nevek. Előfordult azonban $j almező is a keresztnévvel. Személyneveket a 900 mezőben is találtunk.
Az elemzés során a rekord tartalom “sokszínűségével” szembesültünk, a konverzió során ennek egységesítését kellett megoldani. Ha ugyanannak a személynek két, kandidátusi és doktori, dolgozata is volt akkor a két rekordból kétszer került be a név a személynév indexbe a $c almező különbözősége miatt:
1000 $$aNYILAS JÓZSEF$$cKand.
1000 $$aNYILAS JÓZSEF$$cDokt.
A 900 mezőben szintén a dolgozat szerzői szerepeltek (vagy a 100-as mezőhöz tartozóan csak a fokozat). Az alábbi rekordban több név kötőjelesen (társszerzők) és külön mezőben a fokozat
900 $$cKand.
900 $$aMÁRTONFFY TAMÁS -
900 $$aSULYOK ISTVÁN
vagy a szerző a 100-as mezőben és a fokozat a 900-as mezőben
1001 $a DÉZSI ZOLTÁN
900 $c Kand.

Az adatok elemzése során kiderült, hogy a nyelvkódok használata sem volt következetes, a könyvtár szerzeményezői és a feldolgozók nem ugyanazon szabvány szerinti kódokat használták, és voltak rekordok melyekben a 008 és 041 mezőkben sem ugyanaz a kód szerepelt. A MARC21 nyelvkódok is változtak az évek során, ezért a konverzióhoz készített nyelvkód táblázatban a jelenlegi MARC21 kódokhoz hozzá kellett rendelni a korábbi kódokat és az általunk használt kódokat is.

Az előbbiekből nyilvánvaló volt, hogy a már felismert ellentmondásokat még a konverzió előtt próbáljuk meg javítani, vagyis valamilyen szintű adattisztítást végezzünk el.
A disszertációknál ilyen volt például a 100 és 900 mezők megtisztítása: ahol nincs 100 mező, de van 900, ott a 900 mezőből tegyük át a tartalmat a 100 mezőbe, a $c almező tartalmát (fokozat) az 502 mezőbe (dolgozathoz tartozik nem a személyhez). Ha 100 és 900 mező együtt szerepel, azt a későbbiekben kell az eredeti dokumentum alapján javítani. A nevek nagybetűsről az egyébként használt nagy kezdőbetűs alakra való cseréjét a MARC21 konverzió során végezzük el.
A törzsgyűjtemény rekordjaiban a szerzeményezők 900-as mezőket használtak (rendelés, dezideráta készítéskor), melyeket a rekord véglegesítésekor vagy át kellett írni a helyes mezőkódra, vagy törölni kellett. “Természetesen” sok 900-as mezőt találtunk a kész, már raktárba került dokumentumok leírásában. Ezekben a rekordokban ellenőriztük a megfelelő 100, 245, 260, stb. mezők (a 900-as mezők megfelelőjét) és a példányrekord meglétét, utána töröltük a 900-as mezőket.

Készítette: Naszádos Edit
2017. május

Mező megfeleltetési tábla összeállítása

A konverzióhoz szükséges mező megfeleltetési táblát a katalógus adatainak elemzése, ill. a HUNMARC és MARC21 mezők összevetése alapján készítettük el.
A mező megfeleltetési táblában az összes használatban lévő (az adatbázisban megtalálható) mezőt felsoroltuk, azokat is, melyeket már nem használtunk, de korábbi konverziók maradványaiként azóta is "cipeltük" magunkkal.
Több Excel táblát is készítettünk. Az egyik csak a HUNMARC és a MARC21 mezőket tartalmazta, ebben az általunk használt mezőket jelöltük, és ezeknek a konverziós táblában szerepelni kellett. A másik tábla tartalmazta a konverziós utasítást, ennek A oszlopában a HUNMARC mező, B oszlopában a MARC21 mező, majd az indikátorokra vonatkozó utasítás, végül a tartalom (almezővel együtt) konvertálására vonatkozó információ került. Ahol szükséges volt bővebb magyarázatot is fűztünk a konverziós utasításhoz, volt ahol csak annyi szerepelt "megy ahogy van". Jelöltük azokat a mezőket melyek tartalmára nem lesz szükség, vagy melyeket még nem sikerült elemezni, ezeknél a konverziós utasítás oszlopba a "nem kell, fájlba", vagy "sysno lista" megjegyzés került.
Külön táblázat tartalmazta az MTA01 és külön táblázat a DIS01 adatmezőket. A DIS01 táblázatban külön munkalapokon adtuk meg a különböző rekordtípusokra vonatkozó konverziós utasítást.
Az MTA01 konverziós táblázatot ld. a Letölthető anyagok között.

A konverziós táblázatban az indikátorokra, az almezők cseréjére és módosítására is utasítást kellett adni, néhány mezőre példa: 561, 562 mezők - indikátorok mennek ahogy voltak az Aleph rekordban, konverzió után megnézzük a mezők tartalmát
590-es mező - nem tudtuk mindegyik 59x (MARC21-ben helyi megjegyzés mező) mezőnél eldönteni melyik 5xx mezőbe menjen anélkül, hogy látnánk mi van a mezőben, ezért kérjük az 590, 591, 596, 597 mezők tartalmával a listákat
630 mező - a konverziónál össze kell vonni almezőket, mert MARC21-ben kevesebb almező van, az összevonást az alábbiak szerint kérjük ha van $b almező, akkor $a almező tartalma után, előtte a központozási jel szóköz : szóköz
$i almező átmegy $l almezőbe
700 mező - $a és $j almezők tartalmát $a almezőbe összerakni, és a $j almezőkódot elhagyni; $m almező tartalmát $c-be a jelenleg lévő $c után; $g almezőt tartalmazó rekordok rendszerszámát kérjük; többi almező változatlan
711 mező - indikátorokra
első indikátor változatlan, cserélni ha nem 2
második indikátort cserélni #-re, ha 0 vagy 1, változatlan ha 2
787 mező - $v almező cseréje $g almezőre, a többi almező változatlan; ha ^ vagy ^^ karakter van a 787 mező $v almezőben, akkor kérjük a rendszerszámokat; ha 787 mezőben nincs $v almező de van $a almező, kérjük $a kódot cserélni $g kódra és kérjük a rendszerszámokat

A 876 mező - $z almezőjét használjuk a folyóiratok összefoglaló állományi adatainak megjelenítésére. Ez a mező a MARC21 szabvány szerint a Holdings adatok csoportjába (ld. MARC 21 Format for Holdings Data) tartozik, de mi a bibliográfiai adatokban továbbra is használni fogjuk, ugyanis máshol nincs információ a régi évfolyamokról. Adatátadáskor kihagyjuk, ezt a mezőt nem adjuk át.

Külön táblázatot készítettünk a nyelv- és országkódok cseréjéhez.

Készítette: Naszádos Edit
2017. május

Teszt, elemzés

A konverziót az Ex-LH Kft (Aleph szupport cég) végezte. Az adatbázist 2015. december 23-án zártuk le, és a tervek szerint 2016. január 4-én már dolgozni lehet a rendszerben. Ez idő alatt kellett elkészíteni a konverziót és az Aleph új verzióra való átállást (paramétertáblák/konfigurációs táblák: adatmező-, index-, megjelenítési-, ellenőrzési-, stb. táblák átalakítását).
2016.01.03-án megérkezett az e-mail, elkészült a konverzió, tesztelhetjük. Az MTA01 rekordok az eredeti rendszerszámokkal kerültek át, a DIS01 rekordok pedig ezek után, ezért az ellenőrzéshez megkaptuk e rekordok rendszerszám tartományát a bázis csoportok bontásában

DIS01 összesen: 127 184

11 [-->DIS]	000722798 --> 000741175	18 378 db
22 [-->SOR]	000741176 --> 000748816	7 641 db
RAL_GIL	000748817 --> 000764192	15 376 db
MSS_KKT	000764193 --> 000808490	44 298 db
INC	000808491 --> 000809552	1 062 db
LGYL	000809553 --> 000820257	10 705 db
egyéb báziskód	000820258 --> 000820817	560 db

Az egyéb báziskódok halmaz rekordjait az INC alapján konvertálták, ezekben vagy érvénytelen báziskód volt, vagy kimaradt a konverziós utasításból.

A nyelvkódokat és az FMT kódokat is javították a konverziós utasítás szerint, megkaptuk a kért ellenőrző listákat és a konverzió során talált hibákat.

Kezdhettük a konverzió tesztelését, elemzését.
A konverzió kritikus pontja volt az MTA01 és a DIS01 adatbázisok összeosztása. Számítottunk arra, hogy itt lehet probléma, ezért ennek ellenőrzésével kezdtünk. A rekordok bibliográfiai szintű összekapcsolására az Aleph kapcsoló mezőt (LKR) használjuk, amiben meg kell adni a kapcsolódó mező azonosítóját (rendszerszám). Az ellenőrzés során kiderült, hogy az LKR mezőben a rendszerszámok elcsúsztak. A kapcsolatokat kezelő Oracle tábla (Z103) újraépítésével a probléma megoldódott, január 4-én ezt már lezárhattuk.
LKR mezőkből eltűntek a $b almező tartalmak, vagyis a rendszerszám. Szükség volt a konverzió előtti rekord ellenőrzésére, hogy bebizonyítsuk, korábban volt benne. Ezek után a konverziós programot javították és január 4-én ez a probléma is lezárható volt.
A 852 mezők megjelenítésénél indikátorokat használtunk, hogy a nem egységesen kezelt 852 mezőből meg tudjuk jeleníteni a raktári jelzetet a különböző dokumentumtípusoknál. A konverzió előkészítése során nem kaptunk megfelelő információt, így nem jelent meg minden részcímesként feldolgozott rekordoknál a raktári jelzet. Megkerestük azokat a rekordokat, ahol a konverzió során indikátort töröltünk, ezeket a konverzió előtti exportból visszatöltöttük. Találtunk duplán konvertált rekordokat: a miért elemzése során kiderült, hogy a konverziós utasítás és a konverziós program is hibás volt, ui. a több báziskód miatt mindegyik bázis-csoport konvertálásakor "képbe" kerültek. Ezt a hibát csak később fedeztük fel, de a javítást elvégezték, nem volt szigorúan megszabott reklamálási időszak.
Ezeken kívül a konverziós program hibájából adódó probléma nem volt.
A bibliográfiai rekordokhoz kapcsolódó besorolási elemek (Authority reordok), példányadatok és a példányrekordokhoz kapcsolódó szerzeményezési, kölcsönzési adatok konverziója nem okozott problémát, hiszen ezeket az eljárásokat használja a rendszer új verziókra való konvertáláskor is.
A katalógusunk (bibliográfiai és authority adatbázisok) konverzió előtti állapotáról készült exportot számunkra (Szakinformatikai osztály munkatársai) könnyen elérhető helyre tettük, így ellenőrizni tudtuk a rekordokat ha valaki reklamációval élt. Az MTA01-be beosztott DIS01 rekordok régi rendszerszámai a konverzió során a 036 mezőbe kerültek, indexeltük is ezt a mezőt, így bármikor a régi rendszerszám alapján is megtaláltuk a rekordokat.
A konverzió januári tesztelése után úgy gondoltuk a szupport cég által végzett konverziót lezárhatjuk, március-áprilisban azonban találtunk még hibákat (dupla rekordokat). A konverziós utasításban kért hibalistákat megkaptuk, a következő lépés ezek feldolgozása és munkafolyamatba illesztése volt.

Készítette: Naszádos Edit
2017. május

Hamarosan...

Javaslatok

A rekordkapcsolatokban rejlő lehetőségek kihasználása (a jövőbeni FRBR-esítés érdekében)

Hamarosan...

Hunmarc Marc21 konverzió, adattisztítás
Vissza főoldalra

Miért az átállás?

Adatelemzés – adatismeret kell hozzá

Mező megfeleltetési tábla összeállítása

Teszt, elemzés

Tábla korrekció

Konverzió

Ellenőrzés, elemzés, hibák javítása

Ismételt konverzió teljes/részleges - a hibásan konvertált mennyiségtől függően

Adatbázis/adatbázisok exportja

Adatbázis/adatbázisok zárása

Konverziós program a bib adatokon

BIB adatok importja és a hozzá kapcsolódó adm adatok feltöltése

Adatbázisok összeolvasztása miatt kapcsolódó rekordoknál a kapcsolódó rekordszámok cseréje

Kötetkezelés egységesítése

Sorozati/alsorozati főlapok feldolgozása

Részcímes feldolgozás

rekordkapcsolatok kezelése – Aleph LKR/Marc $w

Mű/példány leírása

Minden bib rekordhoz példányrekord készítése

852 mező egységesítése

Prioritások a konverziónál, nem tudtunk mindet adatot megfelelő mélységben elemezni

MTA KIK következetlen és dokumentálatlan feldolgozási gyakorlatból eredő adattisztítás

Tanulságok

A rekordkapcsolatokban rejlő lehetőségek kihasználása (a jövőbeni FRBR-esítés érdekében)

Hunmarc Marc21 konverzió, adattisztítás Vissza főoldalra

Hunmarc Marc21 konverzió, adattisztítás
Vissza főoldalra