http://www.behav.org/00library/Tapolcai/default.htm

Tapolcai - Cserey: Számítógépes információforrások és szolgáltatások az állatorvos-tudomány területén

Tartalom
 
Az adatbázisban való keresés logikája > Indexelés, a hatékony keresés feltétele > A tezaurusz > A CAB tezaurusza
     
Indexelés, a hatékony keresés feltétele
   
       
  Az indexelés kettős értelmű szó az adatbázisok világában: Egyfelől az adatbázis tartalmában található szavak alfabetikus listáinak létrehozását jelenti, aminek eredménye az indexállomány (invertált állomány). Az indexelésnek másfelől azt az eljárást nevezzük, amelynek során az adatbázis-készítők ellátják a rekordokat a dokumentum tartalmát leíró tárgyszavakkal és egyéb, a téma szerinti csoportosítást jelentő osztályozókkal.    
       
Index vagy invertált állomány
   
 

 

Az adatbázis-kezelő program azokból a szavakból, amelyek az adatbázis tartalmát képezik, (pl. a szerzői nevek, címek, tárgyszavak) alfabetikusan rendezett listát készít és minden szó mellé odaírja, hogy hányszor fordulnak elő, hányadik rekordban és azon belül pontosan hol találhatók. Ez az információ teszi lehetővé a gép számára, hogy a program azonnal, sorbaolvasás nélkül ráálljon a kért rekordra (az elérési út általában nem kerül a felhasználó szeme elé). Az index segítségével a program több millió rekord közül is képes rövid idő alatt megtalálni a szükségeseket.

A keresés alkalmával beírt kulcsszó mellett eredményként először az előfordulás számát pillantjuk meg a képernyőn: pl. Kovács János 230

Ez az index fájl (invertált állomány) különböző módokon szerveződhet. Az első és legnagyobb információszolgáltató központ, a DIALOG index-összeállítási stratégiája a következő: készít egy közös állományt a cím, a kulcsszavak, valamint az összefoglaló szavaiból, vagyis a témára utaló mezők tartalmából. Kihagyja a névelőket, kötőszókat és a nagyon gyakori, a témára nem utaló szavakat (stopszavak, tiltott szavak, stopwords). Így alakul ki a fő index (basic index), amelyben a mező megjelölése nélkül, egyszerűen a kereső kifejezések beírásával lehet keresni. A szerzői nevekből és még néhány más mezőből külön indexet készít (additional indexes). Szerzők esetében az "AU=" előtaggal (prefix) kereshetünk : AU=Kovács, J.

Hasonlítsunk össze a fenti gyakorlatot két másik rendszer, a Silver Platter Information Retrieval System (SPIRS), és a Current Contents on Diskette gyakorlatával:

   
 
  • A SPIRS szinte minden mező szavait egy közös betűrendbe sorolja be, ez a főindex. Ha szükséges, a keresés eredményét később szűkíthetjük egy vagy néhány mezőre. Csak néhány, ún. limit field (lsd. később) esetében használ előtagot.
  • A Current Contents ezzel szemben minden mezőből külön indexállományt képez, és előre kérdezi, hogy melyikben szeretnénk keresni. Egyszerre csak egy mezőt vizsgál, és a kapott halmazokat utólag kapcsolhatjuk össze.
   
       
 

Minden indexállomány készülhet szavakból és kifejezésekből. Az első esetben minden szó (vagyis olyan karakter sorozat, amely szóközzel van elválasztva a többitől) külön tétel lesz a listában. A második esetben egy mező tartalmát a program egységes egészként értelmezi a szóközökkel együtt.

 

   

Tárgyszavak és osztályozók

 

   
 

Amíg az invertált állományt a szoftver képezi, addig ezt a fogalmi osztályozást az adatbázis készítői végzik saját, igen szoros szabályzatuk alapján.

A bevitt rekordokat a dokumentum tartalmát leíró tárgyszavakkal és egyéb, a téma szerinti csoportosítást jelentő osztályozókkal látják el. Így biztosítják a dokumentumok visszakereshetőségét azokban az esetekben is, mikor nem található a tárgyra utaló, egyértelmű szakkifejezés.

A CAB adatbázisban a fő témakörök szerinti csoportosítás helye a "CABICODES" nevű mező. Ez a jellemző utal az átfogó témakörökre, amelyekből többet is hozzárendelhetnek egy-egy dokumentumhoz. Pl. az osztályozó munkatársak minden bizonnyal beírták az "LL800 Animal health & hygiene" és az "LL500 Animal nutrition" kódokat a gyógytakarmányokról szóló cikkek CABICODES mezőjébe.

Jó példa erre továbbá a BIOSIS biológiai adatbázis "biosystematic cod" rendszere, amely a hasonló nevű mezőben található, és a cikkben szereplő élőlények taxonómiai helyét írja le.

Speciális osztályozást tesz lehetővé a farmakológiai adatbázisokban gyakran használt terápiás hatás szerinti felosztás, a "Therapeutic categories". Ez a rendszer a gyógyszereket olyan nagyobb csoportokra osztja, mint pl. anticancer, vitamin, wound healing agent.

A Chemical Abstracts "Registry number" vegyület azonosító rendszere is hasonló célt szolgál.

   
           
 

A tárgyszavak a fentinél jóval kisebb kört jelölnek ki. A kijelölt rekordok száma függ magától a fogalomtól, pl. a "dog diseases" nagyobb halmazt gyűjt össze, mint a "canine-adenovirus".

Az indexelést emberek csoportja végzi éveken vagy évtizedeken kereszül, így elképzelhetjük, hogy sohasem teljesen konzekvens. A felhasználó csak némi ismerkedés után érezhet rá igazán, hogyan is tárgyszavazhatták és osztályozhatták az általa keresett dokumentumokat.

Az osztályozás követi az adott szakterület logikáját. Főbb kérdésköreit úgy különíti el, ahogyan az a szakirodalomban éppen a legelterjedtebb. Pl. az AIDS először az orvosi szakterület "immunrendszer betegségei" című kategóriájába került, majd önálló tárgyszó lett. Ma már külön adatbázisok léteznek a témáról és mint fogalom megjelent a társadalomtudományi adatbázisokban is. Hasonló 'karriert' futott be a "hybridoma", a "biotechnology", az "environment" szó. Ezen témák mindegyike ma már külön adatbázisokat alkot.

Az indexelés különleges formája a hivatkozási index (citation index), mely az ISI (Institute for Scientific Information, Inc., USA) szolgáltatása. A dokumentumok végén megadott irodalmi hivatkozásokat teszi a keresés kiindulópontjává, tehát ezekről készít invertált fájl-t, vagyis gépi indexet (miután egységes formára hozta). Jelentősége egyrészt abban van, hogy nem tudományterülethez kötött, vagyis interdiszciplináris kutatások esetén jól használható, másrészt segítségével régebbi cikk alapján kereshetjük a munka folytatását, hiszen valószínű, hogy a későbbi publikációkban hivatkoztak a korábbira.

   
 
Az adatbázisban való keresés logikája > Indexelés, a hatékony keresés feltétele > A tezaurusz > A CAB tezaurusza
 

 

 
webszerkesztő