| |
|
|
| |
|
|
|
Indexelés, a hatékony keresés feltétele
|
|
|
| |
|
|
|
| |
Az indexelés kettős értelmű szó az adatbázisok világában:
Egyfelől az adatbázis tartalmában található szavak alfabetikus listáinak
létrehozását jelenti, aminek eredménye az indexállomány (invertált állomány).
Az indexelésnek másfelől azt az eljárást nevezzük, amelynek során az adatbázis-készítők
ellátják a rekordokat a dokumentum tartalmát leíró tárgyszavakkal és egyéb,
a téma szerinti csoportosítást jelentő osztályozókkal. |
|
|
| |
|
|
|
|
Index vagy invertált állomány
|
|
|
| |
Az adatbázis-kezelő program azokból a szavakból, amelyek az adatbázis
tartalmát képezik, (pl. a szerzői nevek, címek, tárgyszavak) alfabetikusan
rendezett listát készít és minden szó mellé odaírja, hogy hányszor fordulnak
elő, hányadik rekordban és azon belül pontosan hol találhatók. Ez az
információ teszi lehetővé a gép számára, hogy a program azonnal, sorbaolvasás
nélkül ráálljon a kért rekordra (az elérési út általában nem kerül a
felhasználó szeme elé). Az index segítségével a program több millió
rekord közül is képes rövid idő alatt megtalálni a szükségeseket.
A keresés alkalmával beírt kulcsszó mellett eredményként először az
előfordulás számát pillantjuk meg a képernyőn: pl. Kovács János 230
Ez az index fájl (invertált állomány) különböző módokon szerveződhet.
Az első és legnagyobb információszolgáltató központ, a DIALOG index-összeállítási
stratégiája a következő: készít egy közös állományt a cím, a kulcsszavak,
valamint az összefoglaló szavaiból, vagyis a témára utaló mezők tartalmából.
Kihagyja a névelőket, kötőszókat és a nagyon gyakori, a témára nem utaló
szavakat (stopszavak, tiltott szavak, stopwords). Így alakul ki a fő
index (basic index), amelyben a mező megjelölése nélkül, egyszerűen
a kereső kifejezések beírásával lehet keresni. A szerzői nevekből és
még néhány más mezőből külön indexet készít (additional indexes). Szerzők
esetében az "AU=" előtaggal (prefix) kereshetünk : AU=Kovács, J.
Hasonlítsunk össze a fenti gyakorlatot két másik rendszer, a Silver
Platter Information Retrieval System (SPIRS), és a Current Contents
on Diskette gyakorlatával:
|
|
|
| |
- A SPIRS szinte minden mező szavait egy közös betűrendbe sorolja
be, ez a főindex. Ha szükséges, a keresés eredményét később szűkíthetjük
egy vagy néhány mezőre. Csak néhány, ún. limit field (lsd. később)
esetében használ előtagot.
- A Current Contents ezzel szemben minden mezőből külön indexállományt
képez, és előre kérdezi, hogy melyikben szeretnénk keresni. Egyszerre
csak egy mezőt vizsgál, és a kapott halmazokat utólag kapcsolhatjuk
össze.
|
|
|
| |
|
|
|
| |
Minden indexállomány készülhet szavakból és kifejezésekből. Az első
esetben minden szó (vagyis olyan karakter sorozat, amely szóközzel van
elválasztva a többitől) külön tétel lesz a listában. A második esetben
egy mező tartalmát a program egységes egészként értelmezi a szóközökkel
együtt.
|
|
|
Tárgyszavak és osztályozók
|
|
|
| |
Amíg az invertált állományt a szoftver képezi, addig ezt a fogalmi
osztályozást az adatbázis készítői végzik saját, igen szoros szabályzatuk
alapján.
A bevitt rekordokat a dokumentum tartalmát leíró tárgyszavakkal és
egyéb, a téma szerinti csoportosítást jelentő osztályozókkal látják
el. Így biztosítják a dokumentumok visszakereshetőségét azokban az esetekben
is, mikor nem található a tárgyra utaló, egyértelmű szakkifejezés.
A CAB adatbázisban a fő témakörök szerinti csoportosítás helye a "CABICODES"
nevű mező. Ez a jellemző utal az átfogó témakörökre, amelyekből többet
is hozzárendelhetnek egy-egy dokumentumhoz. Pl. az osztályozó munkatársak
minden bizonnyal beírták az "LL800 Animal health & hygiene" és az
"LL500 Animal nutrition" kódokat a gyógytakarmányokról szóló cikkek
CABICODES mezőjébe.
Jó példa erre továbbá a BIOSIS biológiai adatbázis "biosystematic cod"
rendszere, amely a hasonló nevű mezőben található, és a cikkben szereplő
élőlények taxonómiai helyét írja le.
Speciális osztályozást tesz lehetővé a farmakológiai adatbázisokban
gyakran használt terápiás hatás szerinti felosztás, a "Therapeutic categories".
Ez a rendszer a gyógyszereket olyan nagyobb csoportokra osztja, mint
pl. anticancer, vitamin, wound healing agent.
A Chemical Abstracts "Registry number" vegyület azonosító rendszere
is hasonló célt szolgál.
|
|
|
| |
|
|
|
|
|
| |
A tárgyszavak a fentinél jóval kisebb kört jelölnek ki. A kijelölt
rekordok száma függ magától a fogalomtól, pl. a "dog diseases" nagyobb
halmazt gyűjt össze, mint a "canine-adenovirus".
Az indexelést emberek csoportja végzi éveken vagy évtizedeken kereszül,
így elképzelhetjük, hogy sohasem teljesen konzekvens. A felhasználó
csak némi ismerkedés után érezhet rá igazán, hogyan is tárgyszavazhatták
és osztályozhatták az általa keresett dokumentumokat.
Az osztályozás követi az adott szakterület logikáját. Főbb kérdésköreit
úgy különíti el, ahogyan az a szakirodalomban éppen a legelterjedtebb.
Pl. az AIDS először az orvosi szakterület "immunrendszer betegségei"
című kategóriájába került, majd önálló tárgyszó lett. Ma már külön adatbázisok
léteznek a témáról és mint fogalom megjelent a társadalomtudományi adatbázisokban
is. Hasonló 'karriert' futott be a "hybridoma", a "biotechnology", az
"environment" szó. Ezen témák mindegyike ma már külön adatbázisokat
alkot.
Az indexelés különleges formája a hivatkozási index (citation index),
mely az ISI (Institute for Scientific Information, Inc., USA) szolgáltatása.
A dokumentumok végén megadott irodalmi hivatkozásokat teszi a keresés
kiindulópontjává, tehát ezekről készít invertált fájl-t, vagyis gépi
indexet (miután egységes formára hozta). Jelentősége egyrészt abban
van, hogy nem tudományterülethez kötött, vagyis interdiszciplináris
kutatások esetén jól használható, másrészt segítségével régebbi cikk
alapján kereshetjük a munka folytatását, hiszen valószínű, hogy a későbbi
publikációkban hivatkoztak a korábbira.
|
|
|
| |
|
|
| |
|