Fizikai Szemle 2006/8 - 288.o.
eSCIENCE
Adatözönben élünk. Műholdak térképezik fel Földünk
felszínét és időjárását, távcsövek pásztázzák automatikusan
a Világegyetem egyre távolabbi régióit, elektronikus berendezések
rögzítik a nagyenergiás részecskeütközésekből kijövő
számtalanrészecske összes adatát. Személyes adatainkat
hitelfelvételi, vásárlási és utazási szokásainkról magán- és
közintézmények gyűjtik, a humán genom projekt keretében
pedig elkészült az első emberi géntérkép. Az interneten
felgyülemlő adatmennyiség ma már csak exabyte
nagyságrendben mérhető, és ez is kétévente duplázódik.
Az összegyűjtött adatok kiértékelése általában nagyobb
gondot okoz, mint maga az összegyűjtésük, mert sokszor
nehéz átlátni az adatok közötti összefüggéseket, és kiszűrni
belőlük a lényeges információkat: előre jelezni esetleges
katasztrofális jelenségeket a természetben vagy a hálózatokban,
felismerni a terroristagyanús személyeket, megtalálni
az öregedésért és örökletes betegségekért felelős géneket,
azonosítani a potenciálisan piacképes termékeket,
megbecsülni egy-egy döntés kockázatát.
Felvetődik a kérdés, hogy miként lehetne a - fentiekben példakén
t kiragadott esetekben meglevő - hatalmas
adatözönt kezelni. A választ az eScience jelentheti.
Mi az eScience?
Az eScience kifejezést egy új, "feltörekvő" technológiára
használják, melynek révén nagyléptékű, komplex tudományos
tevékenység fejthető ki a modern információs
technológia felhasználásával. Legfőbb jellemzője a rend-
kívül sok, gyakran különböző helyekről elérhető adattal
operáló kiértékelő munka, melynek eredményes véghezviteléhez
az adatok automatikus gyűjtésére, optimális
adatbázisba rendezésére, rendkívül nagy számítástechnikai
kapacitást igénylő feldolgozására, és a lényeget megragadó
vizualizációra van szükség.
Az eScience az alkalmazott tudomány, az alapkutatás,
valamint a modern információs technológia (IT) interdiszciplináris
egymásra hatásából született, és egy új minőséget
képvisel a kiértékelésben. Az IT kifejleszti a korszerű
eszközöket és informatikai rendszereket az alap- és
alkalmazott kutatások mai problémáinak megoldásához.
Az így keletkezett rendszerek, illetve az általuk szolgáltatott
adatok, komplexitásuk miatt, már csak az eScience
segítségével vizsgálhatók. Az eScience - jelenlegi fejlettségi
szintjén - elsősorban a szervezett adatgyűjtés anyagának
feltárására irányul, ugyanakkor a spontán felhalmozódó
adatmennyiség feldolgozásához is előkészíti a
szükséges technológiát.
Miért fontos az eScience?
Az elmúlt évtized jelentősen megváltoztatta szinte minden
tudomány módszertanát. Ahhoz hasonlóan, ahogy a
matematika egy évszázaddal ezelőtt szétáradt szinte minden
tudományban, és az elméleti modellek alapeszközévé
vált, ma már szinte lehetetlen bármelyik tudományágat
a modern információs technológiák használata nélkül
művelni. Ezzel párhuzamosan egy másik irányú folyamat
is megindult: a modern információs rendszerek
annyira összetetté és bonyolulttá váltak, hogy vizsgálatukhoz,
fejlesztésükhöz, valamint az általuk szolgáltatott
adatok kiértékeléséhez az informatika eddigi módszerei
már nem elégségesek. Szükség van a hagyományos, de
bonyolult természeti jelenségek vizsgálatára kidolgozott
módszerek eszköztárára is.
Sem a tudomány, sem az elektronika történetében nem
ez az első forradalom. Az olcsó személyi számítógépek
megjelenése megváltoztatta az informatika viszonyát a
tudományhoz, az üzleti és a mindennapi élethez. Az olcsó
internet forradalmasította a munkacsoportok működését,
az itt közölt eredmények mindenki számára gyorsan elérhetővé
váltak. Ma pedig a szemünk előtt zajlik az adattechnológia
forradalma: rohamosan nő a műszerek, érzékelők,
felvevő berendezések sávszélessége és
mennyisége, valamint az internet-felhasználók száma,
akik hála a ma már könnyen kezelhető webtechnológiának,
szinte ontják a különböző értékű adatokat. Mindez
oda vezetett, hogy napjainkra mind az igények, mind a
már létező kapacitások kinőtték az informatika által biztosított
eddigi kereteket: a már meglévő adatbázisok sokszor
szétszórtan, "ömlesztve" tárolják az adatokat, az új
adatgyűjtési eljárásoknak egyre nagyobb mennyiségű adatot
kell automatikusan begyűjteniük. A meglevő adatokat
egyre nagyobb számítástechnikai teljesítménnyel lehetne
csak feldolgozni, és az adatbázist használók sokszor sötétben
tapogatóznak, mert nem mindig tudják, hogy pontosan
milyenadatokra van szükségük, illetve, hogy mi mindenre
lehetne használni az összegyűjtött információt.
Az eScience technológiája, bár a tudomány eredményeiből
gyökerezik, a mindennapi élet számos területén
is alkalmazható. Mindenütt alapkövetelmény a jó trendek
felismerése és kiaknázása. A megfelelő irányban tett
gyors elmozdulást általában siker kíséri: példa erre a
Google-portál, vagy az Amazone-kereskedelem több -
az összegyűjtött adatok alapján megtervezett és jól célzott
- reklámakciója. Ugyanakkor az e-buborék kipukkanása
az ezredforduló körül jelezte, hogy számos technológia
még nem érett be.
Mit gondolnak mások?
Az eScience névvel jellemzett új technológia kifejlesztésének
és alkalmazásának szükségessége már felvetődött az
USA Nemzeti Tudományos Alapjának, a kanadai Innovációs
Alapnak, valamint az angol Nemzeti eScience Központ
bizottságainak ülésein, ahol megállapították, hogy az
adatgyűjtés, tárolás és karbantartás kezelésére új megközelítést
kell kidolgozni, mivel az eddigi eljárások rohamosan
bonyolódnak, és egyre több pénzt fognak felemészteni.
Az IBM kivonul a hardver-üzletágból, helyette
adatbázisrendszerekre és a bioinformatikára helyezi a
hangsúlyt, a Microsoft Research-nél hasonló irányvonal
figyelhető meg. A New Scientist 2005. áprilisi száma a rákkutatás
jelenlegi helyzetéről közöl áttekintést, melyből
kitűnik, hogy ezen a területen szűk keresztmetszetet jelent
olyan szakemberek hiánya, akik egyrészt birtokában vannak
bizonyos biotechnológiai ismereteknek, ugyanakkor
szakszerűen képesek kezelni az eScience eszköztárát.
Mi a jövő?
A számítástechnika és a kutatás-fejlesztés küszöbön álló
forradalma a következő technológiákra fog épülni: az
egyre nagyobb adatözön olcsó begyűjtésére, strukturált
tárolására, a különböző helyeken elszórt kapacitásokhoz
való egyszerű hozzáférésre, valamint az adatok és keresések
megjelenítésére. Mivel hatalmas adattömegek a
tudósok műszereinél jelentek meg először, a kutatók már
sok tapasztalatot szereztek ezeken a területeken, ebből
adódik, hogy a tudományinformatika az eScience élén
járhat olyan technológiák előállításában - illetve hazai
átvételükben és továbbfejlesztésükben -, amelyek az élet
egyéb területein is kamatoztathatóak.
Az adatbázisok összekapcsolásával létrejövő struktúra
(ezt a csillagászatban Virtuális Obszervatóriumnak nevezik)
egy "virtuális szervezetet" definiál a hálózaton, melynek
tagjai távolsági korlát nélkül képesek kihasználni
annak erőforrásait. Az ilyen jellegű szervezettségre a közeljövőben
a tudomány mellett elengedhetetlen szüksége
lesz a nagyvállalati munkának, az államigazgatásnak,
környezetgazdálkodásnak, a nemzetbiztonságnak, de
hamarosan még a kulturális szférának is. Egy ilyen szervezet
ugyanakkor jelentősen megkönnyítheti a kis- és
középvállalkozások számára is az adatokhoz, valamint az
olcsó feldolgozó-kapacitáshoz való hozzájutást, ezáltal
javítva esélyeiket a versenyben.
Hol tart a technológia?
A fenti technológiák intenzív fejlődési szakaszban vannak
Léteznek nagyon jól használható alapmodulok,
melyekre már lehet építeni, de még nem következett be
az a komoly áttörés, amely a fenti problémák hatékony
megoldását nyújtaná. Ennek oka egyrészt az, hogy az
ipar még nem állt rá egy kiforrott technológia "gyártására",
így a kutatás-fejlesztésnek elsődleges szerepe van
ezen a téren. Másrészt, ugyanezen okból, nagyon nagy
lehetőségek rejlenek a témában: az, aki az első használható
rendszer létrehozásában vezető szerepet játszik
majd, könnyen válhat akár kis "garázscégből" is piacvezetővé,
mint ahogy annak idején ezt a folyamatot a mobil-
vagy internetes technológiáknál, illetve a személyi
számítógépek piacán láthattuk.
Egy példa:
asztrofizikai virtuális obszervatórium
A csillagászok által létrehozott Virtuális Obszervatórium
kitűnő példája az adatbázisok összekapcsolásával létrejövő
struktúráknak, a megoldandó problémáknak. Nézzük
meg miért, rajta keresztül megérthetjük a lényeget. A csillagászat,
hasonlóan más tudományokhoz kihasználta a
Moore-törvényt. Az Intel egyik alapítója által még a 60-as
években felállított tapasztalati törvény
(http://en.wikipedia.org/wiki/Moore's_law) azt mondja ki, hogy a
mikroelektronikai elemek sűrűsége nagyjából kétévenként
duplázódik. Az exponenciális növekedést kifejező
szabály valóban működik immár 4 évtizede, az olvasó
könnyen kiszámíthatja, hogy ez hányszorosára növelte az
egy chipen lévő elemek számát. A csillagászatot a számítógépek
mellett leginkább az egyre olcsóbb és egyre nagyobb
felbontású CCD-érzékelők megjelenése forradalmasította.
Az előző évszázadok csillagászati Moore-törvénye,
amely a távcsőtükrök méretének növekedésében
nyilvánult meg, a 90-as évek óta az érzékelők rohamos
javulásában folytatódik. A Sloan Digital Sky Survey
(SDSS) távcsöve például egy 120 megapixeles kamerát
tartalmaz, amely 5 optikai sávban készít felvételeket.
Ezek a felvételek azután hatalmas információ mennyiséget
eredményeznek. A rengeteg adat kezeléséből adódó
nehézségekről mindenkinek lehet sejtése, aki csupán egy
pár megapixeles fényképezőgépet birtokol. Az SDSS
végül 5 év alatt az égboltról egy 2 millió × 2 millió pixeles
képet készít, és ez még csak a 90-es évek közepének
technikája. A jelenleg fejlesztés alatt álló távcsövek akár
egyetlenéjszaka alatt képesek lesznek erre.
Az adatokat számítógépeken tárolják, és dolgozzák fel.
A hagyományos módszerek (fájlok, scriptek használata)
mellett azonban az egyre gyorsabb számítógépek is képtelenek
megbirkózni a hatalmas adatlavinával. A kutatók
kénytelenek igénybe venni a legmodernebb információs
technológiákat, így például az adatbázisokat, amelyeket
eleve nagy adatmennyiségek kezelésére terveztek. Ezeket
viszont inkább az üzleti élet igényeinek megfelelően
alkották meg, ezért csak viszonylag egyszerűbb adatstruktúrákat
képesek kezelni.
A tudományos adatok viszont szinte mindig komplexek.
A galaxisokról például felvételeket készítünk, spektrumokat
veszünk fel, kiszámoljuk fényességüket, morfológiai
paramétereit, a szupernóvákról időben változó
fényességgörbéket veszünk fel. De nemcsak az adatok
bonyolultak, hanem a feldolgozás is. Míg egy üzleti példánál
leggyakrabban egyetlen azonosító, például bankkártyaszám
alapján kell az ügyfél vagy termék adatait
előhozni, egy-egy tudományos adatfeldolgozási feladat
jóval összetettebb eljárás lehet.
Tovább bonyolítja a helyzetet, hogy ugyanazon objektumhoz
tartozó információk általában különböző kutatócsoportok
világszerte elszórt adatbázisaiban vannak eltárolva.
Van, aki rádió-, mikrohullámú, infravörös-, optikai,
ultraibolya-, röntgen- vagy gamma-tartományban vizsgálja
az eget. Az Ősrobbanás megértéséhez, vagy egy távoli
kvazárban, illetve gamma-kitörésben lezajló fizikai folyamatok
felderítéséhez az adatokat összegezni kell. Mivel
mindenütt egyre gyűlnek az új adatok, azokat gyakran
újrakalibrálják. Nem lehet megoldani, hogy minden adat
egy helyen legyen, ugyanakkor általában a legfrissebb
adatokkal szeretnénk dolgozni. Össze kell tehát kötni az
adatbázisokat úgy, hogy közösen lehessen bennük a kívánt
adatokat keresni.
A Nemzetközi Virtuális Obszervatórium Szövetség
(www.ivoa.net), melynek
Magyarország is tagja (hvo.elte.hu),
célkitűzéseinek középpontjában elsősorban olyan
szabványok kialakítása áll, amelyek az adatbázisoknak
ezt a föderációját teszik lehetővé, de a szervezet koordinálja
és támogatja más, az eScience témakörébe illeszkedő,
széleskörűen használható technológiák és eszközök
létrehozását is.
Röviden említünk néhány témakört, amelynek megoldásában
magyar szakemberek is részt vesznek. Fontos
lenne az adatokat olyan metainformációval kiegészíteni,
amely gépek számára is olvasható. Jelenleg minden adatbázishoz
létezik emberek számára olvasható dokumentáció.
Ideális az lenne, ha a gépek is tudnák, hogy ha az
egyik adatbázis egyik oszlopa egy galaxis fényességét
fejezi ki, akkor az egy másik adatbázisban levő galaxisfényességgel
összevethető, de például égi koordinátával
nem. Egy másik gyakori igény a nagy mennyiségű adathalmaz
vizualizálása. A jelenlegi technológiák összekapcsolására
alapozva ma már lehetséges az SDSS égtérképét
is megjeleníteni, a terapixeles kép szabadon mozgatható,
zoomolható.
Az új technológia nemcsak a kutatásnak, de az oktatásnak
is nagy lehetőségeket nyújt. A http://skyserver.elte.hu/myskyserver/hu/
"Szakkör" szekciója például
olyankis szakköri projekteket tartalmaz, amelyek akár
középiskolában, akár egyetemi bevezető kurzusokban
használhatók. A Virtuális Obszervatórium szellemének
megfelelően a diákok ugyanazokat az adatokat használhatják,
mint a kutatók, és egy ingyenesen elérhető virtuális
távcső segítségével maguk észlelhetik az Univerzum
tágulását, vagy rajzolhatják fel a csillagok fejlődési
diagramját.
Csabai István, Papp Gábor
Eötvös Egyetem
eScience Regionális Egyetemi Tudásközpont