Fizikai Szemle honlap |
Tartalomjegyzék |
Geszti Tamás
Eötvös Egyetem Atomfizikai Tanszéke
A címben említett két szót látszólag csak az kapcsolja össze, hogy ennek a cikknek az írója ezzel a két témával töltötte az elmúlt tíz-tizenkét évet.
A valóság szebb ennél. Az üvegek és az ideghálózatok között a hidat egy mindkettőjük sok tulajdonságát megvilágító közös modellrendszer, az utóbbi évtizedek elméleti fizikájának egyik g5níjtópontja: a spinüveg jelenti.
A spinüvegek a mágneses anyagok nagy családjának tagjai. A családból legismertebbek a ferromágneses anyagok; ezekben az atomok mágneses momentumai (eredetükre utaló szóval: az atomok spinjei) alacsony hőmérsékleten azonos irányba állnak be, ezért vonzza a mágnespatkó a vasat.
A spinüvegek olyan mágneses ötvözetek, amelyekben a mágneses atomok spinje látszólag rendezetlen irányokban fagy be. Nevükben az “üveg" arra utal, hogy ez az irány szerinti rendezetlenség modellje lehet egy nerckristályos szilárd anyagban, például az ablaküvegben az atomok elhelyezkedés szerinti rendezetlenségének.
A mágneses anyagok legegyszerűbb elméleti képe az Ising-modell. Ebben a képben úgy tekintjük, hogy az egyes atomok spinje csak kétféle irányba állhat be; mondjuk, felfelé és lefelé. Ez modellje lehet annak, hogy egy idegsejt - neuron - kívülről nézve csak kétféle dolgot tehet: vagy géppuskához hasonlóan impulzusok sorozatát küldi a többi neuronnk felé (szokásos kifejezéssel: tüzel), vagy hallgat. Ami hasonlít a spinüvegre, az a tüzelő és hallgató neuronnk rendezetlennek tűnő mintázata.
A rokonság mélyebbre terjed a jelenség szintjénél. Mágneses anyagokban az atomokhoz lokalizált spinek között kölcsönhatások működnek: vagy ferromágneses kölcsönhatások, amelyek az összecsatolt spineket egyirányba törekszenek beállítani, vagy antiferromágnesesek, amelyek az ellenkező irányú beállást részesítik előnyben. Neuronhálózatokban ezt a szerepet töltik be a neuronnk között fennálló serkentő és gátló csatolások.
Ha egy mágneses kristályban minden kölcsönhatás ferro- vagy antiferromágneses, akkor alacsony hőmérsékleten a spinek szabályosan állnak be: az első esetben mind egyirányba mutatnak és az anyag ferromágneses, mint a vas, a másodikban sakktáblaszerűen váltakozó irányba állnak be, amit neutronok szóródásából lehet “látni". Ha a kölcsönhatások közt mindkét fajta előfordul véletlenszerű kiosztásban, az a spinüveg esete. Ilyenkor a spinek beállása is rendezetlen, bár nem teljesen véletlenszerű, mert a kölcsönhatások kiosztása eléggé nagymértékben meghatározza. Ez a meghatározottság nem teljes, mert egyes spinek a kétféle kölcsönhatás miatt ellentmondó hatásoknak vannak kitéve, amelyeknek egyszerre nem tehetnek eleget.* Ezt nevezzük a pszichológiából kölcsönzött szóval frusztrációnak. A frusztráció legnevezetesebb következménye, hogy a rendszer választani kényszerül az ellentmondó kényszerekkel viszonylag legjobban összhangba hozható állapotok között. Emiatt a spinüvegnek nem kétféle egyensúlyi spinkonfigurációja lehet (mint a ferromágnes kétirányú mágnesezettsége), hanem annál sokkal több.
Ehhez hasonlóan, a neuronhálózatokat serkentő és gátló kapcsolódások (a tanítással beállítható erősségű szinapszisok) kevéssé rendezett kiosztása ahhoz vezet, hogy a hálózatban eléggé sokféle hosszúéletű tüzelési minta léphet fel: egyetlen agyunkkal - további tanulás nélkül is - különböző alkalmakkor eléggé sokféle dologra tudunk gondolni.
Az üvegek és az ideghálózatok nem egyedüli alkalmazási területei a spinüvegek gondolatkörének. Életünk tele van ellentmondó követelmények közötti optimális választás keresésének helyzeteivel. A spinüveg-szerű modellek segíthetnek hozzászokni, hogy ezt természetesnek fogadjuk el, ha pedig a probléma matematikai formába önthető, még módszereket is sugallanak a legelőnyösebb döntés megtalálására.
Kétállapotú rendszerek üvegekben
Az üvegek egyik feltűnő, mintegy húsz éve ismert sajátsága a konfigurációs gerjesztések lehetősége. Eltérően a kristályos szilárdtestektől, amelyekben az atomok helyzete - a hibahelyektől eltekintve - meghatározott, az üvegekben egyes atomok vagy atomcsoportok kis elmozdulással könnyen találnak más egyensúlyi helyzetet.
Hogy az elektronok szabad mozgásával ne kelljen foglalkoznunk, beszéljünk most csak szigetelő anyagokról. Ekkor szobahőmérsékleten kristályokban és üvegekben egyaránt a rugalmas hullámok terjedése a hőmozgás uralkodó formája. Alacsony hőmérsékleten azonban a rugalmas hullámok már alig borzolják az anyagot. Ilyenkor üvegekben a közeli helyváltoztatások, amelyek kvantummechanikai alagúthatással történnek (Anderson, Halperin és Varma 1972), sok érdekes jelenségben mutatják meg magukat. Egyes atomcsoportok többféle konfigurációban helyezkedhetnek el, ezek közül azonban általában kettőnél nem többnek kerül az energiája is olyan közel egymáshoz, hogy alacsony hőmérsékleten is átmenet jöhessen létre közöttük. Ezért beszélünk kétállapotú rendszerekről.
Ezen a területen végzett munkám a kétállapotú rendszereket a frusztráció gondolatával kapcsolja össze. Ami üvegekben frusztrálódik, kristályokban pedig beteljesül, az az atomok közötti vonzásnak stabil koordinációra való törekvése. Amikor egy folyadékból gyors lehűtéssel üveg alakul ki, jól koordinált atomfürtök kezdenek növekedni, majd kiderül, hogy egy túl nagyra nőtt fürt két ága összetalálkozva már nem illeszthető össze. Az ilyen frusztrált találkozási felületek mentén az atomok egy része választhat, hogy a két ág közül melyikhez illeszkedjék koherensen: ilyenkor léphet fel egy kétállapotú rendszer.
A jelenséget egy elméleti fizikai eszközökkel kezelhető modellen akartam követni. A jelenség lényeges része a frusztrált helyzetben lévő atomokra ható kétféle erő: a saját fürtjük által közöttük közvetített rugalmas kölcsönhatás, amely őket meghatározott távolságban akarja tartani, valamint az érintkező másik fürt által létrehozott sokgödrös potenciál, amely mint egy tojástartó, számukra egyensúlyi helyzetek sokaságát ajánlja fel. A frusztráció oka a kétféle hatás által felkínált távolságok összemérhetetlensége.
Ha így fogalmaztuk meg, a modell már kézenfekvő [1]: tekintsünk egy rugókkal összekötött atomláncot, amelyre egy merev periodikus potenciál is hat. Ezt nevezik Frenkel-Kontorova-modellnek, és a díszlokációs szerkezetétől az összemérhetetlen rétegekből álló szerkezetek leírásáig már sokféle fizikai rendszerre alkalmazták. Az adott esetben az az új, hogy a rugók nem egyenlő hosszúak, hanem kétféle hosszúságú rugók keverékével kell számolni.
A modellből érdekes következtetéseket lehetett levonni a kétállapotú rendszerek spektrumára vonatkozóan. [1, 2]. Az egyszerű modellen túlmutató tanulság, hogy az alacsony hőmérsékleten (1 K körül) is mozgékony frusztrált atomok energiaviszonyait jelentősen befolyásolhatja az üvegesedés sokkal magasabb hőmérsékletén (többszáz K) befagyó, mechanikai feszültségeket okozó rendezetlenség, amelyet a modellben a rugók kétféle, kaotikus sorrendben váltakozó hosszúsága képvisel.
A folyadék-üveg átalakulás elmélete
Elegendően gyors lehűtéskor a folyadékok úgy szilárdulnak meg, hogy közben nincs idejük megtalálni a kristályos rendet, hanem üveggé válnak. Az “elegendően gyors" a hagyományos üvegképző anyagoknál (például nátronüveg) csak annyit jelent, hogy nem különlegesen lassú, fémüveg-ötvözeteknél viszont különleges gyorshűtési technikát követel meg.
A megszilárdulást az jelenti, hogy a hőmérséklet csökkenésével a viszkozitás óriási mértékben, tipikusan 14-15 nagyságrenddel megnő. A folyékony víz viszkozitása 10-3 Pa x s körüli; az üvegátalakulás pontjának hagyományosan azt a Tg hőmérsékletet tekintik, amelyen a viszkozitás eléri a 1012 Pa x s értéket. Ekkor az anyagon már száraz lábbal át lehet sétálni.
Ennek a jelenségnek a megértésére irányult az üvegekkel kapcsolatos legérdekesebb munkám. A probléma meglehetősen rossz hírben állt: a kemény ítéleteiről híres P.W. Anderson sikertelen elméletek gyűjteményének bélyegezte a létező próbálkozásokat.
Elég hamar eljutottam addig a felismerésig, hogy ketté kell választani a vizsgálandó hőmérsékleti tartományt. Körülbelül 1 Pa x s viszkozitásnál a folyadékban már megáll a kiskanál. Ennél nagyobb értékeknél alapjában véve igazat mondanak az ismert elméletek, még akkor is, ha részletek dolgában nem elég konkrétak: a viszkózus folyást valamilyen lokalizált hibahelyek mozgása határozza meg (mint kristályok képlékeny deformációját a diszlokációk); ennek a mozgásnak a lehetőségei fagynak be a hőmérséklet csökkenésével.
Ami igazán rejtélyes, az a kis viszkozitások tartománya: a folyékony víz vagy réz ugyanolyan homogén módon folyik, mint a sűrű gáz. Bennük ha keletkeznek is hibahely-szerű tartományok, azok hamarabb megsemmisülnek, mint hogy elmozdulhatnának. Ezért nehéz megérteni, hogy a hőmérséklet csökkenésével miért indul meg a viszkozitás rohamos növekedése, az üvegesedést előkészítő previtrifikáció.
A megoldáshoz [3-5] a spinüvegek egy rejtettebb tulajdonságának: az Edwards-Anderson-rendparaméternek a “valóságos" üvegekre való átvitele vezetett el. Ez a fogalom látható térbeli rend hiányában egy célszerűen megválasztott mennyiség időfüggéséhez kapcsolja az üvegszerű befagyást. Magas hőmérsékleten a spinüvegképző anyag még paramágneses; ilyenkor egy adott atom S spinje gyorsan és szabálytalanul változtatja irányát. Ha átlagolással (jele a csúcsos zárójel) képezzük az <S(0) S(t)> időbeli korrelációs függvényt, ez t= 0-ban felvett ‹(S(0))2› kezdeti értékéből hamarosan lecseng 0-ra, amint a spin “elfelejti" kezdeti irányát. A hőmérséklet csökkenésével az üvegszerű rendeződéshez közeledve azonban a lecsengés egyre lassabb. Végül elérve a spinüveg-állapotot, a spin végtelen hosszú ideig “emlékszik" kezdeti beállására. Ennek megfelelően a korrelációs függvény csak egy véges q határértékig csökken: ez a határérték az Edwards-Anderson-rendparaméter.
A folyadékok üvegesedésénél egy spin helyett az atomok pillanatnyi elhelyezkedésének egy hullámszerű ingadozását kell tekinteni. Folyadékban ezek a sűrűség-ingadozások keletkeznek és elmosódnak, üvegben viszont bármilyen sokáig megmaradnak befagyott állapotban. Ahogy a folyadék közeledik az üvegszerű állapothoz, a sűrűség-ingadozás időbeli korrelációs függvénye egyre lassabban cseng le.
A megoldás kulcsa az az észrevétel, hogy ennek a lassú lecsengésnek az üvegesedésben aktív szerep jut egy viszkozitás-visszacsatolási folyamat keretében:
A hőmérséklet csökkenésével a sűrűség nő, emiatt az atomi skálán durva felületek erősebben egymásba akaszkodnak és megnő a keltett sűrűséghullámok amplitúdója, ami erősíti a visszacsatolást. Ezt észleljük a viszkozitás megnövekedésében. Az elmélet azt jósolja, hogy az 1 Pa x s körüli határ közelében a rendszer “begerjed": a viszkozitás végtelen naggyá válik. Ebből azonban kibújik a rendszer: amint már említettem, alacsonyabb hőmérsékleten a nyíró deformáció hibahelyszerű tartományokba lokalizálódik és tovább biztosítja a folyást, most már egy másik atomi mechanizmussal.
A képhez még egy lényeges körülményt kell hozzátenni: a viszkozitás frekvenciafüggését. Ezt a lépést sajnos nem én tettem meg, hanem - egymástól többé-kevésbé függetlenül - Leutheusser és a Bengtzelius-Götze-Sjölander szerzőhármas. Ezzel a kiegészítéssel az elmélet az 1 Pa x s alatti previtrifikációs tartomány igen jó kvantitatív leírását adja meg, emiatt helyességét mostanában általánosan elismerik. Érvényessége a legtöbb üvegképző anyagra kiterjed, kivéve a SiO2 és néhány hasonló anyag (az úgynevezett erős üvegek) esetét, amelyekben magas hőmérsékleten is szigorúan koordinált amorf térháló alakul ki, megakadályozva a hidrodinamikai áramlás folyadékszerű atomi mechanizmusának működését.
Ideghálózatok fizikai modelljei
Az ideghálózatok matematikai modellezésében McCulloch és Pitts (1943) tette meg az első lépést. Szerintük az idegsejteket (neuronnkat) kétállapotú rendszereknek tekinthetjük (tüzelnek vagy hallgatnak), amelyek kibocsátott jeleit (1, ha tüzel; 0, ha hallgat) minden egyes neuron súlyozva összegezi, majd az eredményt egy küszöbértékkel összehasonlítva dönti el, hogy a következő pillanatban ő tüzeljen vagy hallgasson. A neuron által kapott jeleket összegező súlyok jellemzik a csatlakozások (szinapszisok) erősségét. Pozitív súly serkentő, negatív súly gátló szinapszisnak felel meg.
Hebb (1948) nyomán általánosan elfogadott nézet, hogy a tanulás és tartós memóriatárolás túlnyomóan - ha nem kizárólag - a szinapsziserősségek változtatásával történik. Ennek matematikai modellezésére a Hebb által kijelölt elvek felhasználásával számos “tanuló algoritmus" született.
A szilárdtest-fizikus John Hopfield munkája (1982) hívta fel a figyelmet arra, hogy ha a kétállapotú neuront felfelé vagy lefelé álló spinnek tekintjük, a serkentő illetve gátló szinapszist pedig ferromágneses illetve antiferromágneses csatolásnak, akkor többé-kevésbé egy spinüveg-modell áll előttünk. A mágneses anyagokban két spin egymásrahatását mindkét irányban ugyanaz a csatoláserősség jellemzi: a csatolás szimmetrikus. Ennek messzemenő következményei vannak: ezen múlik az energia, mint állapotfüggvény létezése, ami a szokványos statisztikus fizikai tárgyalás feltétele. Ezért Hopfield ezt a nem-biológiai szimmetriakikötést kirótta a róla elnevezett ideghálózat-modellre, és ezzel viharos fejlődésnek indította az ideghálózatok fizikailag motivált modellezését.
A témakör azóta is vonzza a rendezetlen anyagok, köztük a spinüvegek statisztikus fizikájával foglalkozó kutatókat, és lazán, de határozottan kapcsolódik a neurális számítástechnika nem kevésbé viharos fejlődésén fáradozó biológusok erőfeszítéseihez. A kapcsolat azért laza, mert a fizikusok azokat a modelleket szeretik, amelyek működését nemcsak látni lehet a számítógép képernyőjén, hanem részletesen meg is lehet érteni, ez pedig sokszor túlzott leegyszerűsítést kíván meg a modellezőtől, főként a biológiai rendszerekhez, de sokszor még a számítástechnikai termékekhez képest is.
Hopfield nevezetes eredménye, hogy az általa felépített hálózat egy Hebb-szabálynak nevezett egyszerű tanuló algoritmussal képes elraktározni a tüzelő és hallgató neuronnk által kirajzolt mintákba kódolt emlékképeket, majd azokat “asszociatív" módon, az emlékképre utaló részinformációból kiindulva felidézni. Az így tárolható véletlenszerű minták száma a neuronok számának 14 %-a; ha ennél több emléket akarunk tárolni, a memória összeomlik.
Első munkám ezen a területen egy kicsit eltérő tanuló algoritmus vizsgálata volt [6, 7], amely azt az eredményt hozta, hogy az így tanított Hopfield-hálózatban tárolható minták száma nem arányos a neuronnk számával; a mintaszám/neuronszám arány méretfüggő és egy optimális méretnél maximuma van.
Öt éven keresztül dolgoztam Pázmándi Ferenccel, aki diplomamunkáját, majd doktori értekezését készítette az ideghálózat-modellezések témaköréből. Munkánk egyik érdekes terméke a relatív stabilitás fontosságának felismerése volt [8-10]: ha különböző emlékképeket különböző erősséggel tanítunk meg egy hálózatnak, akkor előfordulhat, hogy egy gyengébb emlék önmagában véve még stabilan felidézhető lenne egy reá utaló részinformáció beadásával, de ha ez a részinformáció balszerencsésen az erősebb emlékre is hasonlít egy kicsit, akkor a felidézés ott fog kikötni. Felvetettük, hogy ennek az álom máig sem értett szerepéhez is lehet valami köze, ha például az álom arra való, hogy “a napok hordalékából" kirostálja a gyengesége alapján fölöslegesnek talált emlékeket.
A relatív stabilitás vizsgálata közben mélyére néztünk a memóriafelidézés dinamikájának, amelynek első, felületes megértését a Hopfield-féle szimmetriafeltétet megkönnyíti, de a részletek kidolgozását szörnyen elbonyolítják a szimmetrikus kötéseken örökösen visszhangzó jelek. Ezért - Derrida és munkatársai, majd Nadal és munkatársai nyomán - visszatértünk az aszimmetrikus kötéserősségű modellekhez. Egy egyszerű számítással illusztráltuk, hogy a hálózat komplexitásának szintjét miképpen lehet finoman hangolni egy minden neuronnak eljuttatott vezérlő jellel; feltehetően ilyen finomhangolás állítja be ébrenlétünk állapotát[9]. Egy bonyolultabb modellváltozatban a felidézés olyan mechanizmusait találtuk meg, amelyekben a hálózat csak átmenetileg időzik el az emlékkép közelében, esetleg kering körülötte [11].
Időközben egy könyvet is írtam az ideghálózatok fizikai modelljeiről [12],amely azt hiszem, ma is használható bevezetés a témakörbe, csak az általánosítás azóta felfutott nagy témájáról szóló, az akkori állapotnak megfelelő szűkszavú leíráshoz kell az olvasónak frissebb kiegészítést keresnie.
Bár a neuronhálózatokhoz az üvegek felől jutottam el, értelmetlen lett volna kizárni magamat és munkatársaimat abból az óriási fellendülésből, amely ezen a területen minden fizikai analógiától függetlenül az utóbbi években megindult. Az analógiák keresése persze egy fizikus gondolkozásából sohase zárható ki, azonban üvegről ezekben a fejleményekben már nincs szó.
Az utóbbi időkben elég sokat foglalkoztam Kohonen két neuronhálózat-modelljével: a “topologikus leképezéssel" és a “tanuló vektorkvantálással". Ezekben az érdekes modellekben a neuronnk versengnek azért, hogy melyikük válaszolhasson egy bejövő jelre. Ha megnézzük, melyik neuron volt a nyertes, abból tömörített információt kapunk arról, hogy milyen volt a jel. Ebben a munkában sokat segített diplomamunkásként, majd doktori ösztöndíjasként Csabai István. Az eredmények a topologikus leképezés egydimenziós [12, 13, 17] és kétdimenziós [13] változatának dinamikájára, valamint a tanuló vektorkvantálás egy javított változatának kidolgozására [15, 16] irányul. Ez utóbbiban arra tanítjuk meg a hálózatot, hogy ismerje fel, milyen bejövő jeleket nem érdemes megtanulni.
A neuronhálózatok legfontosabb számítástechnikai felhasználása egyes osztályozási feladatok megoldása, példákból való tanulás alapján. Ebbe is belekóstoltunk egy fehérje-osztályozási feladat kapcsán [14]. A neurális számítástechnika mára jól körülhatárolt szakma lett, és úgy tűnik, ezt a szakmát az ELTE Atomfizikai Tanszékén meg lehet tanulni.
A szerző publikációi a cikk tárgykörében
__________________________
* Megjelent az Eötvös-napi füzetek 2. számában Budapest, 1992. A szerző és a kiadó engedélyével közöljük. Geszti Tamás az előadást az Eötvös Egyetem természettudományi díjának átvételekor tartotta.