Kis adat nagy számításigényű feladata például képek tartalom alapú
osztályozása, nagyon nagy adat feldolgozását jelenti például Internet
archívumok anyagából jellemzők kinyerése. Miközben az előbbi feladatokat
grafikus koprocesszorok, az utóbbiakat pedig nagy diszk sávszélességgel
rendelkező számítógép-klaszterek és például a MapReduce paradigma
segítségével hajthatjuk végre, a nagyon nagy adatok komplex elemzése
speciális, egyedi rendszereket igényel. Ilyen feladat hálózatba
szerveződött nagy adatok elemzése, amelyekre példa az emberi viselkedés,
a közlekedés, a közösségi média. Az előadásomban bemutatom a MTA SZTAKI
Big Data - Lendület csoport által kialakított hardver-szoftver
infrastruktúrát, amelyet a hálózatok, az online média, és az
informatikai rendszerek eseményeinek elemzésére alakítottunk ki, és
összehasonlítom a MapReduce paradigmán túllépő rendszerek, a GraphLab a
Stratosphere, és az adatfolyamok kezelésének lehetőségeit.