Nagyméretű adatbázisok bevezetés

Összefoglalás

Ebből az olvasóleckéből megtudhatjuk, mit is értünk pontosan a Big Data fogalma alatt. Megismerjük azokat a jellemzőket, amik megkülönböztetik a hagyományos módszerekkel feldolgozható adatokat a valóban hatalmas, dedikált módszereket igénylő Big Data forrásoktól. Áttekintést kap az olvasó arról, hol keletkezik Big Data, illetve arról, hogy milyen haszonnal jár ezen hatalmas adathalmazok feldolgozása. Valamint megismerjük a Big Data adatok három alapvető típusát is.
A lecke fejezetei:
  • 1. fejezet: Big Data fogalma, hatalmas mennyiségű adatok forrásai (olvasó)
  • 2. fejezet: Big Data jellemzői: a 4V (olvasó)
  • 3. fejezet: Big Data adatok típusai (olvasó)
Téma típusa: elméleti
Olvasási idő: 50 perc

 

Book to read, knowledge, lecture, open book, reading book icon 1. fejezet
Nagyméretű adatok, vagyis Big Data

A "Big Data" kifejezés igen népszerűvé vált napjainkra, amikoris hatalmas mennyiségben keletkeznek adatok nap mint nap, óráról órára, vagy akár percről percre. Hogyan keletkeznek ezek az adatok? Néhány példa:

Elsőre azonban nem feltétlenül világos, hogy miért kellene máshogy kezelnünk az ilyen nagy méretű adatokat, és miért nem dolgozzuk fel őket a hagyományos módon. Ilyen hatalmas mennyiségű adat nem tárolható a megszokott módon, pl. nem fér el egy gépen, egy adatbázisban, nem tölthető be memóriába, feldolgozása rengeteg időt venne igénybe, stb. Más módszerek és megközelítés kell, elosztott adattárolás, párhuzamosított feldolgozás, stb.

Big Data feldolgozásának előnyei

Ha olyan nagy kihívás és teljesen új technológiát igényel, mi haszna pontosan a Big Data feldolgozásának? A hatalmas méretű adathalmazok feldolgozása számos haszonnal járhat, néhány ezek közül:

Book to read, knowledge, lecture, open book, reading book icon 2. fejezet
Big Data "definíciója", a 4V jellemző

Természetesen a Big Data definiálása korántsem egyszerű. Ami egy kisebb cégnek már Big Data (pl. 10 TB), egy hatalmas cégnek lehet teljesen hagyományos mennyiségű adat. A határvonal nem éles a hagyományos és Big Data között. Ráadásul, egy adathalmaz kizárólag a mérete miatt még nem minősül Big Data-nak. Kezdetben 3 alapvető tulajdonsággal jellemezték a Big Data-t (mivel mind V betűvel kezdődik angolul, ez lett a 3V), amihez folyamatosan újabb V-k adódtak hozzá (jelenleg a 4V és az 5V a meghatározó, de van sokkal több V is).

Ezek pedig a következők:

Leggyakoribb kiegészítése ezeknek az 5. V, a Value. Egy hatalmas adat akkor értékes, ha abból valami üzletileg hasznos információt ki tudunk nyerni. Amennyiben egy adathalmaz ezzel a tulajdonsággal nem rendelkezik, Big Data eszközökkel történő feldolgozása hiábavaló technikai bravúr marad.

Ezek után kicsit precízebben definiálhatjuk mi is az a Big Data. Az olyan adatot, amelyik nagy méretű (high volume), gyorsan gyarapodik (high velocity) és nagyon heterogén az összetétele (high variety) fejlett eszközökkel és módszerekkel tudjuk csak feldolgozni, hogy értékes információt nyerjünk ki belőle. Az adat fenti jellemzői miatt azt területet, ami ezen adathalmazok tárolásával, feldolgozásával és elemzésével foglalkozik Big Data-nak nevezzük.

Egy a Gartner által használt definíció a következő:

Book to read, knowledge, lecture, open book, reading book icon 3. fejezet
Big Data adatok típusai

Most hogy sikerült definiálnunk mit értünk Big Data alatt, nézzük meg, hogy milyen típusai lehetnek:

Strukturált adatok

Az olyan adatokat nevezzük strukturáltnak, melyek egy előre ismert, fix formátum alapján érhetők el, tárolhatók és dolgozhatók fel. Teljesen rendszerezett információ, amely minden komolyabb erőfeszítés nélkül betölthető és feldolgozható programok által. Azonban a strukturált adatok mérete is olyan sebességgel nő, hogy napjainkban már zettabájtos nagyságrendekről beszélhetünk, aminek kezelése túlmutat a hagyományos megközelítésen. Tipikus példa strukturált adatokra a relációs adatbázisokban tárolt adat (előre definiált mezőkkel rendelkező táblázatokba rendezett rekordok).

Egy példa ilyen strukturált adatra az alábbi munkavállalókat leíró táblázat:

Employee_IDEmployee_NameGenderDepartmentSalary
2365Rajesh KulkarniMaleFinance650000
3398Pratibha JoshiFemaleAdmin650000
7465Shushil RoyMaleAdmin500000
7500Shubhojit DasMaleFinance500000
7699Priya SaneFemaleFinance550000

Nem strukturált adatok

Minden adat, aminek a formátuma/struktúrája ismeretlen nem strukturált adatnak minősül. Az ilyen adatok esetében a hatalmas adatmennyiség mellett azok feldolgozása és belőlük értékes információ kinyerése önmagában is komoly kihívás. Tipikus nem strukturált adatok például a képek/videók, social media bejegyzések, e-mail üzenetek, stb.

Egy példa nem strukturált adatra az alábbi Google keresés eredménye:

Részben strukturált adatok

Azon adatok, amelyek nem esnek a fenti két kategória egyikébe sem egyértelműen, részben strukturált adatnak minősülnek. Az ilyen adatok ugyan nem rendelkeznek formális adat struktúra leírással, mégis tartalmaznak olyan meta-információt az adatelemekhez (pl. címkék, leírók), amelyek segítenek a rekordok csoportosításában, feldolgozásában. Azaz alapvetően strukturált adatokról beszélünk, de a struktúrájuk nincs explicit módon megadva, mint pl. egy relációs adattábla definíció (viszont jó eséllyel a megfelelő adatfeldolgozási minták kikövetkeztethetők). Az olyan adatok is részben strukturáltnak minősülnek, melyek strukturált és nem strukturált elemeket is tartalmaznak vegyesen.

Egy példa részben strukturált adatra a következő XML részlet (az egyes XML elemek tartalma, például a név nem strukturált):

Adatok eloszlása típusuk szerint

Ha valaki azon tűnődik, vajon milyen arányban fordul elő strukturált és nem strukturált adat a világban, az alábbi ábra igazán szemléletes lehet:

Jól látható, hogy tíz évvel ezelőtt egyértelműen a strukturált adatok domináltak, ami szépen lassan átbillent a nem strukturált adatok felé, miközben a teljes adatmennyiség volumene is töredéke volt a mainak. Napjainkban sokkal több nagy adatforrás nem strukturált, mint strukturált (pl. web alkalmazások napló fájljai, tranzakció történet fájlok). Ez az arány az előrejelzések szerint még markánsabban el fog tolódni a nem strukturált adatok irányába.

Check mark icon set. Green OK or V tick, red X, exclamation mark ...Ellenőrző kérdések

  1. Mik a Big Data alapvető jellemzői? Mitől lesz egy nagyméretű adathalmaz Big Data?
  2. Sorolj fel néhány olyan alkalmazást, amelyek tipikus forrásai Big Data adathalmazoknak!
  3. Miért kíván a hagyományostól eltérő megközelítést, módszereket és eszközöket a Big Data feldolgozása?
  4. Mik a Big Data feldolgozásának lehetséges előnyei?
  5. Milyen típusú adatok lehetnek egy Big Data adathalmazban? Példákat is mondj rájuk!

Önellenőrző quiz: https://forms.gle/NdZ1boPQJcudr6yG9

Referenciák

[1] https://www.guru99.com/what-is-big-data.html#3

[2] https://github.com/AlessandroCorradini/University-of-California-San-Diego-Big-Data-Specialization

[3] https://gist.github.com/wagnerjgoncalves/35a51f7a8e9f87db929c6d789d1d97ed

[4] https://www.upgrad.com/blog/what-is-big-data-types-characteristics-benefits-and-examples/

[5] https://www.bbva.com/en/five-vs-big-data/