Pojęcie Big Data od jakiegoś czasu robi oszałamiającą karierę w informatyce, ekonomii, polityce czy naukach społecznych. Mówi się i pisze o danych wielkoskalowych, gigadanych, smartdanych, o Big Data. Ale co to właściwe jest? Najprościej to wyjaśnić, odwołując się do bardzo popularnego w tym kontekście modelu 4V:
Volume,
Velocity,
Variety,
Veracity.
Volume czyli wielkość, wolumen danych. Danych jest dużo, bardzo dużo. To giga-, tera-, peta-, eksa-, zettabajty danych. Według prognoz International Data Corporation[1] do 2025 r. wyprodukujemy 163 zettabajty danych, czyli 163 miliardy terabajtów danych. To wielkość, która potrafi przyprawić o zawrót głowy.
Velocity oznacza szybkość/zmienność. W tym wypadku odnosi się przede wszystkim do szybkości, z jaką przyrastają dane. Lori Lewis[2] i Chadd Callahan[3] z Cumulus Media co roku prezentują grafikę, która obrazuje ile dzieje się w Internecie w ciągu jednej minuty. Prognozują, że w 2018 roku co minutę do Google wpada 3,7 miliona zapytań, wysyłane jest 38 milionów wiadomości na WhatsApp czy 187 milionów e-maili, a na Snapchacie pojawia się 2,4 miliona snapów. Tak gwałtowny przyrost danych oznacza również, że część z nich niezwykle szybko się starzeje i traci na aktualności. Trzeba się spieszyć więc z analizami, by te miały jakąkolwiek wartość. Bo to, co ważne dziś, jutro może być już prehistorią.
Variety to różnorodność danych. Dane pochodzą z różnych źródeł: z Internetu i social media, z systemów transakcyjnych, z systemów CRM i obsługi klienta, z dokumentów, jakie każdego dnia generują urzędy i przedsiębiorstwa, z czujników i sensorów maszyn itd. Dane te mają też zazwyczaj bardzo różny format, co stanowi dodatkowe wyzwanie. Bo nam zależy na tym, by móc je analizować razem, za jednym zamachem – tylko wtedy mogą nam powiedzieć coś zaskakującego, nieoczywistego i nowego.
Veracity oznacza wiarygodność. Skoro danych jest tak dużo, tak szybko przyrastają i zmieniają się, a do tego mają różne formaty i pochodzą z różnych źródeł, to skąd możemy wiedzieć, że można im ufać? Tu z pomocą przychodzą odpowiednie techniki analityczne, odmienne od klasycznej statystyki i prostego liczenia średniej. To analizy, które potrafią radzić sobie z dużą ilością danych i wydobyć z nich rzetelne informacje. Poza tym, bardzo często sama skala Big Data daje gwarancje wiarygodności – bo mamy dane o wszystkich jednostkach (produktach, usługach, ludziach), a nie tylko o części z nich.
Big Data to więc coś więcej niż dane. To nowy sposób myślenia o danych, nowe metody i technologie, nowe techniki analityczne, które potrafią radzić sobie z pobieraniem, gromadzeniem, organizowaniem, przetwarzaniem i analizowaniem naprawdę dużych ilości bardzo różnorodnych danych.
Tagi: Big Data, model 4V, wiedza