Маленька історія великих даних

У 2015 році аналітична компанія Gartner вилучила Big Data зі своєї діаграми Gartner Hype Cycle, пояснивши це рішення тим, що ці технології перестали бути «hype» і стали нормою для корпоративного ІТ. Один із аналітиків сказав: «сьогодні всі дані — великі». Це хороший час згадати, з чого все починалось, як розвивались і до чого дійшло у світі Big Data.

Двадцять років тому молодий аспірант Стефорду Ларі Пейдж, розмірковуючи над проблемою якісного пошуку в Інтернеті, задався питанням: а що, як з метою визначення якості веб-сторінки і ранжування її в результатах пошукового запиту розглядати весь Інтернет як єдине ціле, а не кожну сторінку окремо? Що, якщо визначати якість контенту не шляхом аналізу тексту, а відповідно до того, хто і скільки разів на цю сторінку послався?

Так з’явився алгоритм PageRank. Ідея, яка сьогодні здається нам очевидною, на той час була революційною. Ларі Пейдж разом зі своїм університетським приятелем Сергієм Бріном створили компанію Google з метою побудувати пошукову систему на основі нового алгоритму.

З самого початку Google зіткнувся із серйозною проблемою: для роботи PageRank необхідно було в прямому сенсі цього слова завантажити весь Інтернет. Але технології, доступні в ті часи, не були пристосовані для таких задач. Існуючі бази даних і обчислювальні системи не були здатні ані зберегти таку величезну кількість даних, ані, тим паче, виконувати на них обрахунки.

Google мусив починати все спочатку: розробити такий спосіб зберігання інформації і роботи з нею, який дозволяв би порахувати посилання для кожної зі сторінок у всьому Інтернеті. Інженери компанії справилися із задачею. Результатом їхньої роботи стала база даних Bigtable та алгоритмічний фреймворк паралельних обчислень MapReduce.

На початку, окрім Інтернету, у світі не існувало інших дуже великих джерел даних у цифровому форматі. Нечисельні Інтернет-компанії стикалися з тими самими проблемами, що і Google, але саме Google був першим, хто відкрив свої напрацювання щодо зберігання і обробки великих масивів даних для широкої публіки, значною мірою визначивши напрямок розвитку індустрії.

Тоді ж, на початку 2000-х, інформатизація почала активно проникати у всі області бізнесу та людського життя. Цифрові верстати на заводах, цифрові системи управління технікою, цифрові системи обліку та управління організаціями, зрештою, навіть смартфони і планшети з купою датчиків, — все це генерує величезну кількість даних в цифровому форматі. Але самої можливості генерувати дані недостатньо для того, щоб вони могли приносити користь. Їх необхідно зберігати та виконувати над ним обчислення. Величезна кількість компаній, які раніше не мали клопоту з даними, опинилися у тій самій ситуації, що і Google, коли потрібно було скачати Інтернет.

Нові компанії пішли торованим шляхом і використали відкриті раніше напрацювання Google для вирішення своїх проблем. Ідея Bigtable лягла в основу безкоштовної бази даних HBase, а фреймворк MapReduce було імплементовано у величезній кількості комерційних та безкоштовних платформ.

Коли власні технології компанії стають де-факто стандартом індустрії, та отримує значні переваги в бізнесі: тепер вона може наймати ззовні людей, що вже знаються на її технологіях, віддавати спільноті частину роботи над їх вдосконаленням або підтримці та використовувати напрацювання спільноти для вдосконалення власних продуктів. Саме тому шляхом Google пішли і інші компанії та спільноти, відкривши свої розробки і подарувавши нам Hive, Pig, Spark та інші. Саме ці технологічні рішення, фреймворки і платформи, разом з Hadoop і багатьма іншими, і стали тим, що інженерний світ знає сьогодні під іменем Big Data.

Проте, сам факт можливості зберігати дані і робити над ними обчислення ще не дає конкурентної переваги. Наступний крок: зрозуміти, які саме обчислення потрібно робити. На цьому етапі на перший план виходить Data Science як аналітика даних з метою вирішення бізнес-проблем. Сьогодні Data Science дуже популярний, але все ще слабо формалізований вид діяльності. Різні компанії вкладають різне розуміння у терміни Data Science і data scientist, але всіх їх об’єднує одне: використання даних з метою отримання конкурентних переваг.

Data scientists часто використовують напрацювання інженерів в Big Data, працюють з ним разом або мають певну кваліфікацію в Big Data технологіях, яка, звісно, поступається кваліфікації Big Data інженерів. Data scientists використовують дані, що зберігаються з використанням Big Data, для побудови аналітичних, статстичних, data mining та machine learning моделей, які здатні відповідати на питання: «що сталося», «чому це сталося», «що станеться» та «що мені далі з цим робити». У 2012 році Harvard Business Review назвав data scientists «the sexiest job of the 21st century».

Еволюція від появи великої кількості даних в цифровому форматі, через технології їхнього зберігання та обчислення і до математичних інструментів аналізу цих даних і призвела до трансформації компаній та життя в сторону аналітичних продуктів та рішень, яку ми бачимо сьогодні.

А що ж з Big Data? Чи означає зникнення з Gartner Hype Cycle діаграми те, що Big Data більше не існує, що вона мертва?

Звісно, ні. Навпаки, це означає, що ці технології зайняли своє місце серед інших в ІТ світі, що їхні користь беззаперечна і що вони пройшли випробування реальним світом, реальними проектами і реальними проблемами.

→ Фото автора — Джерело / Головне фото — Джерело