Технология больших данных и примеры ее применения. Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел. Технологии Больших Данных

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

VVV или VVVVV

Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Важно . Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

  • интернет-документы;
  • блоги и социальные сети;
  • аудио/видео источники;
  • измерительные устройства;

Есть характеристики, которые позволяют отнести информацию и данные именно к big data.

То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

  1. Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
  2. Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
  3. Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity - достоверность/правдоподобность данных) и даже пятую V (в некоторых вариантах это - viability - жизнеспособность, в других же это - value - ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

Кому же это надо?

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.

Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

  1. Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.

    Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;

  2. Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
  3. Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.

Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

  • Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
  • Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
  • Узнать новую информацию о своих клиентах.

И именно потому что технология big data дает следующие результаты, все с ней и носятся.

Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

  1. Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
  2. Поиск популярных товаров и причин почему их покупают (и наоборот);
  3. Усовершенствование продукта или услуги;
  4. Улучшение уровня обслуживания;
  5. Повышение лояльности и клиентоориентированности;
  6. Предупреждение мошенничества (больше актуально для банковской сферы);
  7. Снижение лишних расходов.

Самый распространенный пример, который приводится во всех источниках - это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

Идём в будущее

Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

Это Илон Маск и его компания Tesla. Его главная мечта - сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и... засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

  1. В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.

    Всю - это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;

  2. Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
  3. На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.

К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

https://youtu.be/lc2ZVUZ6kno

Но... Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

Применение в России

Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.

Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и... государственный сектор.

Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

Банки

Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

  1. Сбербанк;
  2. Газпромбанк;
  3. ВТБ 24;
  4. Альфа Банк;
  5. Тинькофф банк.

Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.

Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?

Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

https://youtu.be/XHMaD5HAvfk

Недвижимость

В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

  1. Большой объем текстовой документации;
  2. Открытые источники (частные спутники, передающие данные об изменениях земли);
  3. Огромный объем неконтролируемой информации в Интернет;
  4. Постоянные изменения в источниках и данных.

И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

Ну и на закуску

Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

А программное обеспечение, которое структурирует и анализирует данные - это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

  • Hadoop & MapReduce;
  • NoSQL базы данных;
  • Инструменты класса Data Discovery.

Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?

То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.

Инструмент Биг дата

Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

Коротко о главном

Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?

На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.

Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.

И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний - обязательно.

Big data, или большие данные, - понятие, используемое в информационных технологиях и сфере маркетинга. Термин «большие данные» применяется для определения анализа и управления значительными массивами. Таким образом, big data - это та информация, которая за счет своих больших объемов не может быть обработана традиционными способами.

Современную жизнь невозможно представить без цифровых технологий. Мировые хранилища данных пополняются непрерывно, и поэтому также непрерывно приходится изменять как условия хранения информации, так и искать новые способы увеличения объема ее носителей. Исходя из экспертного мнения, увеличение big data и увеличение скорости роста - это нынешние реалии. Как уже говорилось, информация появляется безостановочно. Огромные ее объемы генерируются информационными сайтами, различными сервисами обмена файлами и социальными сетями, однако это лишь малая часть от всего производимого объема.

IDC Digital Universe после проведения исследования заявили, что в течение 5 лет объем данных в целом на всей Земле достигнет сорока зеттабайтов. Это значит, что на каждого человека на планете придется 5200 Гб информации.

Лучшая статья месяца

Заканчивается первое полугодие 2018 года — пора подводить промежуточные итоги. Даже если коммерческие показатели компании выросли по сравнению с прошлым периодом, убедитесь, нет ли скрытых сложностей в работе компании, которые могут принести неприятности.

Чтобы диагностировать проблемы, заполните чек-листы из нашей статьи и узнайте, на какую сторону бизнеса обратить внимание.

Общеизвестно, что люди не являются главным производителем информации. Основной источник, который приносит информационные данные, - это роботы, которые непрерывно взаимодействуют. В их число входят операционная система компьютеров, планшетов и мобильных телефонов, интеллектуальные системы, средства для мониторинга, системы наблюдения и прочее. В совокупности они задают стремительную скорость увеличения количества данных, а значит, потребность в создании как реальных, так и виртуальных серверов увеличивается. В совокупности это ведет к расширению и внедрению новых data-центров.

Чаще всего большие данные определяются как информация, которая объемом превышает жесткий диск ПК, а также не может быть обработана традиционными методами, которые используются при обработке и анализе информации с меньшим объемом.

Если обобщить, то технология обработки big data сводится в конечном итоге к 3 основным направлениям, которые, в свою очередь, решают 3 типа задач:

  1. Хранение и управление огромными объемами данных - их размеры доходят до сотен терабайтов и петабайтов, - которые реляционные базы данных не позволяют эффективно использовать.
  2. Организация неструктурированной информации - тексты, изображения, видео и другие типы данных.
  3. Анализ big data (big data analytics) - здесь рассматриваются и способы работы с неструктурированной информацией, и создание отчетов аналитических данных, и введение прогностических моделей.

Рынок проектов big data тесно взаимосвязан с рынком ВА - бизнес-аналитики, объем которого за 2012 год составил около 100 млрд долларов, и включающим в себя сетевые технологии, программное обеспечение, технические услуги и серверы.

Автоматизация деятельности компании, в частности решения класса гарантирования доходов (RA), также неразрывно связана с использованием технологий big data. На сегодняшний день системы в этой сфере содержат инструменты, которые используются для обнаружения несоответствий и для углубленного анализа данных, а также позволяют выявить возможные потери либо неточности в информации, которые могут привести к снижению результатов сектора.

Российские компании подтверждают, что спрос на технологии больших данных big data есть, отдельно отмечают то, что основные факторы, влияющие на развитие big data в России, - это увеличение объема данных, быстрое принятие управленческих решений и повышение их качества.

Какую роль играет big data в маркетинге

Не секрет, что информация - это одна из главных составляющих удачного прогнозирования и разработки маркетинговой стратегии, если уметь ей пользоваться.

Анализ больших данных является незаменимым при определении целевой аудитории, ее интересов и активности. Иными словами, умелое применение big data позволяет точно предсказывать развитие компании.

Используя, например, известную модель RTB-аукциона, с помощью анализа больших данных легко сделать так, что реклама будет выводиться только для тех потенциальных покупателей, которые заинтересованы в приобретении услуги или товара.

Применение big data в маркетинге:

  1. Позволяет узнать потенциальных покупателей и привлечь соответствующую аудиторию в интернете.
  2. Способствует оценке степени удовлетворенности.
  3. Помогает соотносить предлагаемый сервис с потребностями покупателя.
  4. Облегчает поиск и внедрение новых методов увеличения лояльности клиента.
  5. Упрощает создание проектов, которые впоследствии будут пользоваться спросом.

Частный пример - сервис Google.trends. С его помощью маркетолог сможет выявить прогноз на сезон касательно того или иного продукта, географию кликов и колебания. Таким образом, сравнив полученную информацию со статистикой собственного сайта, достаточно легко составить рекламный бюджет с указанием региона и месяца.

  • Распределение рекламного бюджета: на что стоит потратиться
  • l&g t;

    Как и где хранить большие данные big data

    Файловая система - именно здесь big data и организуются, и хранятся. Вся информация находится на большом количестве жестких дисков на ПК.

    «Карта» - map - отслеживает, где непосредственно хранится каждая часть информации.

    Для того чтобы застраховаться от непредвиденных обстоятельств, каждую из частей информации принято сохранять по несколько раз - рекомендуется делать это трижды .

    Например, после сбора индивидуальных транзакций в розничной сети вся информация о каждой отдельной транзакции будет храниться на нескольких серверах и жестких дисках, а «карта» будет индексировать местоположение файла по каждой конкретной сделке.

    Для того чтобы организовать хранение данных в больших объемах, можно использовать стандартное техническое оснащение и программное обеспечение, находящееся в открытом доступе (к примеру, Hadoop).

    Большие данные и бизнес-аналитика: разность понятий

    На сегодняшний день бизнес-анализ представляет собой описательный процесс результатов, которые были достигнуты за отдельный временной период. Действующая же скорость на обработку big data делает анализ предсказательным. На его рекомендации можно опираться в будущем. Технологии big data дают возможность анализа большего количества типов данных сравнительно со средствами и инструментами, используемыми в бизнес-аналитике. Это позволяет не только сосредоточиться на хранилищах, где данные структурированы, а использовать значительно более широкие ресурсы.

    Бизнес-аналитика и big data во многом схожи, однако имеются следующие отличия:

    • Big data используются для обработки объема информации, значительно большего, по сравнению с бизнес-аналитикой, что определяет само понятие big data.
    • При помощи big data можно обрабатывать быстро получаемые и меняющиеся данные, что обуславливает интерактивность, т. е. в большинстве случаев скорость загрузки веб-страницы меньше, чем скорость формирования результатов.
    • Big data могут использоваться при обработке не имеющих структуры данных, работу с которыми следует начинать, только обеспечив их хранение и сбор. Кроме того, необходимо применять алгоритмы, способные выявить основные закономерности в созданных массивах.

    Процесс бизнес-аналитики мало схож с работой big data. Как правило, бизнес-аналитике свойственно получать результат путем сложения конкретных значений: в качестве примера можно назвать годовой объем по продажам, рассчитанный как сумма всех оплаченных счетов. В процессе работы с big data расчет происходит путем поэтапного построения модели:

    • выдвижение гипотезы;
    • построение статической, визуальной и семантической модели;
    • проверка верности гипотезы на основании указанных моделей;
    • выдвижение следующей гипотезы.

    Для проведения полного цикла исследования необходимо интерпретировать визуальные значения (интерактивные запросы на основе знаний). Также можно разработать адаптивный алгоритм машинного обучения.

    Мнение эксперта

    Нельзя слепо полагаться только на мнения аналитиков

    Вячеслав Назаров,

    генеральный директор российского представительства компании Archos, Москва

    Около года назад, опираясь на мнение экспертов, мы выпустили на рынок абсолютно новый планшет, игровую консоль. Компактность и достаточная техническая мощность нашли свое признание в кругу поклонников компьютерных игр. Следует отметить, что эта группа, несмотря на свою «узкость», имела достаточно высокую покупательную способность. Сначала новинка собрала много положительных отзывов в СМИ и получила одобрительную оценку от наших партнеров. Тем не менее, вскоре выяснилось, что продажи планшета достаточно низки. Решение так и не нашло своей массовой популярности.

    Ошибка . Наша недоработка состояла в том, что интересы целевой аудитории не были изучены до конца. Пользователям, предпочитающим играть на планшете, не требуется суперграфика, поскольку они играют в основном в простые игры. Серьезные же геймеры уже привыкли к игре на компьютере на более совершенных платформах. Массированная реклама нашего продукта отсутствовала, маркетинговая кампания также была слабой, и в конечном итоге, планшет не нашел своего покупателя ни в одной из указанных групп.

    Последствия . Производство продукта пришлось сократить почти на 40 % по сравнению с первоначально запланированными объемами. Конечно, больших убытков не было, равно как и планируемой прибыли. Однако это заставило нас откорректировать некоторые стратегические задачи. Самое ценное, что было нами безвозвратно потеряно - это наше время.

    Советы . Мыслить нужно перспективно. Продуктовые линейки необходимо просчитывать вперед на два-три шага. Что это значит? При запуске некоторого модельного ряда сегодня желательно понимать его судьбу завтра и иметь хотя бы приблизительную картину того, что будет с ним через год-полтора. Конечно, полная детализация маловероятна, но базовый план все же должен быть составлен.

    И еще не стоит целиком и полностью доверяться аналитикам. Оценки экспертов надо соизмерять с собственными статистическими данными, а также с оперативной обстановкой на рынке. Если ваш продукт доработан не до конца, не следует его выпускать на рынок, поскольку для покупателя первое впечатление - самое важное, и потом переубедить его будет задачей нелегкой.

    Очень важный совет на случай неудачи - быстрота принятия решения. Категорически нельзя просто наблюдать и выжидать. Решить проблему по горячим следам всегда гораздо проще и дешевле, чем устранять запущенную.

    Какие проблемы создает система big data

    Существуют три основные группы проблем систем big data, которые в иностранной литературе объединены в 3V - Volume, Velocity и Variety, то есть:

  1. Объем.
  2. Скорость обработки.
  3. Неструктурированность.

Вопрос о хранении больших объемов информации сопряжен с необходимостью организации определенных условий, то есть с созданием пространства и возможностей. Что касается скорости, то она связана не столько с замедлениями и торможениями при использовании устаревших методов обработки, сколько с интерактивностью: результат тем продуктивнее, чем быстрее идет процесс обработки информации.

  1. Проблема неструктурированности исходит из раздельности источников, их формата и качества. Для успешного объединения и обработки big data требуется и работа по их подготовке, и аналитические инструменты или системы.
  2. Большое влияние оказывает и предел «величины» данных. Определить величину достаточно сложно, а исходя из этого - проблематично просчитать, какие потребуются финансовые вложения и какие будут необходимы технологии. Тем не менее, для определенных величин, например, терабайт, на сегодняшний день успешно применяются новые методы обработки, которые постоянно совершенствуются.
  3. Отсутствие общепринятых принципов работы с big data - еще одна проблема, которая осложняется вышеупомянутой неоднородностью потоков. Для решения этой проблемы создаются новые методы анализа big data. Исходя из утверждений представителей университетов Нью-Йорка, Вашингтона и Калифорнии, не за горами создание отдельной дисциплины и даже науки big data. Это и является главной причиной того, что в компаниях не спешат вводить проекты, связанные с большими данными. Еще один фактор - высокая стоимость.
  4. Трудности также вызывают подбор данных для анализа и алгоритм действий. На сегодняшний день отсутствует какое-либо понимание того, какие данные несут ценную информацию и требуют аналитики big data, а какие можно не принимать в расчет. В этой ситуации становится ясно и еще одно - на рынке недостаточно профессионалов отрасли, которые справятся с глубинным анализом, сделают отчет о решении задачи и, соответственно, тем самым принесут прибыль.
  5. Есть и моральная сторона вопроса: отличается ли сбор данных без ведома пользователя от грубого вторжения в частную жизнь? Стоит отметить, что сбор данных улучшает качество жизни: например, непрерывный сбор данных в системах Google и Яндекс помогает компаниям улучшать свои сервисы в зависимости от потребностей потребителей. Системы этих сервисов отмечают каждый клик пользователя, его местоположение и посещаемые сайты, все сообщения и покупки - и все это дает возможность демонстрации рекламы, исходя из поведения пользователя. Пользователь не давал своего согласия на сбор данных: такой выбор предоставлен не был. Из этого следует следующая проблема: насколько безопасно хранится информация? К примеру, сведения о потенциальных покупателях, история их покупок и переходов на различные сайты может помочь решить многие бизнес-задачи, но является ли платформа, которой пользуются покупатели, безопасной - это очень спорный вопрос. Многие апеллируют к тому, что на сегодняшний день ни одно хранилище данных - даже сервера военных служб - не защищено в достаточной степени от атак хакеров.
  • Коммерческая тайна: защита и меры наказания за разглашение

Поэтапное использование big data

Этап 1. Технологическое внедрение компании в стратегический проект.

В задачи технических специалистов входит предварительная проработка концепции развития: анализ путей развития направлений, которым это больше всего необходимо.

Для определения состава и задач проводится разговор с заказчиками, в результате чего анализируются требуемые ресурсы. Параллельно организация принимает решение об отдаче всех задач полностью на аутсорсинг или о создании гибридной команды, состоящей из специалистов этой и любых других организаций.

По статистике большое количество компаний пользуются именно такой схемой: наличие команды экспертов внутри, контролирующих качество выполнения работ и формирования движения, и снаружи, реализующей непосредственную проверку гипотез о развитии какого-либо направления.

Этап 2. Поиск инженера-исследователя данных.

Руководитель собирает штат рабочих коллегиально. Он же отвечает за развитие проекта. Сотрудники HR-службы играют непосредственную роль в создании внутренней команды.

В первую очередь такой команде необходим инженер-аналитик данных, он же data scientist , который будет заниматься задачей формирования гипотез и анализа массива информации. Обозначенные им корреляции будут в будущем использоваться для основания новой продукции и сервисов.

Особенно на начальных этапах важна задача HR-отдела . Его сотрудники решают, кто именно будет выполнять работу, направленную на развитие проекта, где его взять и каким образом придать мотивации. Инженера-аналитика данных найти не так просто, поэтому это «штучный продукт».

В каждой серьезной компании обязан находиться специалист такого профиля, в противном случае теряется фокус проекта. Инженер-аналитик в совокупности: разработчик, аналитик и бизнес-аналитик. Помимо этого, он должен обладать коммуникабельностью для показа результатов своей деятельности и багажом знаний и умений для детального разъяснения своих мыслей.

  • 24 мысли, с которых начинаются большие перемены в жизни

Примеры поиска

1. В Москве была организована такси-компания «Big Data». По ходу маршрута пассажиры отвечали на задачи из области профессиональной аналитики. В том случае, когда пассажир отвечал на большинство вопросов верно, компания предлагала ему место на работе. Основным недостатком такой техники подбора персонала является нежелание большинства участвовать в такого рода проектах. На собеседование согласилось лишь несколько человек.

2. Проведение специального конкурса по бизнес-аналитике с каким-то призом. Таким способом воспользовался крупный российский банк. В результате в конкурсе хакатона участвовало более чем 1000 людей. Добившимся наивысших успехов в конкурсе предлагалось место на работе. К сожалению, большинство победителей не изъявили желание получать должность, так как их мотивацией был только приз. Но все-таки несколько человек согласились на работу в команде.

3. Поиск в среде специалистов данных, разбирающихся в аналитике бизнеса и способных навести порядок, построив правильный алгоритм действий. К необходимым навыкам специалиста-аналитика относят: программирование, знание Python, R, Statistica, Rapidminer и другие не менее важные для бизнес-аналитика знания.

Этап 3. Создание команды для развития.

Необходима слаженная команда. При рассмотрении продвинутой аналитики, например, инновационного развития компании, потребуются менеджер для создания и развития бизнес-аналитики.

Инженер-исследователь занимается построением и проверкой гипотез для успешного развития взятого вектора.

Руководителю необходимо организовывать развитие взятого направления бизнеса, создавать новые продукты и согласовывать их с заказчиками. В его обязанности, помимо этого, входит расчет бизнес-кейсов.

Менеджер по развитию обязан тесно взаимодействовать со всеми. Инженер-аналитик и менеджер по бизнес-развитию выясняют потребности и возможности анализа big data посредством встреч с сотрудниками, отвечающими за разнообразные участки проекта. Проанализировав ситуацию, менеджер создает кейсы, благодаря которым компания будет принимать решения о дальнейшем развитии направления, сервиса или продукции.

  • Менеджер по развитию: требования и должностная инструкция

3 принципа работы с b ig d ata

Можно выделить основные методы работы с big data:

  1. Горизонтальная масштабируемость. В силу того, что данных должно быть огромное множество, любая система, обрабатывающая большое количество информации, будет расширяемой. Например, если объем данных вырос в несколько раз - соответственно во столько же раз увеличился и объем «железа» в кластере.
  2. Отказоустойчивость. Исходя из принципа горизонтальной масштабируемости, можно сделать вывод, что в кластере есть большое количество машин. Например, Hadoop-кластер от Yahoo насчитывает их больше 42000. Все методы работы с big data должны учитывать возможные неисправности и искать способы справиться с неполадками без последствий.
  3. Локальность данных. Данные, хранящиеся в больших системах, распределены в достаточно большом количестве машин. Поэтому в ситуации, когда данные хранятся на сервере №1, а обрабатываются на сервере №2, нельзя исключать возможность того, что их передача будет стоить дороже, чем обработка. Именно поэтому при проектировании большое внимание уделяется тому, чтобы данные хранились и проходили обработку на одном компьютере.

Все методы работы с большими данными, так или иначе, придерживаются этих трех принципов.

Как использовать систему big data

Эффективные решения в области работы с большими данными для самых разных направлений деятельности осуществляются благодаря множеству существующих на данный момент комбинаций программного и аппаратного обеспечения.

Важное достоинство big data - возможность применять новые инструменты с теми, которые уже используются в этой сфере. Это играет особенно важную роль в ситуации с кросс-дисциплинарными проектами. В качестве примера можно привести мультиканальные продажи и поддержку потребителей.

Для работы с big data важна определенная последовательность:

  • сначала происходит сбор данных;
  • затем информация структурируется. С этой целью используются дашборды (Dashboards) - инструменты для структурирования;
  • на следующем этапе создаются инсайты и контексты, на основании которых формируются рекомендации для принятия решений. В силу высоких затрат на сбор данных, основная задача - это определить цель использования полученных сведений.

Пример. Рекламные агентства могут использовать агрегированную у телекоммуникационных компаний информацию о местоположении. Такой подход обеспечит таргетированную рекламу. Эта же информация применима и в других сферах, связанных с оказанием и продажей услуг и товаров.

Полученная таким образом информация может оказаться ключевой в принятии решения об открытии магазина в конкретной местности.

Если рассмотреть случай использования outdoor-щитов в Лондоне, не стоит сомневаться, что на сегодняшний день такой опыт возможен только в случае, если возле каждого щита расположить специальный измерительные прибор. В то же время мобильные операторы всегда знают основную информацию о своих абонентах: их расположение, семейное положение и так далее.

Еще одна потенциальная область применения big data - сбор информации о количестве посетителей различных мероприятий.

Пример. Организаторы футбольных матчей не способны знать точное число пришедших на матч заранее. Тем не менее, они получили бы такие сведения, воспользуйся они информацией от операторов мобильной связи: где находятся потенциальные посетители за определенный период времени - месяц, неделю, день - до матча. Получается, у организаторов появилась бы возможность спланировать локацию мероприятия в зависимости от предпочтений целевой аудитории.

Big data дает также несравнимые преимущества для банковского сектора, который может воспользоваться обработанными данными для того, чтобы выявить недобросовестных картодержателей.

Пример. При заявлении держателя карты о ее утере или краже банк имеет возможность отследить местоположение карты, по которой производится расчет, и мобильного телефона держателя, чтобы удостовериться в правдивости информации. Таким образом, представитель банка имеет возможность увидеть, что платежная карта и мобильный телефон держателя находятся в одной зоне. А значит - карту использует владелец.

Благодаря преимуществам подобного рода использование информации дает компаниям много новых возможностей, а рынок big data продолжает развиваться.

Основная трудность внедрения big data состоит в сложности расчета кейса. Осложняется этот процесс наличием большого количества неизвестных.

Достаточно сложно делать какие-либо прогнозы на будущее, в то время как данные о прошлом не всегда находятся в зоне доступа. В этой ситуации самое главное - планирование своих первоначальных действий :

  1. Определение конкретного вопроса, в решении которого будет применена технология обработки big data, поможет определиться с концепцией и задаст вектор дальнейших действий. Сделав акцент на сборе информации именно по указанному вопросу, стоит также воспользоваться всеми доступными инструментами и методами для получения более ясной картины. Более того, такой подход значительно облегчит процесс принятия решения в будущем.
  2. Вероятность того, что проект big data будет реализован командой без определенных навыков и опыта - крайне мала. Знания, которые необходимо использовать в таком сложном исследовании, обычно приобретаются долгим трудом, поэтому предыдущий опыт так важен в этой сфере. Сложно переоценить влияние культуры использования информации, полученной путем подобных исследований. Они предоставляют различные возможности, в том числе и злоупотребления полученными материалами. Чтобы использовать информацию во благо, стоит придерживаться элементарных правил корректной обработки данных.
  3. Инсайты - основная ценность технологий. Рынок все еще испытывает острую нехватку сильных специалистов - имеющих понимание законов ведения бизнеса, важности информации и области ее применения. Нельзя не учитывать тот факт, что анализ данных - ключевой способ достижения поставленных целей и развития бизнеса, нужно стремиться к выработке конкретной модели поведения и восприятия. В таком случае большие данные принесут пользу и сыграют положительную роль в решении вопросов ведения дел.

Успешные кейсы внедрения big data

Некоторые из перечисленных ниже кейсов были более удачными в сборе данных, другие - в аналитике big data и путях применения данных, полученных в ходе исследования.

  1. «Тинькофф Кредитные Системы » воспользовался платформой EMC2 Greenplum для массивно-параллельных вычислений. В связи с непрерывным увеличением потока пользователей карт в банке возникла необходимость сделать обработку данных быстрее. Было принято решение о применении big data и работе с неструктурированной информацией, а также корпоративными сведениями, которые были получены из разрозненных источников. От внимания их специалистов не ушло и то, что на сайте в Российском ФНС внедряется аналитический слой федерального хранилища данных. Впоследствии на его основе планируется организовать пространство, предоставляющее доступ к данным налоговой системы для последующей обработки и получения статистических данных.
  2. Отдельно стоит рассмотреть российский стартап Synqera, занимающийся анализом big data online и разработавший платформу Simplate. Суть заключается в том, что производится обработка большого массива данных, анализируются данные о потребителях, их покупках, возрасте, настроении и душевном состоянии. Сеть магазинов косметики установила на кассах датчики, способные распознавать эмоции покупателя. После определения настроения, анализируется информация о покупателе, времени покупки. После этого покупателю целенаправленно поступает информация о скидках и акциях. Это решение увеличило лояльность потребителя и смогла повысить доход продавца.
  3. Отдельно стоит рассказать о кейсе по применению технологий big data в компании Dunkin`Donuts, которые, по аналогии с предыдущим примером, использовали проведение анализа online для увеличения прибыли. Итак, в торговых точках дисплеи отображали спецпредложения, содержимое которых менялось ежеминутно. Основанием замен в тексте служили как время суток, так и товар в наличии. Из кассовых чеков компания получила информацию, какие позиции пользовались наибольшим спросом. Такой способ позволил увеличить доход и оборот складских запасов.

Таким образом, обработка big data положительно сказывается на решении бизнес-задач. Важным фактором, конечно, является выбор стратегии и использование новейших разработок в области big data.

Информация о компании

Archos. Сфера деятельности: производство и продажа электронной техники. Территория: офисы продаж открыты в девяти странах (Испания, Китай, Россия, США, Франция и др.). Численность персонала филиала: 5 (в российском представительстве).

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных.

В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

К сожалению, многие современные компании прибегают к технологии Big Data, не создавая для этого надлежащей инфраструктуры, которая смогла бы обеспечить надежное хранение огромных массивов данных, которые они собирают и хранят. С другой стороны, в настоящее время стремительно развивается технология блокчейн, которая призвана решить эту и многие другие проблемы.

Что такое Big Data?

По сути, определение термина лежит на поверхности: «большие данные» означают управление очень большими объемами данных, а также их анализ. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине ее больших объемов.

Сам термин Big Data (большие данные) появился относительно недавно. Согласно данным сервиса Google Trends , активный рост популярности термина приходится на конец 2011 года:

В 2010 году уже стали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. К 2011 году большинство крупнейших IT-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин Big Data в своих деловых стратегиях. Постепенно аналитики рынка информационных технологий начинают активные исследования данной концепции.

В настоящее время этот термин приобрел значительную популярность и активно используется в самых различных сферах. Однако нельзя с уверенностью сказать, что Big Data – это какое-то принципиально новое явление – напротив, большие источники данных существуют уже много лет. В маркетинге ими можно назвать базы данных по покупкам клиентов, кредитным историям, образу жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помогать компаниям прогнозировать будущие потребности клиентов, оценивать риски, формировать потребительские предпочтения и т. д.

В настоящее время ситуация изменилась в двух аспектах:

— появились более сложные инструменты и методы для анализа и сопоставления различных наборов данных;
— инструменты анализа дополнились множеством новых источников данных, что обусловлено повсеместным переходом на цифровые технологии, а также новыми методами сбора и измерения данных.

Исследователи прогнозируют, что технологии Big Data активнее всего будут использоваться в производстве, здравоохранении, торговле, госуправлении и в других самых различных сферах и отраслях.

Big Data – это не какой-либо определенный массив данных, а совокупность методов их обработки. Определяющей характеристикой для больших данных является не только их объем, но также и другие категории, характеризующие трудоемкие процессы обработки и анализа данных.

В качестве исходных данных для обработки могут выступать, например:

— логи поведения интернет-пользователей;
— Интернет вещей;
— социальные медиа;
— метеорологические данные;
— оцифрованные книги крупнейших библиотек;
— GPS-сигналы из транспортных средств;
— информация о транзакциях клиентов банков;
— данные о местонахождении абонентов мобильных сетей;
— информация о покупках в крупных ритейл-сетях и т.д.

Со временем объемы данных и количество их источников непрерывно растет, а на этом фоне появляются новые и совершенствуются уже имеющиеся методы обработки информации.

Основные принципы Big Data:

— Горизонтальная масштабируемость – массивы данных могут быть огромными и это значит, что система обработки больших данных должна динамично расширяться при увеличении их объемов.
— Отказоустойчивость – даже при сбое некоторых элементов оборудования, вся система должна оставаться работоспособной.
— Локальность данных. В больших распределенных системах данные обычно распределяются по значительному числу машин. Однако по мере возможности и в целях экономии ресурсов данные часто обрабатываются на том же сервере, что и хранятся.

Для стабильной работы всех трех принципов и, соответственно, высокой эффективности хранения и обработки больших данных необходимы новые прорывные технологии, такие как, например, блокчейн.

Для чего нужны большие данные?

Сфера применения Big Data постоянно расширяется:

— Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только опираясь на данные анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.
— Технологии Big Data могут использоваться для организации движения беспилотного транспорта.
— Обрабатывая большие массивы данных можно распознавать лица на фото- и видеоматериалах.
— Технологии Big Data могут быть использованы ритейлерами – торговые компании могут активно использовать массивы данных из социальных сетей для эффективной настройки своих рекламных кампаний, которые могут быть максимально ориентированы под тот или иной потребительский сегмент.
— Данная технология активно используется при организации предвыборных кампаний, в том числе для анализа политических предпочтений в обществе.
— Использование технологий Big Data актуально для решений класса гарантирования доходов (RA) , которые включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно выявить вероятные потери, либо искажения информации, способные привести к снижению финансовых результатов.
— Телекоммуникационные провайдеры могут агрегировать большие данные, в том числе о геолокации; в свою очередь эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков.
— Большие данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей.

Таким образом наиболее очевидное практическое применение технологии Big Data лежит в сфере маркетинга. Благодаря развитию интернета и распространению всевозможных коммуникационных устройств поведенческие данные (такие как число звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.

Технологии больших данных могут также эффективно использоваться в финансах, для социологических исследований и во многих других сферах. Эксперты утверждают, что все эти возможности использования больших данных являются лишь видимой частью айсберга, поскольку в гораздо больших объемах эти технологии используются в разведке и контрразведке, в военном деле, а также во всем том, что принято называть информационными войнами.

В общих чертах последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов, а также последующего формулирования рекомендаций к действию.

Рассмотрим вкратце возможности использования технологий Big Data в маркетинге. Как известно, для маркетолога информация – главный инструмент для прогнозирования и составления стратегии. Анализ больших данных давно и успешно применяется для определения целевой аудитории, интересов, спроса и активности потребителей. Анализ больших данных, в частности, позволяет выводить рекламу (на основе модели RTB-аукциона - Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

— лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
— оценивать степень удовлетворенности клиентов;
— понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
— находить и внедрять новые способы, увеличивающие доверие клиентов;
— создавать проекты, пользующиеся спросом и т. д.

Например, сервис Google.trends может указать маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Если сопоставить эти сведения со статистическими данными, собираемыми соответствующим плагином на собственном сайте, то можно составить план по распределению рекламного бюджета с указанием месяца, региона и других параметров.

По мнению многих исследователей, именно в сегментации и использовании Big Data заключается успех предвыборной кампании Трампа. Команда будущего президента США смогла правильно разделить аудиторию, понять ее желания и показывать именно тот месседж, который избиратели хотят видеть и слышать. Так, по мнению Ирины Белышевой из компании Data-Centric Alliance, победа Трампа во многом стала возможной благодаря нестандартному подходу к интернет-маркетингу, в основу которого легли Big Data, психолого-поведенческий анализ и персонализированная реклама.

Политтехнологи и маркетологи Трампа использовали специально разработанную математическую модель, которая позволила глубоко проанализировать данные всех избирателей США систематизировать их, сделав сверхточный таргетинг не только по географическим признаками, но также и по намерениям, интересам избирателей, их психотипу, поведенческим характеристикам и т. д. После этого маркетологи организовали персонализированную коммуникацию с каждой из групп граждан на основе их потребностей, настроений, политических взглядов, психологических особенностей и даже цвета кожи, используя практически для каждого отдельного избирателя свой месседж.

Что касается Хиллари Клинтон, то она в своей кампании использовала «проверенные временем» методы, основанные на социологических данных и стандартном маркетинге, разделив электорат лишь на формально гомогенные группы (мужчины, женщины, афроамериканцы, латиноамериканцы, бедные, богатые и т. д.).

В результате выиграл тот, кто по достоинству оценил потенциал новых технологий и методов анализа. Примечательно, что расходы на предвыборную кампанию Хиллари Клинтон были в два раза больше, чем у ее оппонента:

Данные: Pew Research

Основные проблемы использования Big Data

Помимо высокой стоимости, одним из главных факторов, тормозящих внедрение Big Data в различные сферы, является проблема выбора обрабатываемых данных: то есть определения того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Еще одна проблема Big Data носит этический характер. Другими словами возникает закономерный вопрос: можно ли подобный сбор данных (особенно без ведома пользователя) считать нарушением границ частной жизни?

Не секрет, что информация, сохраняемая в поисковых системах Google и Яндекс, позволяет IT-гигантам постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные приложения. Для этого поисковики собирают пользовательские данные об активности пользователей в интернете, IP-адреса, данные о геолокации, интересах и онлайн-покупках, личные данные, почтовые сообщения и т. д. Все это позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в интернете. При этом обычно согласия пользователей на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Из этого вытекает следующая важная проблема, касающаяся обеспечения безопасности хранения и использования данных. Например, безопасна ли та или иная аналитическая платформа, которой потребители в автоматическом режиме передают свои данные? Кроме того, многие представители бизнеса отмечают дефицит высококвалифицированных аналитиков и маркетологов, способных эффективно оперировать большими объемами данных и решать с их помощью конкретные бизнес-задачи.

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа, ритейл, телеком, банковский сектор и сервисные компании.

Перспективы взаимодействия технологий блокчейн и Big Data

Интеграция с Big Data несет в себе синергетический эффект и открывает бизнесу широкий спектр новых возможностей, в том числе позволяя:

— получать доступ к детализированной информации о потребительских предпочтениях, на основе которых можно выстраивать подробные аналитические профили для конкретных поставщиков, товаров и компонентов продукта;
— интегрировать подробные данные о транзакциях и статистике потребления определенных групп товаров различными категориями пользователей;
— получать подробные аналитические данные о цепях поставок и потребления, контролировать потери продукции при транспортировке (например, потери веса вследствие усыхания и испарения некоторых видов товаров);
— противодействовать фальсификациям продукции, повысить эффективность борьбы с отмыванием денег и мошенничеством и т. д.

Доступ к подробным данным об использовании и потреблении товаров в значительной мере раскроет потенциал технологии Big Data для оптимизации ключевых бизнес-процессов, снизит регуляторные риски, раскроет новые возможности монетизации и создания продукции, которая будет максимально соответствовать актуальным потребительским предпочтениям.

Как известно, к технологии блокчейн уже проявляют значительный интерес представители крупнейших финансовых институтов, включая , и т. д. По мнению Оливера Буссманна, IT-менеджера швейцарского финансового холдинга UBS, технология блокчейн способна «сократить время обработки транзакций от нескольких дней до нескольких минут».

Потенциал анализа из блокчейна при помощи технологии Big Data огромен. Технология распределенного реестра обеспечивает целостность информации, а также надежное и прозрачное хранение всей истории транзакций. Big Data, в свою очередь, предоставляет новые инструменты для эффективного анализа, прогнозирования, экономического моделирования и, соответственно, открывает новые возможности для принятия более взвешенных управленческих решений.

Тандем блокчейна и Big Data можно успешно использовать в здравоохранении. Как известно, несовершенные и неполные данные о здоровье пациента в разы увеличивают риск постановки неверного диагноза и неправильно назначенного лечения. Критически важные данные о здоровье клиентов медучреждений должны быть максимально защищенными, обладать свойствами неизменности, быть проверяемыми и не должны быть подвержены каким-либо манипуляциям.

Информация в блокчейне соответствует всем перечисленным требованиям и может служить в роли качественных и надежных исходных данных для глубокого анализа при помощи новых технологий Big Data. Помимо этого, при помощи блокчейна медицинские учреждения смогли бы обмениваться достоверными данными со страховыми компаниями, органами правосудия, работодателями, научными учреждениями и другими организациями, нуждающимися в медицинской информации.

Big Data и информационная безопасность

В широком понимании, информационная безопасность представляет собой защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных негативных воздействий естественного или искусственного характера.

В области информационной безопасности Big Data сталкивается со следующими вызовами:

— проблемы защиты данных и обеспечения их целостности;
— риск постороннего вмешательства и утечки конфиденциальной информации;
— ненадлежащее хранение конфиденциальной информации;
— риск потери информации, например, вследствие чьих-либо злонамеренных действий;
— риск нецелевого использования персональных данных третьими лицами и т. д.

Одна из главных проблем больших данных, которую призван решить блокчейн, лежит в сфере информационной безопасности. Обеспечивая соблюдение всех основных ее принципов, технология распределенного реестра может гарантировать целостность и достоверность данных, а благодаря отсутствию единой точки отказа, блокчейн делает стабильной работу информационных систем. Технология распределенного реестра может помочь решить проблему доверия к данным, а также предоставить возможность универсального обмена ими.

Информация – ценный актив, а это значит, что на первом плане должен стоять вопрос обеспечения основных аспектов информационной безопасности. Для того, чтобы выстоять в конкурентной борьбе, компании должны идти в ногу со временем, а это значит, что им нельзя игнорировать те потенциальные возможности и преимущества, которые заключают в себе технология блокчейн и инструменты Big Data.

Что такое Big Data (дословно — большие данные )? Обратимся сначала к оксфордскому словарю:

Данные — величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.

Термин Big Data используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без .

Преимущества, которые предоставляет Big Data:

  1. Сбор данных из разных источников.
  2. Улучшение бизнес-процессов через аналитику в реальном времени.
  3. Хранение огромного объема данных.
  4. Инсайты. Big Data более проницательна к скрытой информации при помощи структурированных и полуструктурированных данных.
  5. Большие данные помогают уменьшать риск и принимать умные решения благодаря подходящей риск-аналитике

Примеры Big Data

Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Социальные медиа : статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, генерируются в основном из-за загрузок фото и видео на серверы социальной сети, обмена сообщениями, комментариями под постами и так далее.

Реактивный двигатель генерирует 10 терабайт данных каждые 30 минут во время полета. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайты.

Классификация Big Data

Формы больших данных:

  • Структурированная
  • Неструктурированная
  • Полуструктурированная

Структурированная форма

Данные, которые могут храниться, быть доступными и обработанными в форме с фиксированным форматом называются структурированными. За продолжительное время компьютерные науки достигли больших успехов в совершенствовании техник для работы с этим типом данных (где формат известен заранее) и научились извлекать пользу. Однако уже сегодня наблюдаются проблемы, связанные с ростом объемов до размеров, измеряемых в диапазоне нескольких зеттабайтов.

1 зеттабайт соответствует миллиарду терабайт

Глядя на эти числа, нетрудно убедиться в правдивости термина Big Data и трудностях сопряженных с обработкой и хранением таких данных.

Данные, хранящиеся в реляционной базе — структурированы и имеют вид,например, таблицы сотрудников компании

Неструктурированная форма

Данные неизвестной структуры классифицируются как неструктурированные. В дополнении к большим размерам, такая форма характеризуется рядом сложностей для обработки и извлечении полезной информации. Типичный пример неструктурированных данных — гетерогенный источник, содержащий комбинацию простых текстовых файлов, картинок и видео. Сегодня организации имеют доступ к большому объему сырых или неструктурированных данных, но не знают как извлечь из них пользу.

Полуструктурированная форма

Эта категория содержит обе описанные выше, поэтому полуструктурированные данные обладают некоторой формой, но в действительности не определяются с помощью таблиц в реляционных базах. Пример этой категории — персональные данные, представленные в XML файле.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Рост Big Data со временем:

Синим цветом представлены структурированные данные (Enterprise data), которые сохраняются в реляционных базах. Другими цветами — неструктурированные данные из разных источников (IP-телефония, девайсы и сенсоры, социальные сети и веб-приложения).

В соответствии с Gartner, большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.

  1. Объем . Сам по себе термин Big Data связан с большим размером. Размер данных — важнейший показатель при определении возможной извлекаемой ценности. Ежедневно 6 миллионов людей используют цифровые медиа, что по предварительным оценкам генерирует 2.5 квинтиллиона байт данных. Поэтому объем — первая для рассмотрения характеристика.
  2. Разнообразие — следующий аспект. Он ссылается на гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF файлов, аудио тоже рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам в хранении, добыче и анализе: 27% компаний не уверены, что работают с подходящими данными.
  3. Скорость генерации . То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет потенциал. Скорость определяет быстроту притока информации из источников — бизнес процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени.
  4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которое усложняет обработку и управление. Так, например, большая часть данных неструктурирована по своей природе.

Big Data аналитика: в чем польза больших данных

Продвижение товаров и услуг : доступ к данным из поисковиков и сайтов, таких как Facebook и Twitter, позволяет предприятиям точнее разрабатывать маркетинговые стратегии.

Улучшение сервиса для покупателей : традиционные системы обратной связи с покупателями заменяются на новые, в которых Big Data и обработка естественного языка применяется для чтения и оценки отзыва покупателя.

Расчет риска , связанного с выпуском нового продукта или услуги.

Операционная эффективность : большие данные структурируют, чтобы быстрее извлекать нужную информацию и оперативно выдавать точный результат. Такое объединение технологий Big Data и хранилищ помогает организациям оптимизировать работу с редко используемой информацией.

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: