bhaga (bhaga) wrote,
bhaga
bhaga

Что такое эта пресловутая Биг Дата?.. Есть ответ!

stooge

Обычно big data определяется так называемым правилом трех V: velocity, variety, volume. Т.е. скорость образования данных (высокая), разнообразие данных (большое), объем данных (большой). Т.е. если у вас возникает большое количество разнообразных данных с большой скоростью, то вы столкнулись с проблемой big data. Но мне это определение не нравится, сейчас объясню, почему. Во-первых, "большой" - понятие относительное.


Те объемы данных, которые сейчас могут показаться смешными, были большими еще 10-20 лет назад, но ни о каком big data тогда никто не говорил.

Большой объем данных?

Ну купи большой диск или построй большой кластер для хранения - и большой объем станет не таким уж большим.

Разнообразие данных?


Ну, данные всегда были разнообразными, в этом нет ничего нового. В общем, 3V - плохое определение. Ясности оно не вносит, и, более того, определяет явление в негативном ключе, как некую проблему: много данных, их тяжело хранить, тяжело анализировать. Так не проще ли их просто выкинуть?

Я считаю, правильнее определить big data не через проблемы, которые создают данные, а через возможности, которые они открывают.

Например, вы заходите на какой-нибудь сайт магазина вроде амазона и кликаете там по разным товарам. На сайте записывается т.н. кликстрим - последовательность страниц и ссылок, на которые вы кликнули. Покупателей там миллионы, кликов они накликивают миллиарды в день.


Сами по себе эти данные прямой ценности не представляют.


Но если создать некую математическую модель, описывающую поведение пользователя на сайте как последовательность кликов по товарам и использовать кликстрим множества пользователей для тренировки такой модели, то можно попытаться создать рекомендационную систему (заточенную персонально под вас), которая будет подсовывать вам ссылки на товары, которыми вы, возможно, заинтересуетесь.

Важый момент: такого рода система становится сколь-нибудь успешной только при длительной тренировке модели и больших объемах пользовательских данных, используемых для тренировки.

Таким образом, big data - это не какое-то конкретное значение объема данных, после которого "обычные" данные становятся "большими",

это то значение, которое позволяет решать новый, ранее недоступный класс задач, вроде составления статистической модели поведения пользователя.

Более общий термин - задачи предсказательной аналитики.

При этом переход "обычные данные - большие данные" для разных задач может происходить при совершенно разных количествах данных.

Вот так бы я определил big data.

2.

forpublic
Давай я, тоже в этой сфере работаю.


Под бигдатой имеют в виду то, что на руках многих компаний очень много данных, из которых люди с головой могут делать полезные статистические выводы, модели, предсказания.

Полезные - это не такие, как РосСтат, у которого небывалый рост доходов населения, а такие,

которые принесут реальные деньги.


Самый простой пример - данные всех покупок всех клиентов за 10 лет, из которых можно выяснить, у кого какие шаблоны поведения, кому стоит предложить бонус-программу или специальные условия, где выгодны или невыгодны инвестиции, и тд.

По большому счету, многое из этого существовало и раньше. Разница в том, что благодаря интернету, мобильникам, камерам по всюду -- данных стало на порядки больше.

А IT-гиганты успешно продемострировали, какие из них можно грести деньги.

И это только начало! Вот когда модели научатся читать и понимать тексты, речь, разбирать фото и видео без ошибок (а для этого с каждым годом все больше данных), там и наступит кибер-панк. Беспилотники, роботы-юристы, персональные учителя, тренеры, советники по здоровью -- это все уже не так далеко, как кажется.

Вот такая сказка.

Tags: bikini, анализ экономики, бизнес, компьютеры, программирование
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments