Сейчас уже не девяностые и даже не начало нулевых, когда в IT можно было выбрать любую профессию и добиться успеха. Рынок перенасыщен специалистами, и начинать с заведомо проигрышной позиции догоняющего нет никакого резона. Посидев пару вечеров в интернете и внимательно изучив все зарождающиеся IT-тренды, я решил остановиться на больших данных. Это довольно молодая технология, которая считается очень перспективной и востребованной в будущем, а главное — она только начинает по-настоящему набирать обороты. С мыслью «Да вот же оно!» я отправился разбираться, что это вообще такое.

Что такое большие данные

Выражение «большие данные» слышали все, но правильный смысл в него вкладывают лишь немногие. На самом деле понятие big data объединяет в себе не только объёмы информации, но и технологии её обработки, а также методы аналитики, ради которой всё и затевается.

Важный момент здесь в том, что информации не просто много: её объём постоянно и очень быстро растёт, причём данные часто не структурированы и разнородны. К ним относятся тексты, изображения, самая различная статистика: от показаний носимых гаджетов и записей камер видеонаблюдения до действий пользователей в соцсетях. По большому счёту данными может быть вообще всё что угодно.

Из совершенно бессмысленного на первый взгляд потока информации можно не только достать полезные сведения, но и спрогнозировать на их основе грядущие события или изменения поведения. Именно это и считают главным козырем больших данных, благодаря которому их можно применять в любых сферах нашей жизни.

В качестве примеров можно вспомнить исследования Google, пытавшейся в 2009 году по истории поисковых запросов пользователей прогнозировать распространение пандемии гриппа, а также Microsoft, которая в 2013-м смогла выявить побочные эффекты от лекарств раньше соответствующих медицинских инстанций.

Кому и зачем нужны большие данные

Медицина и наука первыми приходят на ум, когда речь заходит о применении больших данных, однако попасть в какой-нибудь исследовательский проект человеку с улицы просто нереально, а значит, нужно искать более массовые и коммерчески выгодные сферы. К счастью, в бизнесе и маркетинге потребность в больших данных ничуть не меньше. Они напрямую связаны с прибылью, и за их анализ платят очень хорошие деньги.

Возможность с помощью больших данных прогнозировать события или поведение людей — это святой Грааль для маркетинга.

Сами того не зная, потребители генерируют уйму информации, которая при грамотной обработке и анализе превращается в мощный инструмент влияния. Владельцы бизнеса таким образом смогут экономить на рекламе, адресуя её только целевой аудитории, медиа смогут предлагать пользователям интересующий их контент, а магазины увеличат продажи, подсказывая покупателям сопутствующие товары.

Пока к этому пришли лишь немногие. Парадокс заключается в том, что объёмы данных уже накоплены и постоянно растут, но специалистов, которые смогли бы проанализировать их и выудить из беспорядочной массы ценную информацию, очень и очень мало. Это играет нам на руку, ведь анализу больших данных можно научиться.

Как стать специалистом по большим данным

Если у вас нет шести свободных лет для учёбы в университете (а у меня их нет), то выход только один: интенсивные курсы. Выдача Google по запросу «big data обучение Москва» привела меня на сайт образовательного проекта New Professions Lab, где сейчас идёт уже пятый набор на курс «Специалист по большим данным».

Я не люблю теорию и всегда с нетерпением жду практических уроков, поэтому меня привлекла нестандартная схема обучения, фокус которой смещён в сторону практики. Согласитесь, гораздо приятнее решать реальные задачи из жизни, а не скучные примеры из учебников.

Чему предстоит научиться

За три месяца преподаватели, имеющие опыт работы в крупных компаниях, на примерах из реальной жизни научат нас решать самые распространённые задачи мира больших данных. Обучение разбито на два этапа: работа с данными и работа с рекомендательными системами.

В первом модуле подробно разбираются алгоритмы отслеживания событий и поведения людей в интернете. Оказывается, с их помощью можно мониторить около 2 000 характеристик, среди которых, помимо банальных пола и возраста, есть личные интересы, семейное положение и многое другое.

Второй модуль посвящён рекомендательным системам, являющимся важной частью big data. Мы не замечаем, но они окружают нас повсюду. Соцсети предлагают друзей, интернет-магазины советуют сопутствующие товары, а музыкальные сервисы — новых исполнителей. Реальная польза для людей, которая со стороны выглядит как магия, на самом деле результат кропотливой работы и машинного обучения.

Полная программа курса с описанием всех уроков немного пугает своим объёмом: всё-таки научиться придётся очень и очень многому. Впрочем, учитывая то, что теория сопровождается множеством практических занятий, всё не так уж и страшно.

Всего за три месяца нам предстоит сделать 12 лабораторных работ, каждая из которых построена на реальных задачах из жизни.

От простого к сложному преподаватели обучат всему, что может понадобиться в работе, и с помощью домашних заданий проверят, насколько хорошо усвоен материал.

Сразу нужно настраиваться на серьёзную работу. Заниматься предстоит три раза в неделю по три часа. Плюс придётся найти время на выполнение лабораторных работ и повторение материала. Интенсив рассчитан как на офлайн-, так и на онлайн-занятия, поэтому доступен не только для москвичей.

Для меня важно, что это не какие-то там двухнедельные курсы с присвоением бесполезного сертификата. Программа интенсива составлена таким образом, чтобы дать выпускникам первичный опыт решения разноплановых задач и снабдить знаниями, которые помогут справиться с возникающими проблемами и развивать навыки.

Как начать и что нужно уметь

Следующий курс стартует 5 октября, но записываться можно уже сейчас. Оставшееся до начала время можно использовать, чтобы подтянуть свои знания, ведь слушателям требуется определённый опыт в IT.

Обязательно нужно знать Python или другой высокоуровневый язык программирования, уметь работать с SQL и ориентироваться в Linux. Также очень приветствуется понимание статистики и теории вероятности. Для тех, кому потребуется всего лишь освежить эти знания, перед началом основного курса будут проводиться интенсивы по Python, Linux и математической статистике.

Если вы, как и я, не очень сильны во всём этом, засесть за обучение лучше прямо сейчас, потому что после начала курса свободного времени, скорее всего, не будет, а без знания основ учиться не получится. Об этом в New Professions Lab честно предупреждают сразу.


Возможно, большие данные на первый взгляд покажутся сложными, а процесс обучения — трудоёмким, но игра стоит свеч. Это отличный шанс стать востребованным специалистом на прибыльном и пока ещё незанятом рынке. Надо ли говорить, что грех им не воспользоваться?

Ну а я пока освежаю в памяти знания Python, изучаю статистику и с нетерпением жду осени.

Подать заявку на участие в интенсиве