Data Scientist — это, говоря простыми словами, специалист, который занимается обработкой больших массивов информации, то есть аналитик баз данных. Потребность в таких специалистах возникла из-за быстрого развития интернета и накопления огромного количества данных. Эта профессия стала особо актуальной в последнее время из-за того, что интернет стал более доступным, следовательно, больше людей стали оставлять информацию.
Суть профессии
Профессия специалиста по обработке данных появилась после 2000 года, и связана она не с какой-то обычной информацией из интернета, а с особой отраслью IT-науки — Big Data. Она была изобретена как набор инструментов для объединения разнородных файлов с информацией для конкретных задач.
Весь массив данных может быть разделен на три категории:
- структурированные;
- полуструктурированные;
- неструктурированные.
К последним относятся в основном фото и прочие визуальные материалы, а они, в свою очередь, являются основной частью Big Data.
Чтобы справиться с такими объемами, находя нужное в потоке разрозненных данных, и была придумана профессия Data Scientist (дословно — «ученый по данным»). При этом существует изрядная путаница в названиях вакансий:
- аналитик Big Data;
- аналитик данных (Data Analyst);
- менеджер по анализу систем;
- математик-программист;
- специалист по Big Data;
- Data Miner (то есть дословно рудокоп, шахтер или горняк, тот кто "копает" данные).
Само название профессии подразумевает, что у её обладателя должны быть познания в области математики, статистики и в программировании. Кроме того, он должен хорошо разбираться в бизнес-процессах, различных факторах, влияющих на поведение пользователей. Иными словами, Data Scientist — это тот, кто занимается вдумчивой аналитической работой, которая может быть неочевидна, но серьезно влияет на успешность любого крупного IT-проекта.
Чем конкретно занимается специалист по Big Data
Работа Data Scientist подразумевает различные способы анализа данных:
- Сбор статистики.
- Создание моделей баз данных.
- Прототипирование.
- Методы интеллектуального анализа.
- Использование специальных приложений для работы с данными.
- Методы проектирования и разработки баз данных.
Например, один из программистов компании Linkedin вместо стандартной работы по улучшению оптимизации проекта занялся разработкой нового алгоритма. В компании не было систем, которые могли бы оценить его работу, но он предложил внедрить решение, позволяющее пользователям быстрее находить знакомых людей или тех, у кого есть похожие данные.
После внедрения алгоритма, узнаваемость бренда выросла в несколько раз, так как количество посетителей значительно увеличилось. То есть этот программист создал алгоритм, который смог систематизировать огромный объем данных и принести пользу.
Обязанности аналитика данных (на примере онлайн-игры)
Конкретные обязанности специалиста зависят от проекта. Но общие черты у этих специальностей похожи:
- Сбор данных из различных источников, чтобы на их основе проводить обработку;
- работа с потребителями, анализ среза мнений;
- моделирование клиентской базы;
- работа над персонализацией продуктов;
- оценка, анализ и составление отчетности эффективности внутренних процессов базы;
- анализ различных рисков и т. д.
Чтобы было понятнее, разберем конкретный пример. Имеется онлайн-игра с неплохой концепцией, посещаемостью и комьюнити. Однако, как показывает практика, если онлайн-проект не развивается, в нем не появляются новые дополнения, игровые механики, не исправляются внутренние ошибки, то пользователи постепенно теряют к нему интерес.
Поэтому нанимают одного или несколько специалистов по Big Data. Перед ними стоит несколько задач:
- удержать игроков;
- расширить комьюнити;
- сделать так, чтобы среднее время, затраченное на игру, увеличивалось.
Что делает Data Scientist в данном случае
- собирает и анализирует ключевые показатели проекта;
- проектирует метрики для того, чтобы спрогнозировать поведение игроков;
- анализирует обновления и различные акции в игре, как они влияют на настроение комьюнити;
- формулирует свои рекомендации: какие изменения в игру вносить, что можно улучшить, от чего отказаться и т. д. Затем отслеживает реакцию на изменения.
Где учиться
Российские вузы не предлагают обучение на Data Scientist, так как профессия появилась недавно. Не выработано единой программы обучения и образовательных стандартов.
Считается, что специалист по большим данным должен хорошо разбираться в математике, статистике и теории вероятностей. Поэтому рекомендуется поступать на университетскую специальность, где одновременно учат программированию и математическому анализу. Это может быть, к примеру, «Бизнес-информатика» или «Бизнес-аналитика».
В западных странах уже осознали высокую потребность в аналитиках баз данных, поэтому в профильных учебных заведениях есть направления, где можно учиться на Data Scientist.
Онлайн-курсы по Data Science
В России и за рубежом многие крупные IT-компании (например, Яндекс и Mail.ru Group) предлагают пройти обучение на эту специальность. Курсы, как правило, проводятся онлайн. Чем там могут учить (примерно):
- Курс программирования на Python;
- Введение в Data Science (базовая теория, основы и методики анализа больших массивов данных);
- Статистический и исследовательский анализ;
- Теория вероятностей;
- Основы машинного обучения;
- Проектная работа с наставником.
Длительность курсов зависит от конкретной программы. Как правило, она делится на несколько модулей длительностью по 4 недели. Финалом обучения становится итоговый проект, где нужно построить модель конкретного технологического процесса на производстве, например, оттока или притока клиентов в компанию.
Читайте также: ТОП-23 курса по Data Science
Зарплата Data Scientist в 2025 году
Вакансии Data Scientist связаны с IT-сферой, но разработки могут иметь самое разное применение:
- медицина;
- финансы;
- телекоммуникации;
- торговля.
Рынок испытывает нехватку хороших специалистов этого направления. Потребность в них высока, соответственно, работодатели готовы платить аналитикам приличные деньги, но как водится только таким, у которых уже есть реальный опыт и реализованные проекты в портфолио. По данным сервиса по поиску вакансий, зарплата Data Scientist составляет:
- Минимальная (без опыта) — от 25 тысяч рублей;
- Средняя (опыт от 1,5 до 3 лет) — от 50 до 115 тысяч рублей;
- Максимальная (опыт от 3 лет и больше) — более 200 тысяч рублей.
Вакансии без опыта
На сайтах по поиску работы не так уж много предложений для новичков. К сожалению, это ключевая проблема в IT: работодателя интересуют конкретные навыки и умения, а обучать по ходу дела не каждый готовы. Поэтому, чтобы устроиться на работа Data Scientist без опыта, оптимальный вариант - пройти курсы профессиональной подготовки с последующей стажировкой. Многие обучающие центры предоставляют такую возможность и даже помогают с трудоустройством.
Плюсы и минусы профессии
Плюсы:
- востребованность;
- актуальность;
- высокий уровень дохода.
Минусы:
- молодая специальность, не вполне определенный круг обязанностей;
- требуется долго обучаться, обязательно знание математики и статистики;
- нет возможности получить системное профильное образование в России.
Источники
Хабр — Изучение data science c нуля: этапы и вехи
Head Hunter — Data Scientist
Рувики — Наука о данных