Дата-инженер (Data Engeneer): как им стать, подборка курсов по Data Engineering в 2024 году

KEDU
Автор статьи

Содержание

Дата публикации 08.04.2022
Главная картинка статьи Дата-инженер (Data Engeneer): как им стать, подборка курсов по Data Engineering в 2024 году
Designed by macrovector/freepik

Дата-инженер (Data Engineer) — это специалист, который занимается изучением и интерпретацией больших массивов данных. Его основная задача, как и подобает инженеру, выстроить необходимую инфраструктуру, чтобы обеспечить этот процесс.

Кто такой дата-инженер

Масса компаний занимается анализом Big Data и машинным обучением, чтобы прогнозировать определенные события и в соответствии с ними выстраивать свои бизнес-процессы.

Однако технология машинного обучения никогда бы не сможет работать без предварительной подготовки. Чтобы «переварить» громадные массивы информации, искусственному интеллекту нужна соответствующая инфраструктура и хранилища, то есть собственные базы данных. Вот именно ими-то и занимается дата-инженер. Если конкретнее, его работа состоит в том, чтобы наладить конвейер обработки данных (ETL): извлечение, преобразование и загрузку.

Что делают инженеры баз данных на рабочем месте:

  1. Строят пайплайны. Так называют последовательность обработки данных, которые проходят несколько стадий от извлечения до интерпретации. Для каждого этапа дата-инженер должен подобрать соответствующий инструмент (программный код) и настроить его должным образом;

  2. Масштабируют потоки данных. Дата-инженеру нужно оценить, какие загрузочные мощности понадобятся, чтобы можно было без задержек «скармливать» требуемый объем информации, а в случае увеличения потока ещё и расширить;

  3. Проектируют безопасные хранилища. Информацию, обработанную из большой сети, нужно где-то содержать без постороннего доступа. Дата-инженер продумывает, как это организовать;

  4. Настраивают мониторинг. В данном случае на плечах дата-инженера лежит сбор статистики о техническом состоянии системы (логи, метрики, графики загрузки и т.д.). В случае сбоя оповещения должны приходить автоматически.

Чем дата-инженер отличается от дата-сайентиста

Есть довольно много пересечений между инженерами баз данных и Data Scientists, в том числе в плане навыков и требований по трудоустройству. Но роли они всё-таки выполняют разные: дата-инженеры подготавливает инфраструктуру, а дата-сайентист строит модель-прототип под конкретные бизнес-задачи.

Проблема в том, что интерпретировать эту модель во внятное бизнес-решение (конечный продукт) вряд ли получится. И этим тоже занимается инженер баз данных.

Рассмотрим конкретный пример. Допустим, дата-сайентист хочет узнать, сколько денег геймеры тратят в мобильной онлайн-RPG и какие игровые предметы преимущественно покупают, чтобы сделать прогноз по стоимости/популярности инвентаря, как они будут влиять на игровой процесс, характеристики персонажей и скорректировать игровые механики. Для этого ему нужен массив данных по поведению игроков. Что в данном случае делает дата-инженер:

  • С определенной периодичностью собирает данные с устройств геймеров;

  • Собирает данные с логов сервера, которым пользуются игроки;

  • Создает точку API, которая отразит историю событий по тому или иному пользователю. Например, геймер под ником «HellKnight_876» 78 уровня зашел в игру столько-то раз, в такое-то время, купил такие-то предметы, выполнил этот квест и т.д.

Для этого нужно создать пайплайн, собрать логи с приложения и сервера и соотнести с конкретным пользователем. Затем проанализированные логи объединяются в базу данных и передаются на общий сервер, откуда их можно запросить по API.

Дата-сайентист, опираясь на эти данные, строит модель-прототип поведения геймеров и выстраивает прогноз их поведения в игре.

Требования к квалификации дата-инженера

В первую очередь на такую должность годятся IT-специалисты с крепкими знаниями по части бекэнда, то есть проектирования серверной части ПО или приложений. Это означает:

  1. Владение языком запросов SQL на уровне не ниже Middle;

  2. Знание языка программирования Python (в нём создаются и интерпретируются все данные);

  3. Опыт работы с облачными платформами и соответствующий сертификат (Amazon Web Services, Microsoft Azure и другие);

  4. Знание устройства баз данных SQL и NoSQL;

  5. Владение Java/Scala;

  6. Знание инструментов аналитики Power BI или Tableau.

Конкретный набор скиллов зависит от работодателя, поскольку инструментарий бывает разным и потребности в обработке Big Data тоже разные. Здесь перечислены наиболее общие требования к квалификации инженера по базам данных.

Нужно еще знать, что дата-инженер — это командный игрок и тесно работает с другими специалистами. Помимо Data Scientist с ним взаимодействуют аналитики данных, бизнес-аналитики, разработчики. Так что softs kills в такой работе нужны изрядные:

  1. Коммуникативные способности;

  2. Понимание задач компании;

  3. Понимание бизнес-процессов в той области, где он работает;

  4. Непрерывное самообучение и готовность изучать новое;

  5. Знание английского языка на уровне не ниже Intermediate.

Как стать дата-инженером

В эту профессию приходят разными путями, но в первую очередь из аналитиков. Не обязательно это представители IT-аналитики, могут быть и другие сферы. Во вторую очередь — это разработчики, или конкретнее backend-разработчики, поскольку они вплотную работают с SQL запросами и специфическими языками программирования.

Старт в профессии можно получить, отучившись в вузе на технической или математической специальности, поскольку без базовых знаний по информатике и вычислительной технике здесь работать не получиться. Однако вузовское образование — ещё полдела. Нужны именно практические навыки в программировании, умение работать с базами данных.

Курсы для Data Engineer с нуля, подборка 2024 года

Обучиться Дата инжинирингу можно без соответствующего образования и опыта в IT или аналитике данных, хотя при этом учиться будет в разы сложнее: все-таки у профессии Data Engineer довольно высокий порог вхождения.

В 2024 году курсы для Дата-инженеров не так популярны, как Data Science, поскольку работодатели приветствуют универсализм навыков. Тем не менее, многие онлайн-школы дают возможность освоить с нуля новую перспективную профессию или повысить качество знаний.

1. Нетология. Курс «Дата-инженер с нуля до middle»

Страница курса: https://netology.ru/programs/data-engineer/

Стоимость: 5 087 руб./месяц

Срок обучения: 15 месяцев

Документ: Диплом о профессиональной переподготовке

Курс предназначен как для новичков, так и сисадминов, а также fullstack и backend-разработчиков, которым нужны новые навыки в сфере аналитики данных.

Обучение строится на изучении теории (видеолекции, методические материалы), а затем закреплении теоретических знаний на практике (вебинары, домашние задания). Также за время обучения слушатели выполнят 6 масштабных проектов для портфолио.

В перечень задач входит разработка SQL-запросов, реализация процедуры ETL, настройка окружения и обучение модели, построение пайплайна в облачной среде и другие темы. Практику студенты отрабатывают в специальном тренажере на сайте онлайн-школы. Отдельная тема учебной программы посвящена карьерному планированию.

2. SkillFactory. Курс «Data Engineering»

Страница курса: https://skillfactory.ru/data-engineer/

Стоимость: 59 400 рублей

Срок обучения: 10 недель

Документ: Сертификат

Обучающая программа предназначена для специалистов с опытом Data Science, желающих расширить свои компетенции, а также для сисадминов и разработчиков. Иными словами, необходим соответствующий бэкграунд в IT.

Курс достаточно интенсивный, с большим количеством практики. Обучение строится на изучении лекций и выполнении практических заданий: на изучение каждого учебного модуля отводится неделя, все это время слушатели изучают видеолекции, оттачивают навыки на практике и общаются с преподавателем. В конце курса предстоит сдача итогового проекта по настройке пайплайнов и хранилища данных.

Минус курса в том, что обучение проводится в потоке и стартует по определенным датам, выбрать собственную дату занятий или объем нагрузки нельзя.

3. Skillbox. Курс «Профессия Data Engineer»

Страница курса: https://skillbox.ru/course/data-engineer/

Стоимость: 4 435 руб./месяц

Срок обучения: 18 месяцев

Документ: Диплом о профессиональной переподготовке

Полный курс для обучения Дата-инженеров с нуля. Подходит для новичков, которые хотят освоить SQL, Python, а также программистов и начинающих аналитиков данных, желающих подтянуть технические знания.

Слушателей учат: тестировать код, работать с библиотеками и фреймворками Python (pandas, airflow, spark), обрабатывать данные Big Data, разворачивать нужную программную инфраструктуру под проект Data Science и многое другое.

В целом, курс представляет собой нечто среднее между Data Engineering и Data Science: много внимания уделено как техническим вопросам, так и аналитике — что весьма ценно для будущего специалиста. В общей сложности слушатели курса сдают 3 практических итоговых проекта, которые станут основой портфолио.

Также у Skillbox есть свой Центр карьеры, который помогает выпускникам с составлением резюме, собеседованиями, ищет места для стажировки или трудоустройства новичков.

4. NewProLab. Курс «DATA ENGINEER 13.0»

Страница курса: https://newprolab.com/ru/dataengineer/

Стоимость: 129 000 рублей

Срок обучения: 2 месяца

Документ: Сертификат

Курс рассчитан на будущих инженеров данных с определенным опытом в IT: сисадминов, программистов. В числе входных требований: знание Python3, базовое знание Linux, Hadoop, SQL. Обучение достаточно интенсивное, поскольку завязано на практику. В общей сложности слушателям курса нужно выполнить 6 лабораторных работ.

Безусловный плюс курса — большое количество практических задач и наставничество. Минусы курса: не подходит для новичков в IT и дата-аналитиков. Кроме того, обучение ведется только со стартом потока, выбрать удобное время учебы нельзя.

5. Яндекс.Практикум. Курс «Инженер данных»

Страница курса: https://practicum.yandex.ru/data-engineer/

Стоимость: от 4 886 руб./месяц (95 000 руб.)

Срок обучения: 6,5 месяцев (нагрузка 12 часов в неделю)

Документ: Диплом о профессиональной переподготовке/Сертификат

Курс от учебного центра Яндекса предназначен для начинающих Data Scientist и бизнес-аналитиков, а также практикующих разработчиков и дата-инженеров. Есть порог вхождения: базовые знания SQL (синтаксис, вложенные запросы и их комбинирование, оконные функции, индексы для ускорения запросов) и Python (переменные, циклы, функции, условия, структуры данных, базовые навыки работы с Pandas, основы ООП).

В учебной программе 10 модулей, обучение достаточно интенсивное, несмотря на длительность курса. В конце — итоговый выпускной проект, в ходе которого слушатели самостоятельно выберут и будут реализовывать практические бизнес-задачи.

Плюсы курса: бесплатный вводный курс на 6,5 часов, практика, помощь кураторов и наставников, ориентированность на самостоятельное закрепление навыков, поддержка при трудоустройстве. Минусы: не подходит для новичков, обучение со стартом потока, довольно высокая нагрузка.

Вакансии для дата-инженеров на рынке труда

Самый простой способ проверить, насколько востребованы data engineer — это пройтись по любому сайту по поиску работы. На hh.ru в данный момент насчитывается более 1300 вакансий, хотя позиции для дата-сайентистов и дата-инженеров идут вперемешку. По всей видимости работодатели ещё не совсем ориентируются, какой именно специалист им нужен и ждут от соискателей полного набора компетенций.

Какие обычно условия предлагают:

  1. Полная занятость (хотя удаленные вакансии также имеются);

  2. Опыт от 1 года;

  3. Знания по части Python, баз данных и СУБД (таких как PostgreSQL);

  4. Владение инструментами и методами ETL.

Уровень зарплаты дата-инженеров в 2022 году

Несомненный и самый очевидный плюс на такой позиции — заработная плата. Хотя далеко не всегда она указывается, особенно для стажеров. Но это нормальная практика в IT-индустрии, где оплата труда складывается из конкретных знаний и умений кандидата.

Однако даже на позициях с минимальным опытом (1—3 года) работодатели готовы платить от 150000 рублей. Более опытные дата-инженеры могут рассчитывать уже на 350000 рублей. В зарубежных компаниях предлагают от 10000 USD.

Плюсы и минусы профессии дата-инженера

Плюсы:

  • Высокая заплата;

  • Перспективность;

  • Востребованность из-за дефицита специалистов;

  • Интересная работа для людей с аналитическим складом ума.

Минусы:

  • Размытые границы обязанностей;

  • Часто неясные и неочевидные требования к навыкам при найме;

  • Мало вакансий в провинции;

  • Высокий порог вхождения (требуется опыт в IT).

Курсы, выбранные нашей командой экспертов
Программа обучения
Школа Больших Данных/Школа прикладного бизнес-анализа
Дистанционная

BAMP: Управление бизнес-анализом - курс для руководителей

8 часов
18 000 ₽
Программа обучения
OOO «Эдюсон»
Дистанционная

BI-аналитик

50 часов
48 544 ₽
Программа обучения
ЧОУВО МИДИС
Очная

Управление IT-проектами

Программа обучения
ProductStar
Дистанционная

Менеджмент AI- и BigData-продуктов

128 часов
78 000 ₽
39 000 ₽