Распознавание голосовых сообщений и письменной речи — одно из передовых направлений в IT-отрасли. Однако, чтобы разрабатывать такие системы, нужны специфические познания на стыке лингвистики, математики и компьютерных наук. Таких специалистов называют компьютерными (цифровыми) лингвистами.
Описание профессии
Компьютерный лингвист — это работник IT-отрасли, который изучает и разрабатывает алгоритмы для распознавания живой речи и перевода их в текстовые сообщения, нередко с автоматическим переводом на иностранные языки. Чаще всего компьютерные лингвисты работают с технологией Big Data — большими массивами данных, которые нуждаются в обработке и интерпретации.
В общих чертах, что делает компьютерный лингвист: он учит распознавать компьютер человеческий язык общения, правильно его интерпретировать и выполнять определенные команды. Такие системы используются в целом ряде программных продуктов:
- Машинное обучение и нейросети;
- Голосовые помощники и чат-боты;
- Автоматические переводчики;
- Вопросно-ответные системы (QA Systems);
- Поисковые машины для работы с Big Data;
- Системы безопасности и защиты персональных данных;
- Программы антиплагиата;
- Текстовые редакторы (например, всем известный Microsoft Word);
- Поисковые системы.
Чем конкретно занимается компьютерный лингвист:
- Разрабатывает новые алгоритмы машинного перевода и генераторы текстов;
- Создает системы извлечения и распознавания текстовых данных;
- Участвует в разработке QA-систем;
- Составление электронных словарей и баз данных (словоформы, стоп-слова, обиходные выражения и идиомы, список синонимов);
- Разрабатывает системы антиплагиата, проверки орфографии и пунктуации, автоматического исправления текста;
- Анализирует работоспособность и адекватность работы программ обработки текста (системы проверки правописания, переводчики, измерители сходства текстов);
- Улучшает и модернизирует поисковые системы;
- Проводит аналитику поисковых запросов в интересах различных компаний.
- Компьютерный лингвист трудится в тесном контакте со специалистами по Big Data, для которых он пишет поисковую разметку, формулирует правила и паттерны поиска нужных данных.
Качества компьютерного лингвиста
Характерная черта профессия — совмещение, казалось бы, несочетаемых групп деятельности: лингвистики и программирования. Соответственно, компьютерный лингвист должен быть хорошо подкован как в языкознании, так и в написании кода.
Разумеется, компьютерный лингвист должен хорошо владеть языками программирования: Python (библиотеки и фреймворки), Ruby, C++, JavaScript, R, специализированными системами Prolog и Lisp и некоторыми другими.
Прочие качества компьютерного лингвиста:
- Знание иностранных языков (как минимум английского);
- Абсолютная грамотность. Это важно для создания правильной разметки и паттернов обучения поисковой машины;
- Высокие аналитические способности, умение работать с большими объемами информации;
- Образное мышление;
- Хорошая память;
- Внимательность;
- Навыки коммуникации с коллегами, умение доносить свою точку зрения.
Какое образование должно быть у компьютерного лингвиста?
Поскольку профессия сравнительно новая, приходит в нее как гуманитарии, так и технари по образованию. Соответственно, базовое образование у компьютерного лингвиста может быть любым: филологическим, физико-математическим, инженерным.
Однако далее обязательно нужно будет подтянуть те знания, которых вам не хватает: технарь, который не дружит с русским языком (или иностранным) и постоянно делает ошибки не сможет работать по этой специальности. Равно как и гуманитарий, не способный освоить матанализ и статистику, теорию вероятностей и языки программирования.
Где выучиться на компьютерного лингвиста
В первую очередь такая работа подходит, разумеется, программистам с навыками кодинга и знанием нескольких языков программирования. Однако быть технарем мало, поэтому чаще всего выпускникам мехмата или иного вуза советуют поступать в профильную магистратуру по компьютерной лингвистике. Где есть подходящие магистерские программы:
- НИУ «ВШЭ»;
- СПбГУ (направление «Инженерия гуманитарных знаний»);
- МФТИ им. Баумана (направления «Интеллектуальные системы» и «Методы машинного обучения»).
Увы, магистерских программ в России очень мало, поэтому помогут альтернативные варианты.
Онлайн-курсы компьютерной лингвистики
В настоящее время ряд онлайн-школ предоставляет возможность обучиться этой специальности на курсах. Тем не менее, нужно четко понимать, в каком направлении вы хотите работать. Это могут быть программы, посвященные обработке текстов, написанных на естественных языках, программы Data Science, по машинному обучению, разработке искусственного интеллекта и т.д.
Нередко крупные IT-компании, такие как «Яндекс», организуют практикумы по машинному обучению и иным прикладным вопросам, что также будет полезно.
Гораздо больше возможностей для трудоустройства у профессиональных лингвистов, языковедов и переводчиков. В данном случае придётся освоить языки программирования, начав с самого простого и востребованного — Python и его библиотеки (pandas, requests, pymorphy, nltk и другие). Его также преподают на онлайн-курсах для начинающих IT-разработчиков, но, возможно, придется освоить и другие в зависимости от условий работодателя.
Вакансии и уровень зарплаты компьютерных лингвистов в 2022 году
Большая часть вакансий для данных специалистов сосредоточена в Москве и Санкт-Петербурге. Это чаще всего компании, которые специализируются на разработке систем машинного обучения, чат-ботов, аналитике «Больших данных».
Что касается уровня зарплаты компьютерных лингвистов, то она типично для любого айтишника складывается из его умений, реальных навыков и опыта. В среднем, человек с опытом работы по специальности до 1 года может рассчитывать на 90000 рублей в месяц, с опытом от 3 лет — на 150000 рублей в месяц.
Плюсы и минусы профессии компьютерного лингвиста
Плюсы | Минусы |
Актуальность и востребованность | Длительное обучение |
Перспективность | Требуются специфические навыки и опыт |
Социальная значимость | Мало вакансий в провинции |
Высокая зарплата | |
Возможность трудоустройства в крупной компании |