Распознавание голосовых сообщений и письменной речи — одно из передовых направлений в IT-отрасли. Однако, чтобы разрабатывать такие системы, нужны специфические познания на стыке лингвистики, математики и компьютерных наук. Таких специалистов называют компьютерными (цифровыми) лингвистами.
Компьютерный лингвист — это работник IT-отрасли, который изучает и разрабатывает алгоритмы для распознавания живой речи и перевода их в текстовые сообщения, нередко с автоматическим переводом на иностранные языки. Чаще всего компьютерные лингвисты работают с технологией Big Data — большими массивами данных, которые нуждаются в обработке и интерпретации.
В общих чертах, что делает компьютерный лингвист: он учит распознавать компьютер человеческий язык общения, правильно его интерпретировать и выполнять определенные команды. Такие системы используются в целом ряде программных продуктов:
Машинное обучение и нейросети;
Голосовые помощники и чат-боты;
Автоматические переводчики;
Вопросно-ответные системы (QA Systems);
Поисковые машины для работы с Big Data;
Системы безопасности и защиты персональных данных;
Программы антиплагиата;
Текстовые редакторы (например, всем известный Microsoft Word);
Поисковые системы.
Designed by drobotdean/freepik
Чем конкретно занимается компьютерный лингвист:
Разрабатывает новые алгоритмы машинного перевода и генераторы текстов;
Создает системы извлечения и распознавания текстовых данных;
Участвует в разработке QA-систем;
Составление электронных словарей и баз данных (словоформы, стоп-слова, обиходные выражения и идиомы, список синонимов);
Разрабатывает системы антиплагиата, проверки орфографии и пунктуации, автоматического исправления текста;
Анализирует работоспособность и адекватность работы программ обработки текста (системы проверки правописания, переводчики, измерители сходства текстов);
Улучшает и модернизирует поисковые системы;
Проводит аналитику поисковых запросов в интересах различных компаний.
Компьютерный лингвист трудится в тесном контакте со специалистами по Big Data, для которых он пишет поисковую разметку, формулирует правила и паттерны поиска нужных данных.
Характерная черта профессия — совмещение, казалось бы, несочетаемых групп деятельности: лингвистики и программирования. Соответственно, компьютерный лингвист должен быть хорошо подкован как в языкознании, так и в написании кода.
Разумеется, компьютерный лингвист должен хорошо владеть языками программирования: Python (библиотеки и фреймворки), Ruby, C++, JavaScript, R, специализированными системами Prolog и Lisp и некоторыми другими.
Прочие качества компьютерного лингвиста:
Знание иностранных языков (как минимум английского);
Абсолютная грамотность. Это важно для создания правильной разметки и паттернов обучения поисковой машины;
Высокие аналитические способности, умение работать с большими объемами информации;
Образное мышление;
Хорошая память;
Внимательность;
Навыки коммуникации с коллегами, умение доносить свою точку зрения.
Поскольку профессия сравнительно новая, приходит в нее как гуманитарии, так и технари по образованию. Соответственно, базовое образование у компьютерного лингвиста может быть любым: филологическим, физико-математическим, инженерным.
Однако далее обязательно нужно будет подтянуть те знания, которых вам не хватает: технарь, который не дружит с русским языком (или иностранным) и постоянно делает ошибки не сможет работать по этой специальности. Равно как и гуманитарий, не способный освоить матанализ и статистику, теорию вероятностей и языки программирования.
Designed by gpointstudio/freepik
В первую очередь такая работа подходит, разумеется, программистам с навыками кодинга и знанием нескольких языков программирования. Однако быть технарем мало, поэтому чаще всего выпускникам мехмата или иного вуза советуют поступать в профильную магистратуру по компьютерной лингвистике. Где есть подходящие магистерские программы:
НИУ «ВШЭ»;
СПбГУ (направление «Инженерия гуманитарных знаний»);
МФТИ им. Баумана (направления «Интеллектуальные системы» и «Методы машинного обучения»).
Увы, магистерских программ в России очень мало, поэтому помогут альтернативные варианты.
В настоящее время ряд онлайн-школ предоставляет возможность обучиться этой специальности на курсах. Тем не менее, нужно четко понимать, в каком направлении вы хотите работать. Это могут быть программы, посвященные обработке текстов, написанных на естественных языках, программы Data Science, по машинному обучению, разработке искусственного интеллекта и т.д.
Нередко крупные IT-компании, такие как «Яндекс», организуют практикумы по машинному обучению и иным прикладным вопросам, что также будет полезно.
Гораздо больше возможностей для трудоустройства у профессиональных лингвистов, языковедов и переводчиков. В данном случае придётся освоить языки программирования, начав с самого простого и востребованного — Python и его библиотеки (pandas, requests, pymorphy, nltk и другие). Его также преподают на онлайн-курсах для начинающих IT-разработчиков, но, возможно, придется освоить и другие в зависимости от условий работодателя.
Большая часть вакансий для данных специалистов сосредоточена в Москве и Санкт-Петербурге. Это чаще всего компании, которые специализируются на разработке систем машинного обучения, чат-ботов, аналитике «Больших данных».
Что касается уровня зарплаты компьютерных лингвистов, то она типично для любого айтишника складывается из его умений, реальных навыков и опыта. В среднем, человек с опытом работы по специальности до 1 года может рассчитывать на 90000 рублей в месяц, с опытом от 3 лет — на 150000 рублей в месяц.
Плюсы:
Актуальность и востребованность;
Перспективность;
Социальная значимость;
Высокая зарплата;
Возможность трудоустройства в крупной компании.
Минусы:
Длительное обучение;
Требуются специфические навыки и опыт;
Мало вакансий в провинции.