Кто такие дата-саентисты

Дата-саентологи, дата-садисты — как только не называют специалистов самой сексуальной профессии XXI века. Правда, кое-кто считает этих странных парней аутистами и снобами, но разве одно противоречит другому? Кто такой data scientist и чем он занимается на работе попробовали разобраться авторы «Солянки».


На конференции по Data Science

Data Science — очередная продажная девка империализма!


Data Science — наука о данных. Согласно противоречивой Википедии: «раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме». На самом деле нет никакой разницы между «наукой о данных» и статистикой, но чтобы увлечь молодежь нужны модные стильные термины, и вот уже вместо аналитика-статистика у вас в компании заводится «дата-сайентист».


Его задачи погружаться в бездонный океан данных о клиентах и находить инсайты для увеличения прибыли компании. Кажется, примерно также говорили о «гроуз-хакерах», но те не умеют в статистику и вообще больше гуманитарии. Так что, если у вас анализом данных занимается беременный филолог, то он делает Growth Hacking, а если тоже самое творит инженер-шовинист, то он — дата-сайентист. Первый творит много красивых презентаций с точками роста, вторый рисует абстрактные картины из точек с комментариями вроде «я не использовал p-value, так как они могут приводит к false positive».


Мнение из интернета: «В этой профессии нужно уметь строить гипотезы и ставить вопросы. А затем еще и переводить с языка данных на язык бизнеса, выстраивать совместную работу аналитиков, разработчиков и тех, кто занимается собственно развитием бизнеса. Во многом задача data scientist — помочь всем этим специалистам понимать друг друга. 


Никого не напоминает? Ну, специалист, который вроде как программист, но должен понимать в бизнес-процессах?


Одинэсники же —  программисты-бухгалтера! Они, выходит, были первыми российскими «дата-саёнтистами» задолго до того, как это стало мейнстримом. Вот это поворот! Всё-таки журналистские расследования — крайне интересная штука. Мы сейчас как настоящие учёные по данным обнаружили мощный инсайт. С его помощью очень легко объяснять бизнесу «науку данных». 1С у всех почти в России есть, и кто такие 1С-программисты все хорошо знают. Слава нам!


Как проверить специалиста

Сотрудник, претендующий на вакансию в сфере Data Science, должен знать языки программирования. Предпочтительны R и/или Python плюс язык запросов (сойдет даже старый добрый SQL).


Далее нужно проверить знания кандидата в области статистики (ведь наука о данных и есть статистика). Методы проверки гипотез, нормальное распределение, виды группировки совокупностей и прочее математическое колдунство.


Поскольку работать предстоит с большими данными (BigData), то методы обработки будут завязаны на ИТ-технологии. Соответственно дата-сайентист (ну что за дебильное слово!) должен разбираться в машинном обучении, нейросетях, глубоком обучении. Знание мема про Германа Грефа является необходимым, но не достаточным условием!


Так что же это такое?!

Журналисты «Шпроты» пишут: «Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России)».


Математическое моделирование, построение гипотез, анализ выборки, задача поставщика, метод наименьших квадратов, симплекс-метод, системы дифференциальных уравнений второго порядка — весь этот инструментал каким-то хитрым способом должен помочь компании избежать рисков и найти точки роста. Каким образом студент-программист способен спасти корпорацию или холдинг не поясняется. Просто нанимайте его на работу и не задавайте вопросов. Вы что хотите выпасть из тренда?


Девушка и большие данные

Девушки любят большие. Данные.


«Солянка» выяснила кое-что! Действительно можно подождать и не гнаться за трендом. Следующий этап развития Data Science — тотальная автоматизация в принятии сложных решений. То есть скоро дата-сайентистов заменят алгоритмы, а работа с бигдатой будет стоит копейки. Собственно уже сейчас можно бесплатно использовать Яндекс.Аудитории для изучения аудитории торговых центров, а скоро таких возможностей будет ещё больше.


Перспективы профессии

У кандидата в дата-саенс есть два пути:

  • Инженерно-технический — писать кода, генерить алгоритмы, разрабатывать модели
  • Менеджерский — сидеть вместе с маркетологами и опорожнять кулеры

Ходят слухи, что лет через 10-20 от каждого эффективного менеджера будут требовать базовых знаний data science. Уже сейчас на загнивающем Западе растёт спрос на руководителей со знаниями в этой области.


Правда, есть подозрения, что такую статистику создают сами дата-сайентисты, чтобы оправдать свои зарплаты (не маленькие). Поскольку всякая статистика есть разновидности лжи, то доверять таким прогнозам не стоит. Лучше возьмите на работу ещё одного 1С-программиста. Не помешает!


Проблема с кадрами

Какой-то менеджер из «Авито» сказал: «На собеседовании соискатели говорят, что интересуются машинным обучением, а когда начинаешь спрашивать почему, отвечают: «Это модно». И всё. Понимания, как применить знания, нет. А в бизнесе все не так. Здесь есть задача, для которой необходимо найти оптимальный метод решения» людей.  


Работодатели видят в Data Scientist ясновидящего, чем пользуются участники шоу «Битва экстрасенсов», просачиваясь на теплые места и отбирая хлеб у честных дата-ученых.


Крутой инсайт от директора по маркетингу Алины Гашинской (Storia.me): «Не имеет смысла нанимать специалиста по работе с большими данными для того, чтобы он просто сидел в офисе — это будет достаточно дорого. Выгоднее нанимать проектно в случае отсутствия стороннего решения или если продукт нуждается во внутренней разработке».


Прим. редакции: Насколько нам стало известно, за такие инсайты Алину уволили.


Советы любителю ковыряться в данных:

  1. Без понимания машинного обучения — никуда.
  2. Данные — ваш бог.
  3. В России большие данные — это аналитика.
  4. Вы больше, чем маркетологи. Гоните их, насмехайтесь над ними!
  5. Вы бесценны как воздух и вода (а они бесплатны и их никто не ценит).

Резюме

Data-scientist — новомодная профессия и бизнесу нужна также как:

  • Балерины
  • Физики-теоретики
  • Маркетологи
  • Адепты Плоской земли
  • Тиффози
  • Мичманы подводных лодок

Чтобы на серьезных щщах доказывать свою правоту, Data Scientist должен разбираться в следующих видах магии:

  • Визуализация данных
  • Машинное обучение
  • Статистика
  • Математика
  • Hadoop + MapReduce
  • SAS, R, Python
  • MySQl + Postgres
  • Глубокое обучение
  • Распознавание образов
  • Подготовка данных
  • Текстовая аналитика


Визуализация данных

Простой понятный отчёт для принятия управленческих решений


В России зарплата в сфере Data Science составляет от 50 до 200 тысяч. Так что быть депутатом в России всё равно круче. Поэтому мы лично решили идти в политику, тем более, что Facebook уже показал, как BigData помогает выиграть выборы.


Вся информации статьи в одном определении: «Дата-саентист собирает большое количество неуправляемых и неструктированных данных ипреобразует их в понятный гуманитариям формат, чтобы решить конкретные задачи бизнеса заказчика исследования». Всё.


Что почитать:

Солянка в Телеграмм: sdigit

Нет комментариев
Добавить комментарий