Data science с чего начать обучение самостоятельно: 6 шагов, которые помогут стать специалистом по Data Science

Содержание

6 шагов, которые помогут стать специалистом по Data Science

Давно думали разобраться в науке о данных, но не знали, с чего начать? Мы собрали материалы, которые помогут стать специалистом по Data Science.

Прежде чем перейти к обсуждению необходимых знаний, объясним, зачем вообще становиться специалистом по Data Science.

Мы живем в мире, которым управляют данные. То, что делает компании ценными, − это объем, уникальность и качество данных, которые они накопили за время существования. Каждый новый байт данных позволяет корпорациям зарабатывать больше. Сейчас количество населения в мире на пике, количество пользователей интернета тоже, а значит объём потребляемых и разглашаемых пользователями данных крайне высок. И это не предел.

Компании в настоящее время нуждаются в квалифицированных сотрудниках, которые смогут эффективно работать с большими наборами данных и помогут усовершенствовать продукты.

По данным Эндрю Чемберлена из Glassdoor Data Science лидирует в списке лучших вакансий. Список основан на удовлетворённости сотрудников, уровне заработной платы и спросе на специалистов. Важно, что исследователи данных нужны во всех сферах бизнеса − от медицинских сервисов и некоммерческих организаций до розничной торговли.

Вообще-то, мы имели в виду изучение основ программирования в принципе. Но время − ресурс ограниченный, поэтому если вы ещё не считаете себя программистом, то начать стоит именно с Python. Почему? Он сочетает в себе спрос на специалистов, простоту изучения и многофункциональность. К тому же, у него простой синтаксис. После того, как вы изучите основы Python, вам нужно потратить время на знакомство с главными библиотеками.

Вот список рекомендаций по изучению библиотек:

1. Основные библиотеки: Numpy, Scipy, Pandas.
2. Визуализация: Matplotlib, Seaborn.
3. Машинное обучение и глубокое обучение: SciKit-Learn, TensorFlow, Theano, Keras.
4. Обработка естественного языка: NLTK, TextBlob, Aylien.
5. Веб-скрапинг: Запросы, BeautifulSoup 4, Scrapy.

Вам нужно будет использовать концепции статистики и математики для понимания принципов работы анализа данных в офлайне. Статистика, как правило, рассматривается как один из столпов науки о данных. Но поскольку это обширная область исследований, она может показаться необъятной. Есть специальный подкаст, который объясняет математику, необходимую для анализа данных.

Вообще, для начала стоит разобраться с теорией вероятности, статистическими выводами, моделью регрессии и сутью корреляции.

Специалист по данным − человек, который лучше любого инженера знает статистику и умеет писать код лучше, чем любой статистик.

Все компании − от Facebook до New York Times используют базы данных, чаще всего с помощью SQL (языка структурированных запросов). Вам нужно изучить SQL, чтобы быстро добавлять, изменять или извлекать данные из этих баз.

Один из лучших ресурсов для изучения − SQL Zoo. Другой вариант − наши статьи. Вы также можете использовать бесплатные шпаргалки по SQL, ведь запомнить все функции сразу будет тяжело.

Алгоритмы для компьютерных программ − как рецепты для поваров (начинающих). Это ряд инструкций, следуя которым программа правильно выполняет то, чего от неё хотят. Существует множество алгоритмов. Вам нужно изучить их все и понять, какой алгоритм когда использовать (в зависимости от задачи).

Алгоритмы можно разбить на три основных типа: линейные, с ветвлениями, с повторениями.

А это список того, что предстоит изучить:

  • Линейная регрессия
  • Логистическая регрессия
  • Наивный байесовский классификатор
  • Метод k-ближайших соседей
  • Метод опорных векторов
  • Дерево решений
  • Random Forest

Как только вы познакомитесь с этими концепциями, важно реализовать их самостоятельно, чтобы уложить в голове, как они работают. Вам поможет Github-репозиторий с примерами реализации.

Следует понимать, как лучше визуализировать результаты работы. Чтобы профессионально представлять результаты, нужно знать, как использовать разные библиотеки визуализации данных в Python. Кроме того, вы получите преимущество, если научитесь работать с такими технологиями, как Tableau. Людям легче и удобнее получать информацию, используя визуальные эффекты, а не рыться в огромных объемах данных.

Многие одиночки труднее достигают поставленных целей, чем те, кто взаимодействует с единомышленниками. Будучи частью сообщества, вы не только быстрее вольётесь в сферу науки о данных, но и будете первым узнавать о новых веяниях, важных для работы. Было бы странным отставать от коллег-конкурентов, развиваясь такими же методами, как и они. Как минимум, стоит регулярно изучать обновления проектов из сферы на GitHub.

Вот некоторые люди и организации, которые стоит читать в Twitter:

Эта статья не является полным перечнем всех навыков, необходимых для того, чтобы стать хорошим специалистом. Ее цель − дать широкое представление о тех навыках, которые ожидают от человека, если он решает заниматься наукой о данных.

  • Как научиться data science
  • Python для Data Science: 8 понятий, которые важно помнить
  • Говорят и показывают сеньоры: обучение Junior Data Scientist

Источник: Как стать специалистом по Data Science on Medium

Самообучение в Data science, с нуля до Senior за два года / Хабр

Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).

Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны «мета» материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного. Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.

И важно сказать сразу: я верю, что любой человек с аналитическими способностями и структурным мышлением может стать специалистом по машинному обучению/data science. Еще 4 года назад я сомневался, потеряв веру в свои математические способности из-за преподавателей университета. Теперь верю: основы машинного обучения и минимально необходимую математику сможет выучить любой сильно замотивированный человек.

 Мой опыт:

  • Когда я понял, что скоро мне стукнет 30 лет, решил уйти в другую сферу и переехать из РФ. В своей сфере (1С) я был карьерно успешен, но стало ясно, что дальнейший рост очень затруднителен и требует выполнять работу, которая мне неинтересна и почти противна.

  • Через полгода перебора вариантов решил, что Data science мне интереснее всего.

  • Ещё через год имел достаточную квалификацию и прошёл собеседование на работу в Чехии (оговорка: у меня еще до этого было неплохое знание английского).

  • Ещё через год стал Senior Data scientist в Vodafone (мой LinkedIn).

Цель — учиться эффективнее и бесплатно

Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok. org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.

На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).

Сначала надо понять, что такое Data science/машинное обучение и подойдет ли оно вам

Потому что если это просто модное слово и вы хотите получать много денег или работать в Гугл, то легче заработать на позиции маркетолога или веб-аналитика, и это тоже достаточно аналитичная работа. 

Какие альтернативы:

Возможно, вы технарь-интроверт, желающий делать что-то своими руками и не желающий много общаться с другими людьми или вникать в бизнес (потому что DS очень прикладная штука, требующая погруженная в предметную область). Тогда есть варианты: или «просто программирование» вам будет интереснее (Не хочется разрабатывать сайты? — Нужны разработчики бэкенд приложений и дата-инженеры, в больших количествах), или если всё-таки хочется заниматься машинным обучением, то изучать все методы data science и знать их лучше всех, чтобы пойти сразу в более крупную компанию, где достаточно чисто-технических задач.

Если вы человек творческий, возможно, разработка интерфейсов (фронтенд, мобильные приложения) вам подойдёт больше.

Если вы от природы аналитик и любите разбираться в данных, но программирование вас не заинтересует, а на изучение всей математики вам не хватает времени, стоит выбрать тот же самый учебный путь! Просто сделать акцент на менее математических задачах, и не лезть в программироване сложных систем. Аналитики, знающие основы data science, тоже нужны в компаниях.

Подробнее об альтернативах написал в статье: Стоит ли смотреть в сторону дата сайенс?

Важно, чтобы работа зажигала. Без искреннего интереса «грызть» Data science будет тяжело, потому что надо разобраться в куче нюансов, особенно если у вас нет за плечами хороших знаний в статистике, линейной алгебре и мат.анализе.

Как понять, будет ли вам интересно заниматься именно data science?

Лучший способ — прочитать что-то лёгкое, но дающее представление о широтие используемых методов.

Мне кажется, что идеально эту роль выполняет книга Datasmart (выше писал сайт, на котором я нашёл её бесплатно). На русский она тоже переведена: «Много цифр. Анализ больших данных при помощи Excel, Джон Форман». Хотя, если вы хотите работать в data science, знание английского необходимо (технический английский выучить намного легче разговорного, и это будет очень полезно для любой работы в ИТ).

Эта книга показывет многие из технических методов Data science на уровне интуиции и даёт сразу достаточно детальное представление о решаемых задачах и где в бизнесе можно применить данные модели.

Если эта книга не вызовет интерес разобраться во всех указанных алгоритмах детальнее, вероятно, работа в data science не для вас.

Если книга интересн вызовет, но вам также хочется больше программировать, скорее всего, вам интересно будет стать machine learning engineer. Разница между data scientist  и machine learning engineer в том, что первый должен общаться с людьми и понимать, какую задачу имеет смысл решать, а второй должен уметь состыковать программы с «искусственным интеллектом» с другими ИТ системами, мобильными телефонами или требованиями обрабатывать огромные объемы данных.

Кстати, подобная книга для тех, кто хочет понять стоит ли ему заниматься визуализацией данных (PowerBI, Tableau и т.п.) — «Storytelling with data». Если эта книга тоже вдохновила, вместе с предыдущей, вероятно вы data scientist, способный выполнять и роль аналитика. Если же заниматься объяснением данных вам неинтересно, вам стоит нацелеваться на позицию machine learning engineer или подумать, не легче ли быть «обычным» программистом.

Что учить

Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:

  • Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат. анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.

  • Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.

    Каждый data scientist немного программист. При этом именно python является стандартом де-факто для нашей сферы. Вероятно, этот язык занял своё положение благодаря тому, что он очень простой и логичный. Если вы программировали на чём угодно, и слова «цикл» или «if-then-else» вас не пугают, то вам не будет очень сложно освоить Пайтон. Если вы никогда не программировали, но считаете, что структурное и математическое мышление — ваш конёк, с программированием у вас не будет проблем. Даже если вы «конченный гуманитарий», освоить Python значительно легче, чем выучить многие иностранные языки (но, внимание! для людей без предыдущего опыта программирования обучаться ему эффективнее по-другому, не так, как для тех, кто уже имеет опыт программирования) 

Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL

Английский необходим!

Как минимум, технический английский, на уровне чтения документации и профессиональных книг, — абсолютная необходимость. В этой сфере особенно: всё слишком быстро меняется. На русский язык все важные книги просто не будут успевать переводить, а многие критически важные библиотеки — даже и не будут пытаться. Поэтому, пока вы не способны читать упомянутые книги в оригинале, у вас вряд ли получится эффективно изучать data science. Хорошая новость: техническая терминология намного уже нормального разговорного языка и слэнга. Поэтому выучить английский на необходимом уровне не так уж и сложно. К тому же, знания языка могут пригодиться во многих других сферах, и даже в отпуске.

Принципы эффективного обучения

  1. Эффективный учебный план. Хороший план позволяет вам учить вещи в таком порядке, чтобы каждая новая вещь базировалась на уже полученных знаниях. И, в идеале, он идёт по спирали, постепенно углубляя знания во всех аспектах. Потому что учить теоретически математику, без интересных примеров применения — неэффективно. Именно это является одной из проблем плохого усваивания материалов в школе и институте.

    Учебный план — это именно та вещь, которую без опыта составить труднее всего. И именно с этим я стараюсь помочь.

  2. Следует концентрироваться на понимании главных принципов — это легче, чем запоминать отдельные детали (они часто оказываются не нужны). Особенно важно это становится, когда вы учите язык программирования, тем более свой первый: не стоит зубрить правильное написание команд («синтаксис») или заучивать API библиотек.

    Это вторая вещь, с которой я хочу помочь — разобраться, что важно, а на что не следует тратить много времени.

Программирование: что и как учить?

Что такое SQL и зачем его учить?

SQL является стандартом для получения данных в нужном виде из разных баз данных. Это тоже своеобразный язык программирования, который дополнительно к своему основному языку используют многие программисты. Большинство самых разных баз данных использует один и тот же язык с относительно небольшими вариациями.

SQL простой, потому что он «декларативный»: нужно точно описать «запрос» как должен выглядеть финальный результат, и всё! — база данных сама покажет вам данные в нужной форме. В обычных «императивных» языках программирования нужно описывать шаги, как вы хотите чтобы компьютер выполнил вашу инструкцию. C SQL намного легче, потому что достаточно только точно понять что вы хотите получить на выходе.

Сам язык программирования — это ограниченный набор команд. 

Когда вы будете работать с данными — даже аналитиком, даже необязательно со знанием data science, — самой первой задачей всегда будет получить данные из базы данных. Поэтому SQL надо знать всем. Даже веб-аналитики и маркетологи зачастую его используют.

Как учить SQL:

Наберите в Гугле «sql tutorial» и начните учиться по первой же ссылке. Если она вдруг окажется платной, выберете другую. По SQL полно качественных бесплатных курсов.

На русском языке тоже полно курсов. Выбирайте бесплатные.

Главное — выбирайте курсы, в которых вы можете сразу начать прямо в браузере пробовать писать простейшие запросы к данным. Только так, тренируясь на разных примерах, действительно можно выучить SQL.

На изучение достаточно всего лишь от 10 часов (общее понимание), до 20 часов (уверенное владение большей частью всего необходимого).

Почему именно Python?

В первую очередь, зачем учить Python. Возможно, вы слышали что R (другой популярный язык программирования) тоже умеет очень многое, и это действительно так. Но Python намного универсальнее. Мало сфер и мест работы, где Python вам не сможет заменить R, но в большинстве компаний, где Data Science можно делать с помощью Python, у вас возникнут проблемы при попытке использования R. Поэтому — точно учите Python. Если вы где-то услышите другое мнение, скорее всего, оно устарело на несколько лет (в 2015г было совершенно неясно какой язык перспективнее, но сейчас это уже очевидно).

У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.

Как учить Python

Основы:

http://pythontutor.ru/

Прочитать основы и пройти все упражнения с этого сайта можно за 5-40 часов, в зависимости от вашего предыдущего опыта.

После этого варианты (все эти книги есть и на русском):

  1. Learning Python, by Mark Lutz (5 издание). Существует и на русском.

    Есть много книг, которые сразу обучают использованию языка в практических задачах, но не дают полного представления о детальных возможностях языка.

    Эта книга, наоборот, разбирает Python досконально. Поэтому по началу её чтение будет идти медленнее, чем аналоги. Но зато, прочтя её, вы будете способны разобраться во всём.

    Я прочёл её почти целиком в поездах в метро за месяц. А потом сразу был готов писать целые программы, потому что самые основы были заложены в pythontutor.ru, а эта книга детально разжевывает всё.

    В качестве практики берите, что угодно, когда дочитаете эту книгу до 32 главы, и решайте реальные примеры (кстати, главы 21-31 не надо стараться с первого раза запоминать детально. Просто пробежите глазами, чтобы вы понимали что вообще Python умеет).

    Не надо эту книгу (и никакую другую) стараться вызубрить и запомнить все детали сразу. Просто позже держите её под рукой и обращайтесь к ней при необходимости.

    Прочитав эту книгу, и придя на первую работу с кучей опытных коллег, я обнаружил, что некоторые вещи знаю лучше них.

  2. Python Crash Course, by Eric Matthes

    Эта книга проще написана и отсеивает те вещи, которые всё-таки реже используются. Если вы не претендуете быстрее стать высоко-классным знатоком Python — её будет достаточно.

  3. Automate the Boring Stuff with Python

    Книга хороша примерами того, что можно делать с помощью Python. Рекомендую просмотреть их все, т.к. они уже похожи на реальные задачи, с которыми приходится сталкиваться на практике, в том числе специалисту по анализу данных.

Какие трудозатраты?

Путь с нуля до уровня владения Python, на котором я что-то уже мог, занял порядка 100ч. Через 200ч я уже чувствовал себя уверенно и мог работать над проектом вместе с коллегами.

(есть бесплатные программы — трекеры времени, некоторым это помогает для самоконтроля) 

Следующие статьи по данной теме

Стоит ли смотреть в сторону дата сайенс? — показывает альтернативные специализации, куда можно и, вероятно, стоит целиться, если вы планируете начать путь в дата сайенс без знаний математики и опыта в программировании.

Обзор принципов «как учиться», которые помогли мне учиться быстро и эффективно.

Изучение data science c нуля: этапы и вехи

Обзор платформ для изучения машинного обучения с нуля

Курсы и книги

Для желающих могу выступить в роли ментора

Если после прочтения всех моих статей у вас остались вопросы, т.к. ваша ситуация специфична — могу помочь вам индивидуально. Пишите:

self.development.mentor в домене gmail.com, Олег

Как научиться науке о данных с нуля [Руководство 2023]

В ЭТОЙ СТАТЬЕ

  • Почему наука о данных?
  • Чем занимается специалист по данным?
  • Шаги для изучения науки о данных
  • Можете ли вы самостоятельно изучить науку о данных?
  • Часто задаваемые вопросы по науке о данных

ПРИСОЕДИНЯЙТЕСЬ К НАШЕЙ ИНФОРМАЦИОННОЙ БЮЛЛЕТЕНЬ

Благодаря горячему рынку труда, высоким зарплатам и многообещающим карьерным возможностям сейчас самое время стать специалистом по данным. Но что, если вы начинаете с нуля? К счастью, существует множество различных путей обучения. Вы можете получить навыки в этой области разными способами — от получения диплома колледжа до посещения учебных курсов и самостоятельного обучения. Не уверен, где начать? В этой статье мы покажем вам, как из новичка стать готовым к работе в области науки о данных.

Почему наука о данных?

Наука о данных вышла на передний план индустрии программного обеспечения, потому что компании начали понимать важность данных. Эффективный поиск и обработка данных является обязательным требованием для растущих организаций сегодня. Компании используют специалистов по данным для получения информации, которая может помочь им переиграть конкурентов и увеличить прибыль.

Благодаря этому в области науки о данных открывается множество возможностей. Американское бюро трудовой статистики прогнозирует, что эта область вырастет почти на 30% к 2026 году. Отчасти поэтому US News включила «Ученый по данным» в тройку лучших вакансий в области технологий.

Поскольку компании конкурируют за лучшие таланты, зарплаты растут. Университет Сан-Франциско сообщает, что выпускники его программы MS in Data Science получают среднюю зарплату в размере 125 000 долларов. Более 90% выпускников получили работу на полную ставку в течение трех месяцев после завершения программы.

Прежде чем погрузиться с головой в мир науки о данных, вы можете задаться вопросом: чем на самом деле занимается специалист по данным? Давай выясним.

Чем занимается специалист по данным?

Исследователь данных превращает данные в важные идеи. Эти идеи помогают высшему руководству при принятии бизнес-решений.

Наука о данных начинается со сбора и очистки данных. Последнее необходимо, потому что данные, когда они впервые получены, не поступают в форме, которую легко анализировать. Обычно есть отсутствующие записи, поврежденные тома и т. д. Поэтому специалисты по данным используют статистические методы и инженерные навыки для очистки этих данных.

Затем они проводят предварительный анализ данных, в ходе которого ищут закономерности в данных. Специалисты по данным делают это путем написания алгоритмов и создания моделей, которые можно использовать для проведения экспериментов с наборами данных и получения полезных сведений.

Исследователи данных сообщают о своих выводах другим командам и руководству. Это часто требует визуализации данных и навыков презентации.

Подводя итог, вот некоторые из задач, поставленных перед специалистами по данным: 

  • Определение возможностей использования данных для решения проблем.
  • Исходные данные, которые могут быть полезны при решении задачи.
  • Очистите данные и убедитесь, что они соответствуют стандартам организации в отношении точности данных.
  • Используйте алгоритмические подходы и создавайте модели для получения информации.
  • Используйте визуализацию данных и рассказывание историй, чтобы донести результаты до различных заинтересованных сторон.

Теперь, когда мы знаем, чем занимается специалист по данным, давайте посмотрим, как изучать науку о данных, если вы только начинаете работать в этой области.

Шаги для изучения науки о данных

  1. Создайте прочную основу для статистики и математики

  2. Изучите программирование с помощью Python и R

  3. Ознакомьтесь с базами данных

  4. Изучение методов анализа данных

  5. Учись, люби, практикуйся и повторяй

  6. Узнайте, как использовать инструменты обработки данных

  7. Работа над проектами по науке о данных

  8. Станьте рассказчиком данных

  9. Сеть

  10. Всегда учись

Вот шаги для изучения науки о данных с нуля.

Создание прочного фундамента в статистике и математике

Как и многие другие научные дисциплины, математика является основой для работы в науке о данных и даст вам прочную теоретическую базу в этой области.

При работе в области науки о данных статистика и вероятность являются наиболее важными областями для понимания. Большинство алгоритмов и моделей, которые строят специалисты по данным, представляют собой просто программные версии подходов к решению статистических задач.

Если вы новичок в области статистики и вероятности, вы можете начать с курса 101. Используйте это как возможность изучить основные понятия, такие как дисперсия, корреляции, условные вероятности и теорема Байеса. Это поможет вам понять, как эти концепции применимы к работе, которую вы будете выполнять как специалист по данным.

Вот видео, в котором рассказывается о некоторых математических понятиях, которые вам необходимо изучить, если вы новичок в науке о данных.

Изучите программирование с помощью Python и R

После того, как вы ознакомитесь с необходимыми математическими концепциями, пришло время освоить некоторые навыки программирования, чтобы вы могли превратить все эти математические ноу-хау в масштабируемые компьютерные программы. Python и R — два самых популярных языка программирования, используемых в науке о данных, так что это хорошее место для начала.

Python и R — хорошие отправные точки по нескольким причинам. Они оба с открытым исходным кодом и бесплатны, а это означает, что каждый может научиться программировать на этих языках. Вы можете программировать на обоих языках в Linux, Windows и macOS. Самое главное, эти языки удобны для начинающих, с синтаксисом и библиотеками, которые просты в использовании.

Вы можете выполнить почти любую задачу по обработке данных, используя Python и R вместе, но у них есть свои сильные стороны в определенных областях. Python имеет тенденцию работать лучше, когда вы работаете с огромными объемами данных. Он превосходит R, когда речь идет о задачах глубокого обучения, веб-скрапинге и автоматизации рабочих процессов.

R — это язык, который лучше всего подходит для перевода статистических подходов в компьютерные модели. Он имеет множество статистических пакетов, которые можно быстро и легко применять к наборам данных. Это упрощает создание статистических моделей в R по сравнению с Python.

В конечном итоге выбор между Python и R зависит от ваших карьерных целей. Python — лучшая отправная точка, если вы хотите работать в таких областях науки о данных, как глубокое обучение и искусственный интеллект. Начните с R, если вы больше склоняетесь к чисто статистическим подходам и построению моделей. И помните, вы всегда можете изучить другой в будущем.

Знакомство с базами данных

Специалистам по данным необходимо знать, как работать с базами данных, чтобы они могли извлекать данные, с которыми они работают, и сохранять их после обработки.

Язык структурированных запросов (SQL) — один из самых популярных языков запросов к базам данных. Он позволяет хранить новые данные, изменять записи и создавать таблицы и представления. Инструменты для работы с большими данными, такие как Hadoop, имеют расширения, которые позволяют выполнять запросы с использованием SQL, что является дополнительным преимуществом. Вот пост с 7 ресурсами, которые помогут вам легко изучить большие данные.

Как специалисту по данным, вам не нужно глубокое понимание технологий баз данных. Оставьте это администраторам базы данных. Как специалисту по данным, вам просто нужно понять, как работают реляционные базы данных, и изучить конкретные команды запросов для извлечения и хранения данных.

Изучение методов анализа данных

Существуют различные методы, которые можно использовать для анализа набора данных. Конкретный подход, который вы используете, зависит от проблемы, которую вы хотите решить, и характера данных, которые вы используете. Ваша работа как специалиста по данным состоит в том, чтобы иметь предвидение, необходимое для того, чтобы знать, какой метод лучше всего подойдет для конкретной проблемы.

В промышленности обычно используются несколько методов анализа данных. Это включает кластерный анализ, регрессию, анализ временных рядов и когортный анализ. В этом посте подробно описаны все популярные методы анализа данных.

Вам не нужно знать все существующие методы анализа данных. Более важно, чтобы вы понимали использование конкретного подхода. Лучшие аналитики данных — это те, кто может быстро связать проблемы с методами анализа данных.

Знакомство с другими студентами, изучающими науку о данных

HAOTIAN WU

Data Scientist по адресу reptrak

Read Story

Брайан Дикинсон

Старший маркетинговый аналитик REI

Читая история

Джонатан Кинг

SR. Healthcare. , Практикуйтесь и повторяйте

После того, как вы изучите методы анализа данных, вы можете начать работать над проектами для начинающих.

Но помните, более важно иметь четкое функциональное понимание всего, что вы уже узнали, а не поверхностное понимание широкого круга тем. Практикуйте то, что вы изучаете, чтобы убедиться, что вы это понимаете.

Допустим, вы изучаете понятие средневзвешенного значения. Не останавливайтесь только на изучении определения. Попробуйте реализовать программу на Python, которая вычисляет средневзвешенное значение набора данных. Обучение на практике помогает вам получить глубокое понимание концепций, которые вы изучаете.

Узнайте, как использовать инструменты обработки данных

Инструменты обработки данных упрощают работу. Например, Apache Spark обрабатывает задания пакетной обработки, а D3.js создает визуализацию данных для браузеров. Этот пост содержит информацию о некоторых других популярных инструментах обработки данных.

На данном этапе вам не нужно владеть одним конкретным инструментом. Вы можете сделать это, когда начнете работать и будете знать, какие инструменты требуются вашей компании. На этом этапе достаточно выбрать тот, который кажется интересным, и поиграть с ним. Цель состоит в том, чтобы получить общее представление об инструментах и ​​о том, чего можно с их помощью достичь.

Если у вас есть конкретная компания, в которой вы хотите работать, вы можете просмотреть описания вакансий, которые они публикуют. Обычно они упоминают такие инструменты, как Hadoop и Tensor Flow. Вы можете ознакомиться с этими инструментами, если хотите работать в этой конкретной организации.

Работа над проектами по науке о данных

Теперь пришло время связать все воедино, создав личные проекты. Давайте посмотрим на пару примеров того, как могут выглядеть эти проекты.

Анализ тональности

Анализ тональности — это процесс определения чувств, выраженных в конкретном тексте. Вы можете попробовать использовать бинарное представление (положительное или отрицательное настроение) или использовать более детальный подход и маркировать тексты на основе различных эмоций, таких как счастье, возбуждение или любопытство.

Вы можете выполнить анализ тональности любого текста в Интернете. Каналы социальных сетей часто являются хорошим источником данных такого рода, и вы можете проанализировать определенный хэштег для своего проекта анализа настроений.

Система рекомендаций

Допустим, вы создаете систему рекомендаций фильмов. Наборы данных MovieLens могут служить источником ваших данных. Затем вы можете создать свою систему рекомендаций на основе таких соображений, как жанр, актеры, время выполнения и т. д. 

Это всего лишь пара примеров. Займитесь чем-то, к чему вы испытываете страсть, и посмотрите, как вы сможете извлечь некоторые идеи, используя данные.

Станьте рассказчиком данных

Специалисты по обработке данных должны сообщать о своих выводах таким образом, чтобы их коллеги могли их понять. Вот где в игру вступает сила повествования. Вот три основных компонента практики рассказывания историй на основе данных:

Повествование

Повествование — это история и контекст, которые вы хотите донести до своей аудитории.

Визуализации

Это графические изображения данных. Вы можете использовать графики, диаграммы, видео и диаграммы, чтобы поддержать свое повествование таким образом, чтобы ваша аудитория могла его понять.

Сеть

Если вы готовы приступить к поиску работы в области науки о данных, помимо работы над личными проектами и составления резюме важно также общаться с людьми из отрасли.

Есть много способов, которыми сеть может помочь, когда вы только начинаете свое путешествие в науку о данных. Общение с учеными данных может помочь вам понять состояние отрасли и то, каково это работать. Общение с рекрутерами может дать вам представление об их процессе собеседования и, возможно, помочь вам найти работу. Вы также можете многое получить, общаясь с людьми, которые разбираются в различных отраслях и в том, как они используют данные для принятия решений.

По всем этим причинам молодым специалистам по данным важно общаться в сети.

Всегда учись

Ваше обучение не заканчивается после того, как вы создадите несколько проектов или получите работу. Наука о данных постоянно развивается, и вам тоже нужно продолжать развиваться.

Вы должны быть в курсе прогресса в отрасли. Если вы не знаете, что меняется, вы не будете знать, чему вам нужно научиться. Следите за авторитетами в этой области и читайте отраслевые информационные бюллетени.

Существуют различные сертификаты для повышения квалификации специалиста по данным. Мы составили список лучших здесь.

Прочтите по теме: Как стать специалистом по данным

Можете ли вы самостоятельно изучить науку о данных?

Вы можете самостоятельно изучать науку о данных с помощью онлайн-курсов или даже видео на YouTube. В Интернете нет недостатка в учебных материалах, если вы стремитесь сделать карьеру в этой области.

Тем не менее, самообучению не хватает структуры, и вы можете не знать, каких важных элементов вам не хватает. Курсы по науке о данных и учебные курсы — это благоприятная среда для тех, кто ищет независимости и поддержки, поскольку они предоставляют опытного преподавателя и когорту, чтобы предложить обратную связь.

Часто задаваемые вопросы по науке о данных

Сколько времени нужно, чтобы изучить науку о данных?

Это зависит от вашего темпа, но рекомендуется дать себе как минимум шесть месяцев, прежде чем вы начнете считать себя начинающим специалистом по данным. Это даст вам возможность освоить необходимые навыки и реализовать их в виде личных проектов.

Кто может работать в области науки о данных?

На самом деле нет никаких ограничений для тех, кто может работать в области науки о данных. Работать в этой сфере можно даже без высшего образования. Если у вас есть правильные теоретические основы и проекты, которые вы можете показать рекрутерам, любой может получить работу в отрасли.

Связанное чтение:  Как заняться наукой о данных (без степени в области науки о данных)

Трудно ли изучать науку о данных?

Науку о данных освоить несложно, если выбрать правильные методы обучения и материалы. Подумайте о том, как вы учитесь, и найдите ресурсы для этого. Например, некоторые могут обучаться самостоятельно с помощью видео, в то время как другие предпочитают учебные курсы под руководством наставника. Не бойтесь экспериментировать с несколькими различными методологиями обучения и соглашайтесь на одну из них только после того, как у вас будет доказательство того, что она работает на вас.

Является ли наука о данных стрессовой работой?

По данным US News, наука о данных — это работа со средним уровнем стресса. Вы можете облегчить свою работу, лучше управляя своими задачами и общаясь с вашим менеджером, если вы перегружены. Наука о данных более гибкая, чем другие профессии, поэтому вы можете попробовать работать удаленно или в качестве фрилансера, если вас утомляют традиционные режимы работы.

Раз уж вы здесь… Вы специалист по данным будущего? Изучите наше бесплатное руководство о том, что такое специалист по обработке и анализу данных на самом деле делает. Когда вы будете готовы составить резюме, которое заставит менеджеров по найму растаять, присоединяйтесь к нашему учебному курсу Data Science Bootcamp, который гарантирует работу или оплату за обучение!

7 Советы по обучению для самостоятельного обучения науке о данных

Работа в области науки о данных или приобретение навыков работы с данными не зависит от степени или традиционной карьеры.

Сочетание нетрадиционного обучения с правильными навыками и опытом может привести вас далеко вперед, если вы хотите начать свою карьеру в науке о данных, перейти в поле или просто применить эти современные, очень актуальные навыки в другой области. экспертизы.

«Взлетно-посадочная полоса для науки о данных теперь намного короче», — сказал Джозеф Сантарканджело, доктор философии, специалист по данным IBM и инструктор нескольких курсов и программ edX по науке о данных, от Python до глубокого обучения. «Для многих из них вам больше не нужно иметь докторскую степень. Вам не нужно тратить годы и годы на изучение чего-либо».

Ознакомьтесь с вводной информацией о том, что нужно для изучения навыков работы с данными, и с семью советами, с чего начать.

Возможности Разблокировка навыков работы с данными

Область науки о данных полна потенциала и возможностей. Общий поиск на сайте Indeed по запросу «ученый по данным» выдает более 15 000 вакансий по науке о данных, многие из которых оплачиваются в диапазоне от 90 000 до 100 000 долларов. Эксперты по науке о данных и специалисты по искусственному интеллекту заняли 14-е и 15-е места в отчете LinkedIn «Вакансии на подъеме» за 2021 год. И хотя 2020 год стал первым за долгое время годом, когда специалист по данным не занимал первое место в ежегодном рейтинге Glassdoor, в 2021 году он вернулся на второе место9.0003

Специалист по обработке и анализу данных — не единственная профессия, требующая навыков работы с данными. Эксперты считают, что изучение навыков работы с данными поможет кандидатам повысить ценность любой роли, давая соискателям с этим навыком преимущество над конкурентами. Например, если вы в настоящее время работаете в отделе маркетинга или финансов, изучение науки о данных может открыть для вас новые карьерные возможности.

«Наука о данных — это профессиональный навык 21-го века, которым должен обладать каждый», — говорит Эрик Ван Дусен, координатор учебной программы по обучению науке о данных в Калифорнийском университете (UC), Беркли. «Каждое поле. Я говорю студентам, что вы все должны получить этот набор навыков. Вы будете намного сильнее в любой карьере, которой вы занимаетесь».

Насколько сложно изучать науку о данных?

Сложность изучения науки о данных зависит от вашего опыта. Как и при изучении человеческих языков, наличие опыта в области компьютерных наук и математики облегчит переход к науке о данных.

Нетрадиционные пути обучения, такие как онлайн-курсы и программы по науке о данных от edX, обеспечивают гибкость, позволяющую выяснить, что вам нравится в науке о данных, по какому пути следовать или было бы лучше применить навыки науки о данных к не-данным. роль науки.

«Вы пройдете 70 процентов пути за первые несколько шагов. Год изучения науки о данных поможет вам очень далеко.»

— Первый шаг — самый большой, — сказал Сантарканджело. «Ты совершишь самый большой прыжок. Вы пройдете 70 процентов пути за первые несколько шагов. Год изучения науки о данных поможет вам очень далеко».

Можете ли вы научиться науке о данных?

Наука о данных — это работа. Загрузите программы, чтобы начать свой первый язык программирования. Освежите в памяти математику, лежащую в основе науки о данных. Поэкспериментируйте с визуализацией данных с помощью инструментов с открытым исходным кодом. Чем больше вы исследуете, тем легче научиться быть специалистом по данным. Но в конечном итоге вам, вероятно, понадобится руководство.

Знаете ли вы?

В курсах и программах edX преподаватели создают живые лаборатории онлайн, используя бесплатные ресурсы, коммерческие комплекты, которые учащиеся заказывают и отправляют домой, и многое другое для демонстрации концепций. Программа C Programming with Linux Professional Certificate от DartmouthX и IMTx, например, использует две среды обучения с открытым исходным кодом, чтобы устранить наиболее распространенные барьеры для начинающих программистов и предоставить учащимся богатую, формирующую обратную связь в режиме реального времени.

7 советов по самостоятельному изучению данных

1. Начните с любого места, но начните

Важные вещи, о которых следует помнить, ориентируясь в учебном процессе:

  • Начинайте с чего-то: не существует «правильного способа» построить карьеру или получить образование в области науки о данных. Сам процесс научит вас, в чем заключаются ваши сильные стороны и интересы. Некоторые применимые советы по информатике от Дэвида Джойнера, доктора философии. Исполнительный директор, онлайн-образование и OMSCS, Колледж вычислительной техники, Технологический институт Джорджии: «Я думаю, что лучший способ учиться — это пройти курс компьютерных наук, узнать, что возможно, а затем решить: «Используя то, что я узнал здесь, что я могу сделать?» построить, которая была бы очень полезна для меня?» Даже если это просто личный проект».
  • Вам не обязательно знать все: специалисты по обработке и анализу данных учатся, работая, поэтому выберите проект и просто погрузитесь в него. Например, в программе IBM Python Professional Certificate на edX встроен мини-курс проекта, чтобы предоставить критически важные руки. -на опыте.

2. Изучите язык программирования

Вы не сможете изучать науку о данных, не научившись программировать. Специалисты по данным создают алгоритмы и среды для запуска этих алгоритмов. Из нескольких популярных языков программирования для науки о данных вот несколько, с которых стоит начать:

  • Python: Python удобен для начинающих, имитирует английский синтаксис, предлагает множество библиотек и поддержку сообщества, а также имеет множество приложений, выходящих за рамки науки о данных. Это язык общего назначения с достаточным количеством надстроек, с помощью которых вы можете выполнять широкий спектр задач по науке о данных, от статистического анализа до визуализации и не только.
  • R-программирование: R является претендентом, если вы интересуетесь или уже занимаетесь исследованиями и добавляете науку о данных в свой набор навыков. Он использует статистический синтаксис, обрабатывает массивные крупномасштабные данные и передает эти результаты с помощью надежной и богатой визуализации.
  • Контекстно-зависимый язык: существует множество мощных и жизнеспособных альтернатив изучению Python или R. Узнайте, какие языки использует ваша текущая или идеальная компания. Выберите один исходя из условий вашей личной поездки

3. Практика Основы

Метод науки о данных похож на научный метод, но с упором на обеспечение того, чтобы все используемые данные были самого высокого качества. Обработка данных составляет большую часть науки о данных, потому что без качественных данных ваши идеи бессмысленны или, что еще хуже, неверны.

Вот как выглядит типичный рабочий процесс обработки данных:

  1. Задать вопрос
  2. Найдите свои данные, будь то внутренние данные, общедоступный набор данных для обучения или интеллектуальный анализ данных, который вы сделали сами
  3. Очистить данные
  4. Анализировать и исследовать
  5. Сообщать и/или визуализировать результаты

4.

Погружение в технические аспекты

Одной из областей, где традиционное обучение может быть полезным, являются технические аспекты науки о данных. В основе этой области лежат математические концепции, которые отделяют специалистов по данным от любителей данных. Некоторые важные концепции для начинающих специалистов по данным:

  1. Линейная алгебра : Обучение линейной алгебре научит вас самым основам алгоритмов обработки данных. Линейная алгебра также облегчает понимание вычислений и статистики на более глубоком уровне.
  2. Исчисление : Обучение исчислению научит вас основам теории алгоритмов машинного обучения. Дифференциальное исчисление смотрит на то, как вещи меняются со временем.
  3. Вероятность : Вероятность и предсказание — важная составляющая привлекательности науки о данных. Это жизненно важно для анализа данных, подверженных влиянию случайности и изменений, то есть подавляющего большинства текущих данных.
  4. Статистика : Обучение статистике раскрывает базовую структуру данных и придает ей форму для анализа.
  5. Регрессионный анализ: Изучение регрессионного анализа дает динамическое понимание взаимосвязей между точками данных. Он открывает богатые методы визуализации, которые помогают рассказывать убедительные истории данных и предотвращают вводящие в заблуждение визуализации.

С хорошими инструкциями вы сможете освоить статистические и математические концепции, лежащие в основе науки о данных, и открыть творческие возможности для обработки данных и обмена выводами.

5. Углубитесь в более сложные темы

Чтобы стать всесторонним специалистом по данным, необходимо использовать свои базовые навыки работы с данными, выходящие за рамки простого анализа данных. Изучение сложных тем может вдохновить вас на специализацию по науке о данных. Изучение всех трех нейронных сетей — искусственных нейронных сетей (ИНС), сверточных нейронных сетей (СНС) и рекуррентных нейронных сетей (РНС) — представляет собой исследование внедрения человеческого познания в разум машин.

  • Машинное обучение. Приложения машинного обучения включают создание алгоритмов, которые могут обрабатывать данные и извлекать из них уроки, совершенствуясь со временем без особого вмешательства человека. Это находит применение в различных отраслях и является горячей темой для работодателей.
  • Глубокое обучение. Выйдя на шаг дальше машинного обучения, глубокое обучение использует несколько уровней алгоритмов, чтобы приблизиться к человеческому познанию.
  • Обработка естественного языка: Построение машинного познания включает в себя понимание машинами человеческого общения и способность машин общаться на человекоподобном языке.
  • Имейте в виду, что если вы планируете остаться в сфере аналитики данных или стать аналитиком бизнес-данных, вам может не понадобиться углубляться в темы искусственного интеллекта.

    6. Изучите инструменты

    Существует множество инструментов, которые специалисты по данным могут использовать для обработки, анализа и визуализации данных. Вот несколько распространенных инструментов:

    • Github: Github не только обеспечивает контроль версий, но и может сделать ваше имя доступным для будущих работодателей. Это платформа для совместной работы, и это одна из первых вещей, которую вы должны настроить в своем путешествии по науке о данных.
    • Ноутбуки Jupyter:  Незаменим для работы и обмена проектами программного обеспечения с открытым исходным кодом.
    • Пакеты Python или R: убедитесь, что вы загрузили пакеты для выбранного языка, чтобы полностью раскрыть его возможности. Некоторые примеры включают Pandas, NumPy, MatPlotLib, Scikit-Learn и RStudio.
    • TensorFlow:  Золотой стандарт для платформ машинного обучения с открытым исходным кодом.
    • Tableau:  Золотой стандарт визуализации данных.
    • Apache Spark и Hadoop:  Два инструмента для работы с большими данными, необходимые для крупномасштабных вычислений и задач, требующих обработки больших объемов данных.
    • SAS: инструмент статистического анализа с процветающим сообществом и поддержкой, позволяющий собирать, управлять и извлекать данные.
    • RapidMiner: Комплексный инструмент для обработки данных.
    • Google BigQuery:  Масштабируемый бессерверный инструмент для хранения данных.
    • MySQL:  Система управления реляционными базами данных с открытым исходным кодом, работающая с SQL.
    • Stack Overflow: Платформа для совместной работы над проектами по науке о данных.

    Это не исчерпывающий список. Инструменты могут быть ошеломляющими, но помните о двух принципах, упомянутых ранее: начните с чего-то, и вам не обязательно знать все. Вместо того, чтобы сосредоточиться на поиске одного идеального инструмента, начните экспериментировать с инструментами с открытым исходным кодом, пока не найдете свои любимые.

    7. Повысьте уровень своих навыков межличностного общения

    Со всем этим упором на технические навыки легко забыть о межличностных навыках. Независимо от того, занимаетесь ли вы исследованиями или работаете в компании, вам нужно полагаться на свои мягкие (иногда называемые «силовыми») навыки для достижения результатов. Карьера в науке о данных зависит не только от технических навыков, но и от навыков людей. Такие качества, как эмпатия, работа в команде и умение рассказывать истории, могут выделить вас среди других кандидатов на должности в области науки о данных или помочь расширить сферу вашего влияния в вашей собственной компании.

    Начало работы: изучите науку о данных на edX

    В конечном счете, в области науки о данных наличие нужных навыков и опыта важнее, чем наличие нужной степени. Прелесть начала или продвижения по карьерной лестнице в науке о данных или аналитике заключается в том, что ваш путь не обязательно должен быть линейным, поэтому не торопитесь, усердно учитесь и не бойтесь пересматривать свои цели по мере углубления в науку о данных. поле.

    «Возможность извлекать информацию из данных на самом деле является очень важным преимуществом при сборе данных во всех аспектах жизни общества, от маркетинга до здоровья и даже до спорта и развлечений».

    Онлайн-курсы по edX — отличный инструмент для изучения науки о данных. Если вас интересуют более подробные инструкции, edX также предлагает программы магистратуры по науке о данных. Проверяйте курсы перед завершением или обновлением, чтобы разблокировать ценные сертификаты, перемещайтесь по контенту в своем собственном темпе и общайтесь с другими учащимися, преподавателями и экспертами в предметной области для получения рекомендаций, которые помогут поднять вашу карьеру в науке о данных на новый уровень.

    «Какая бы ни была область ваших интересов, уверяю вас, что есть данные, которые сделают ее лучше. Возможность извлекать информацию из данных на самом деле очень важна для сбора данных во всех аспектах жизни общества, начиная от маркетинга и заканчивая здоровьем и даже спортом и развлечениями», — сказал Филипп Риголле, доцент кафедры математики и Центр статистики и науки о данных в Массачусетском технологическом институте, а также инструктор программы MITx по статистике и науке о данных MicroMasters®.