Курс “Введение в анализ данных и машинное обучение”

Оформление в виде online-книги.

Курс разбит на пять дней, каждый из дней содержит по шесть блоков. В каждом блоке - три раздела:

  • Теоретическое введение,

  • Практический пример,

  • Заключение.

По дням коротко:

  1. Вводный и обзорный день,

  2. Разведочный анализ данных и задачи “обучения с учителем” на примерах scikit-learn,

  3. Задачи “обучения без учителя” и одномерные временные ряды,

  4. Нейросети, устройство и применение (изображения, тексты, многомерные временные данные),

  5. Методы интерпретации и презентации моделей + два бонусных факультативных раздела курса.

Также есть дополнительные тетрадки:

  • Немного о том, как можно делать проекты по анализу данных,

  • Кое-какие вопросы (без ответов) - для самопроверки и мотивации рассуждений/осмыслений,

  • Небольшие визуальные объяснения по работе некоторых алгоритмов,

  • Сборник “рецептов” - небольших полезных блоков кода.

Блоки

Первый день

  • Определения модели, алгоритма, метрик, задач машинного обучения

  • Небольшие, но нужные элементы статистики (случайная величина, выборочные статистики, распределение, пара-тройка теорем)

  • Почему все это работает: теория Валианта и vc-размерность в картинках.

  • Почему и как python и Jupiter lab: основы. Переменные, списки и словари, функции, классы и объекты

  • Цикл моделирования crisp-dm. Валидация и кроссвалидация. End2End-пример

  • Обзор разделов всего курса на примерах предсказаний

Второй день

  • numpy, pandas, pyplot/seaborn, ipywidgets interactive

  • EDA + preprocessing, квартет энскомба

  • linear models

  • trees and trees ensembles

  • KNN/nearest neighbors (в том числе на примере текстов)

  • MLP в sklearn

Третий день

  • отбор признаков и grid search

  • понижение размерности (+ umap, lda на примере текстов)

  • кластеризация

  • аномалии

  • одномерные временные ряды на fbprophet

  • стэкинг

Четвёртый день

  • введение в keras. слои, лосс, оптимайзер

  • автоенкодеры и зачем нужны эмбеддинги

  • изображения: классификация, unet с аугментацией

  • готовые сетки на imagenet и YOLO

  • тексты: bert. Пример на эмбеддингах. Простой QA-бот. summarizer, ner

  • Временные ряды multivariate, вариант gru

Пятый день

  • методы локальной интерпретации (shap values), Alibi trust scores и Model Perfomance Predictor

  • веб-сервис на flask, pickle моделей и проверка модели через requests

  • презентация на voila и немного streamlit

  • Элементы A/B

факультативно:

  • немного о вероятностном программировании

  • CVAE - генерация изображений