Курс “Введение в анализ данных и машинное обучение”¶
Оформление в виде online-книги.
Курс разбит на пять дней, каждый из дней содержит по шесть блоков. В каждом блоке - три раздела:
Теоретическое введение,
Практический пример,
Заключение.
По дням коротко:
Вводный и обзорный день,
Разведочный анализ данных и задачи “обучения с учителем” на примерах
scikit-learn
,Задачи “обучения без учителя” и одномерные временные ряды,
Нейросети, устройство и применение (изображения, тексты, многомерные временные данные),
Методы интерпретации и презентации моделей + два бонусных факультативных раздела курса.
Также есть дополнительные тетрадки:
Немного о том, как можно делать проекты по анализу данных,
Кое-какие вопросы (без ответов) - для самопроверки и мотивации рассуждений/осмыслений,
Небольшие визуальные объяснения по работе некоторых алгоритмов,
Сборник “рецептов” - небольших полезных блоков кода.
Блоки¶
Первый день¶
Определения модели, алгоритма, метрик, задач машинного обучения
Небольшие, но нужные элементы статистики (случайная величина, выборочные статистики, распределение, пара-тройка теорем)
Почему все это работает: теория Валианта и vc-размерность в картинках.
Почему и как python и Jupiter lab: основы. Переменные, списки и словари, функции, классы и объекты
Цикл моделирования crisp-dm. Валидация и кроссвалидация. End2End-пример
Обзор разделов всего курса на примерах предсказаний
Второй день¶
numpy, pandas, pyplot/seaborn, ipywidgets interactive
EDA + preprocessing, квартет энскомба
linear models
trees and trees ensembles
KNN/nearest neighbors (в том числе на примере текстов)
MLP в sklearn
Третий день¶
отбор признаков и grid search
понижение размерности (+ umap, lda на примере текстов)
кластеризация
аномалии
одномерные временные ряды на fbprophet
стэкинг
Четвёртый день¶
введение в keras. слои, лосс, оптимайзер
автоенкодеры и зачем нужны эмбеддинги
изображения: классификация, unet с аугментацией
готовые сетки на imagenet и YOLO
тексты: bert. Пример на эмбеддингах. Простой QA-бот. summarizer, ner
Временные ряды multivariate, вариант gru
Пятый день¶
методы локальной интерпретации (shap values), Alibi trust scores и Model Perfomance Predictor
веб-сервис на flask, pickle моделей и проверка модели через requests
презентация на voila и немного streamlit
Элементы A/B
факультативно:
немного о вероятностном программировании
CVAE - генерация изображений