Вопросы для самопроверки¶

Правильных ответов тут не будет, но будет 15 вопросов с вариантами ответов, которые позволят вспомнить содержание и поразмыслить над ним. Дело необязательное, скорее для тех, кому любопытно.

Вопросы¶

Чем алгоритм отличается от модели?

Модель учится на примерах, а алгоритм дает некоторую ошибку,
Алгоритм создает модель, которая дает некоторую ошибку,
Алгоритм создает модель, используя данные, модель на данных дает некоторую ошибку,
Все неверно.

Статистика, как функция от данных,

Описывает данные некоторым образом,
Может быть случайной величиной,
Всегда может быть посчитана,
Все ответы правильные.

Цикл while в python работает:

Пока условие выполняется,
Пока условие не выполняется,
Может быть и так и так,
Бесконечно, пока не будет прерван.

Массивы numpy нужны для того, чтобы

Описывать многомерные величины,
Оперировать данными, как числами,
Сделать алгоритмы независимыми от размерности данных,
Для удобной работы с точки зрения python.

Библиотеки визуализации matplotlib и seaborn позволяют

Отображать произвольные данные в виде диаграмм,
Визуализировать зависимости между признаками,
Проводить анализ данных с помощью диаграмм,
Строить диаграммы по данным.

Разведочный анализ данных можно …

Пропустить, если использовать сложные методы,
Проводить на случайных подвыборках данных, если данных много,
Использовать для препроцессинга признаков,
Использовать для построения гипотез о зависимости целевой переменной от признаков.

Линейные модели

Нужны когда данные связаны линейно,
Нужны когда данные не связаны линейно,
Слишком примитивны, чтобы вообще работать,
Можно использовать для моделирования нелинейных зависимостей.

Следующие алгоритмы могут выходить за пределы целевой переменной на тренировочном множестве в случае регрессии

Дерево решений,
Градиентный бустинг над решающими деревьями,
Случайный лес решающих деревьев,
Все перечисленные.

Алгоритм ближайших соседей использует для предсказания …

Ближайшие к примеру примеры из тренировочного множества,
Ближайшие к примеру примеры из обоих множеств,
Все данные,
Расстояния между ближайшими точками на тренировочном множестве.

Отбор признаков нужен когда их много, потому что

Не все признаки одинаково влияют на целевую величину,
Сокращается время обучения алгоритмов,
Повышается качество предсказаний,
Все ответы верные.

Понижение размерности - это алгоритм …

Обучения с учителем,
Обучения без учителя,
Препроцессинга признаков,
Ускорения обучения моделей.

Кластеризация позволяет:

Классифицировать объекты множества по группам,
Сгруппировать объекты по схожести,
Поделить датасет на непересекающиеся части,
Какие-то два ответа из предыдущих трёх верные.

Метрики качества кластеризации -

Субъективны,
Бесполезны,
Каждый раз должны быть разными под задачу,
Существуют.

Прогнозирование одномерных временных рядов нужно для

Использования в качестве признаков для других моделей путём стэкинга,
Извлечения компонент ряда и их анализа и использования в качестве признаков,
Собственно для получения прогноза,
Все перечисленное может иметь место.

Нейросети получили широкое распространение, так как

Не требуют большого количества данных,
Не требуют серьезной настройки,
Не требуют предобработки признаков,
Нет правильного ответа.

Надеюсь, всё это было интересно :)

ML introduction

Вопросы для самопроверки¶

Вопросы¶