Спортивный анализ данных - + конспект от YandexGPT
Спортивный анализ данных - конспект от YandexGPT
00:13 Анализ ошибок в датасете
• В видео обсуждается задача поиска ошибок в датасете, связанном с прогнозированием цен на квартиры.
• Описываются различные типы ошибок, которые могут быть обнаружены, включая наличие нанов, пропуски данных, несоответствие логики фичи и математические выбросы.
08:40 Обучение модели и проверка результатов
• После исправления ошибок, модель обучается на исправленном датасете.
• В конце обучения, результаты сравниваются с другими участниками соревнования.
• Если результаты не соответствуют ожиданиям, необходимо продолжить работу над ошибками.
19:49 Обзор Pandas
• Обсуждение использования Pandas для анализа данных и визуализации.
• Упоминается возможность использования графических представлений для анализа данных.
24:04 Преобразование типов данных
• Обсуждение метода преобразования типов данных в Pandas.
• Упоминается метод T numeric для обработки ошибок при преобразовании.
27:54 Использование функций Pandas
• Обсуждение использования функций Pandas для подсчета количества уникальных объектов и частоты их появления.
• Упоминание возможности использования функции include exclude для выбора типов данных для анализа.
32:37 Работа с пропусками
• В видео обсуждается работа с пропусками в данных, которые могут быть вызваны различными причинами, такими как отсутствие данных или ошибки в измерениях.
• Для работы с пропусками используется функция, которая позволяет выбрать случайные индексы из списка и заполнить их значениями “Нанами“.
38:13 Заполнение пропусков
• В видео обсуждаются различные стратегии заполнения пропусков, включая использование среднего значения, медианы и моды.
• Однако, если пропуски распределены неравномерно, использование среднего значения может привести к смещению данных и искажению результатов.
48:00 Улучшение стратегии заполнения пропусков
• В видео предлагается сузить рамки, в которых происходит заполнение пропусков, чтобы улучшить результаты.
• Например, можно сгруппировать данные по штатам и заполнить пропуски средним значением или медианой для каждой группы.
50:20 Методы обработки пропущенных значений
• Обсуждение методов заполнения пропущенных значений в данных, включая заполнение средним значением, заполнение предыдущим значением и использование функции fillna.
• Упоминается, что заполнение средним значением может привести к некорректным результатам, особенно если пропуски распределены неравномерно.
55:24 Временные ряды и интерполяция
• Обсуждение использования функции interpolate для интерполяции пропущенных значений во временных рядах.
• Упоминается, что этот метод может быть некорректным для временных рядов, и предлагается использовать другие методы, такие как группировка и машинное обучение.
01:00:21 Объединение и конкатенация датасетов
• Обсуждение объединения и конкатенации датасетов, включая использование функции concat для объединения нескольких датасетов и указание оси для склеивания.
• Упоминается, что при склеивании датасетов с разными индексами, необходимо использовать функцию reset_index для обеспечения корректного склеивания.
01:07:28 Сравнение данных с использованием функции merge
• В видео обсуждается использование функции merge для объединения данных из двух датасетов.
• Функция merge позволяет объединить данные, но не всегда корректно, так как записи могут быть нереальными и не уникальными.
• Рекомендуется использовать функцию merge только в случае, если данные уже отсортированы.
01:12:46 Использование функции merge в разных направлениях
• В видео демонстрируется использование функции merge в разных направлениях: слева направо и справа налево.
• В случае слева направо, функция merge создает только пересечение данных, а в случае справа налево, функция merge создает все возможные комбинации данных.
01:19:18 Вычисление выбросов с использованием медианы и квартилей
• В видео объясняется, как использовать медиану и квартили для вычисления выбросов.
• Медиана - это среднее значение отсортированного ряда, а квартили - это первый, третий и четвертый квартили.
• Интерквартильный размах - это третий квартиль минус первый квартиль плюс полтора интерквартильного размаха.
• Функция, написанная в видео, позволяет найти выбросы для каждой фичи.
1 просмотр
660
180
1 месяц назад 00:23:05 1
Дорого. Долго. Рецепт Русской Лодки ALBAKORE 780. Обзор.