Спортивный анализ данных - + конспект от YandexGPT

Спортивный анализ данных - конспект от YandexGPT 00:13 Анализ ошибок в датасете • В видео обсуждается задача поиска ошибок в датасете, связанном с прогнозированием цен на квартиры. • Описываются различные типы ошибок, которые могут быть обнаружены, включая наличие нанов, пропуски данных, несоответствие логики фичи и математические выбросы. 08:40 Обучение модели и проверка результатов • После исправления ошибок, модель обучается на исправленном датасете. • В конце обучения, результаты сравниваются с другими участниками соревнования. • Если результаты не соответствуют ожиданиям, необходимо продолжить работу над ошибками. 19:49 Обзор Pandas • Обсуждение использования Pandas для анализа данных и визуализации. • Упоминается возможность использования графических представлений для анализа данных. 24:04 Преобразование типов данных • Обсуждение метода преобразования типов данных в Pandas. • Упоминается метод T numeric для обработки ошибок при преобразовании. 27:54 Использование функций Pandas • Обсуждение использования функций Pandas для подсчета количества уникальных объектов и частоты их появления. • Упоминание возможности использования функции include exclude для выбора типов данных для анализа. 32:37 Работа с пропусками • В видео обсуждается работа с пропусками в данных, которые могут быть вызваны различными причинами, такими как отсутствие данных или ошибки в измерениях. • Для работы с пропусками используется функция, которая позволяет выбрать случайные индексы из списка и заполнить их значениями “Нанами“. 38:13 Заполнение пропусков • В видео обсуждаются различные стратегии заполнения пропусков, включая использование среднего значения, медианы и моды. • Однако, если пропуски распределены неравномерно, использование среднего значения может привести к смещению данных и искажению результатов. 48:00 Улучшение стратегии заполнения пропусков • В видео предлагается сузить рамки, в которых происходит заполнение пропусков, чтобы улучшить результаты. • Например, можно сгруппировать данные по штатам и заполнить пропуски средним значением или медианой для каждой группы. 50:20 Методы обработки пропущенных значений • Обсуждение методов заполнения пропущенных значений в данных, включая заполнение средним значением, заполнение предыдущим значением и использование функции fillna. • Упоминается, что заполнение средним значением может привести к некорректным результатам, особенно если пропуски распределены неравномерно. 55:24 Временные ряды и интерполяция • Обсуждение использования функции interpolate для интерполяции пропущенных значений во временных рядах. • Упоминается, что этот метод может быть некорректным для временных рядов, и предлагается использовать другие методы, такие как группировка и машинное обучение. 01:00:21 Объединение и конкатенация датасетов • Обсуждение объединения и конкатенации датасетов, включая использование функции concat для объединения нескольких датасетов и указание оси для склеивания. • Упоминается, что при склеивании датасетов с разными индексами, необходимо использовать функцию reset_index для обеспечения корректного склеивания. 01:07:28 Сравнение данных с использованием функции merge • В видео обсуждается использование функции merge для объединения данных из двух датасетов. • Функция merge позволяет объединить данные, но не всегда корректно, так как записи могут быть нереальными и не уникальными. • Рекомендуется использовать функцию merge только в случае, если данные уже отсортированы. 01:12:46 Использование функции merge в разных направлениях • В видео демонстрируется использование функции merge в разных направлениях: слева направо и справа налево. • В случае слева направо, функция merge создает только пересечение данных, а в случае справа налево, функция merge создает все возможные комбинации данных. 01:19:18 Вычисление выбросов с использованием медианы и квартилей • В видео объясняется, как использовать медиану и квартили для вычисления выбросов. • Медиана - это среднее значение отсортированного ряда, а квартили - это первый, третий и четвертый квартили. • Интерквартильный размах - это третий квартиль минус первый квартиль плюс полтора интерквартильного размаха. • Функция, написанная в видео, позволяет найти выбросы для каждой фичи.
В начало