Как выполнить очистку данных с помощью Python и Pandas

Научиться очищать данные с помощью Python и Pandas крайне важно для всех, кто работает с данными. Очистка данных в основном используется для точного анализа и моделирования путем устранения ошибок и несоответствий. В этом руководстве пошагово описан процесс, показывающий, как обрабатывать недостающие данные и выявлять или идентифицировать выбросы. Используя Python и Pandas в качестве наших инструментов, мы можем преобразовать беспорядочные данные в чистую, полезную информацию. Это руководство также помогает нам улучшить качество наших данных и подготовить их к анализу и принятию решений.

Очистка данных с помощью Python и Pandas

Данные сегодня являются строительными блоками принятия решений. Но представьте себе, что у вас есть группа блоков разных форм и размеров из этой коллекции; трудно построить что-то значимое. Здесь на помощь приходит очистка данных.

В этом руководстве рассказывается, как очистить данные с помощью платформы Python Pandas для лучшего принятия решений. Очистка данных также важна, учитывая, что мы работаем со списком записей о продажах магазина. Мы можем заметить в списке пропущенные числа, странные даты и повторяющиеся элементы без причины. Если мы делаем расчеты или записи на основе этой информации, эти проблемы могут испортить наши расчеты и прогнозы. Очистка данных помогает решить эти проблемы, гарантируя точность и готовность наших данных к использованию.

Очистка данных включает в себя обработку недостающих данных и действия, если некоторые данные отсутствуют, удаление дубликатов, избавление от скопированных данных, исправление типов данных, проверку того, что все находится в правильном формате, а также работу с выбросами или обработку чисел. которые не подходят. Эти ошибки приводят к тому, что данные выглядят одинаково и стандартизируют их внешний вид.

Для начала убедитесь, что у нас установлены Python и Pandas. Мы можем сделать это, введя команды в терминале нашего компьютера или в командной строке. Чтобы реализовать коды, упомянутые в этом руководстве, мы можем использовать Python Pycharm IDE, установленную в нашей системе, или онлайн-платформу Python, которая называется «Google Colab», и установить команды «pip» для установки важных библиотек.

Теперь давайте импортируем Pandas и загрузим наши образцы данных. В этом примере мы используем Google Colab для запуска кодов. Итак, мы сначала импортируем Pandas, введя следующую команду:

! pip установить панды

Импортировать панды как ПД

Импортировать бестолковый как например

Затем мы загружаем набор данных, который хотим отобразить, с помощью метода pd.read(), который принимает путь к файлу в качестве входного параметра.

# Загрузите набор данных

данные '=' пд. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Отображение первых нескольких строк

Распечатать ( данные. голова ( ) )

В следующем примере мы используем данные о продажах в небольшом магазине. Чтобы справиться с недостающими данными, информация иногда отсутствует в наших данных. Мы называем эти недостающие части «NaN» (что означает «не число»). Чтобы найти эти недостающие значения в скрипте Python, мы сначала загружаем набор данных, как мы это делали в предыдущем примере. Затем мы находим все недостающие значения в наборе данных, используя функцию «missing_values = data.isnull().sum()». Эта функция находит все недостающие значения в наборе данных. Затем мы отображаем их с помощью функции print().

После того, как мы обнаружим недостающие данные в любой строке, в которой выполняется упомянутый ранее код, мы можем удалить эти строки, поскольку в них мало полезных данных. Мы можем даже угадать эти недостающие значения и заполнить пробелы обоснованными предположениями, оценивая временные данные на основе близлежащих точек.

Теперь мы удаляем дубликаты, являющиеся копиями одного и того же объекта, поскольку они могут затруднить наш анализ. Чтобы найти повторяющиеся значения в наборе данных, мы используем функцию «duulate_rows = data[data.duulated()]». Чтобы удалить эти повторяющиеся значения, мы вызываем функцию data.drop_duulates(). Мы можем найти и удалить их, используя следующий код:

Типы данных определяют, какие данные могут быть сохранены для исправления типов данных. Очень важно иметь правильный тип для каждого типа данных. Например, даты должны иметь тип данных date time, а числа должны иметь тип данных, такой как int, float и т. д. Чтобы проверить типы данных наших данных, мы используем функцию «data.dtypes». Эту функцию можно использовать следующим образом:

Если мы обнаружим какие-либо проблемы, мы можем изменить тип данных с помощью Pandas. Например, мы можем преобразовать даты в формат даты. Атрибут «dtypes» DataFrame предоставляет информацию о типах данных каждого столбца. Если мы обнаружим, что типы данных не совпадают, мы можем использовать функцию astype() Pandas для преобразования столбцов в нужные типы.

После типов данных мы иногда сталкиваемся с выбросами, которые представляют собой значения, сильно отличающиеся от других. Они могут испортить наши расчеты. Чтобы справиться с выбросами, мы определяем функцию, которая использует функцию z-score «np.abs(stats.zscore(data))», которая сравнивает значения, существующие в наших данных, с пороговым значением. Любое значение, отличное от диапазона этого порога, считается выбросом. . Давайте посмотрим, как найти и обработать выбросы:

! pip установить панды
Импортировать панды как ПД
Импортировать бестолковый как например

# Загрузите набор данных
данные '=' пд. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Отображение первых нескольких строк
Распечатать ( данные. голова ( ) )
от острый Импортировать статистика

защита обнаружить_выбросы ( данные ) :
z_scores '=' например пресс ( статистика. zscore ( данные ) )
возвращаться например где ( z_scores > 3 )

# Обнаружение и обработка выбросов в столбце «Продажи»
выбросы '=' обнаружить_выбросы ( данные [ 'долгота' ] )
данные [ 'долгота' ] . место [ выбросы ] '=' данные [ 'долгота' ] . медиана ( )

# Обнаружение и обработка выбросов в столбце «Продано единиц»
выбросы '=' обнаружить_выбросы ( данные [ 'широта' ] )
данные [ 'широта' ] . место [ выбросы ] '=' данные [ 'широта' ] . медиана ( )

# Отображение первых нескольких строк после обработки выбросов
Распечатать ( данные. голова ( ) )

Мы используем простой метод для поиска и исправления выбросов в предыдущем коде. Он предполагает замену крайних значений средним значением данных. Этот код использует метод Z-оценки для обнаружения выбросов в столбцах «долгота» и «широта» нашего набора данных. Выбросы заменяются медианными значениями соответствующих столбцов.

Чтобы данные выглядели одинаково, иногда данные могут выглядеть по-разному, даже если это означает одно и то же. Например, даты могут быть записаны в различных форматах. Стандартизация предполагает обеспечение единообразного формата и представления данных. Это может включать форматирование дат, преобразование текста в нижний регистр или нормализацию числовых значений. Давайте стандартизируем столбец «Дата» в нашем наборе данных и убедимся, что наши данные выглядят одинаково:

Импортировать панды как ПД
Импортировать бестолковый как например # Импортируем число

# Загрузите данные
данные '=' пд. read_csv ( 'данные_продаж.csv' )

# Сделайте так, чтобы столбец «Дата» выглядел единообразным
данные [ 'Дата' ] '=' пд. to_datetime ( данные [ 'Дата' ] )

# Посмотрите, как это выглядит сейчас
Распечатать ( данные. голова ( ) )

В этом примере мы стандартизируем формат даты в нашем наборе данных в соответствии с форматом даты и времени Python, используя функцию «pd.to_datetime(data['Date'])». Преобразовав столбец «Дата» в тот же формат, мы упрощаем работу с этими данными. В выходных данных отображаются первые несколько строк набора данных со стандартным столбцом «Дата».

Заключение

В ходе очистки данных с помощью Python и Pandas мы узнали, как улучшить наши данные для анализа. Мы начали с понимания того, почему очистка данных так важна. Это помогает нам принимать более правильные решения. Мы рассмотрели, как бороться с отсутствующими данными, удалять дубликаты, исправлять типы данных, обрабатывать выбросы и придавать нашим данным одинаковый вид. Благодаря этим навыкам мы лучше подготовлены к тому, чтобы превратить беспорядочные данные во что-то, чему мы можем доверять и использовать для обнаружения важной информации. Очистка данных — это непрерывный процесс, такой же, как поддержание порядка в нашей комнате, и он делает наш анализ данных более успешным.

Как выполнить очистку данных с помощью Python и Pandas

Очистка данных с помощью Python и Pandas

Заключение

Категория

Популярные посты

Понимание синтаксиса Makefile: распространенные проблемы и решения (включая «отсутствующий оператор» и «точка входа не найдена»)

Функция Fstat в C

Как применить Hover on Box Decoration Break в Tailwind?

Какие инстансы графического процессора рекомендуются для AMI глубокого обучения?

Как изменить цвет фона в Документах Google

Разность потенциалов и деление напряжения на резисторе

Как импортировать предварительно обученную модель в PyTorch?

Как получить доступ к секретам API с помощью AWS Lambda?

Запустите Ghost CMS с помощью Docker

Что такое статические блоки в Java

Как подключиться к удаленной базе данных Oracle?

Объединить две таблицы в SQL

Что такое оператор /= в C++?

Что делает метасимвол W в RegExp JavaScript

Представление строк в C++

Кнопка перемещения отсутствует на вкладке Расположение для общих папок в Windows Vista - Winhelponline

Получить текущий каталог на C#

JavaScript | Необязательная цепочка

Защитник Windows не запускается в Windows 10 [ИСПРАВЛЕНО]

Подключение к базе данных Oracle в Python