Нормализация данных в Python

Normalization Data Python



Нормализация данных - это метод, который помогает быстрее получить результат, поскольку машине приходится обрабатывать меньший диапазон данных. Нормализация - непростая задача, потому что все ваши результаты зависят от выбора вашего метода нормализации. Итак, если вы выбрали неправильный метод нормализации данных, вы можете получить нечто иное, чем ожидали.

Нормализация также зависит от типа данных, такого как изображения, текст, числа и т. Д. Итак, каждый тип данных имеет свой метод нормализации. Итак, в этой статье мы сосредоточимся на числовых данных.







Метод 1: использование sklearn

Метод sklearn - очень известный метод нормализации данных.





В камере номер [83] : Импортируем все необходимые библиотеки, NumPy и sklearn. Вы можете видеть, что мы импортируем предварительную обработку из самого sklearn. Вот почему это метод нормализации sklearn.





В камере № [84] : Мы создали массив NumPy с некоторым целочисленным значением, которое не то же самое.

В камере номер [85] : Мы вызвали метод normalize из предварительной обработки и передали numpy_array, который мы только что создали, в качестве параметра.



В камере номер [86] : Из результатов видно, что все наши целочисленные данные теперь нормализованы между 0 и 1.

Метод 2: нормализовать определенный столбец в наборе данных с помощью sklearn

Мы также можем нормализовать конкретный столбец набора данных. В этом мы поговорим об этом.


В камере номер [87] : Импортируем библиотеки pandas и sklearn.

В камере номер [88] : Мы создали фиктивный CSV-файл, и теперь мы загружаем этот CSV-файл с помощью пакета pandas (read_csv).

В камере номер [89] : Мы печатаем тот CSV-файл, который мы недавно загрузили.

В ячейке № [90] : Мы читаем конкретный столбец файла CSV, используя np. array и сохраните результат в value_array.

В ячейке № [92] , мы вызвали метод normalize из предварительной обработки и передали параметр value_array.

Метод 3: преобразовать в нормализацию без использования столбцов в массив (с помощью sklearn)

В предыдущем методе 2 мы обсудили, как можно нормализовать конкретный столбец файла CSV. Но иногда нам нужно нормализовать весь набор данных, тогда мы можем использовать метод ниже, где мы нормализуем весь набор данных, но по столбцам (ось = 0). Если мы упомянем ось = 1, то она будет нормализоваться по строкам. Ось = 1 является значением по умолчанию.


В камере номер [93] : Импортируем библиотеки pandas и sklearn.

В камере номер [94] : Мы создали фиктивный CSV-файл (demo_numeric.csv), и теперь мы загружаем этот CSV-файл с помощью пакета pandas (read_csv).

В камере номер [95] : Мы печатаем тот CSV-файл, который мы недавно загрузили.

В камере номер [96] : Теперь мы передаем весь CSV-файл вместе с еще одним дополнительным параметром axis = 0, который сообщает библиотеке, что пользователь хочет нормализовать весь набор данных по столбцам.

В камере № [97] , мы печатаем результат и нормализуем данные со значением от 0 до 1.

Метод 4: Использование MinMaxScaler ()

Sklearn также предоставляет другой метод нормализации, который мы назвали MinMaxScalar. Это также очень популярный метод, потому что им легко пользоваться.


В камере номер [98] : Импортируем все необходимые пакеты.

В ячейке № [99] : Мы создали фиктивный CSV-файл (demo_numeric.csv), и теперь мы загружаем этот CSV-файл с помощью пакета pandas (read_csv).

В ячейке № [100] : Мы печатаем тот CSV-файл, который мы недавно загрузили.

В ячейке № [101] : Мы вызвали MinMaxScalar из метода предварительной обработки и создали для этого объект (min_max_Scalar). Мы не передали никаких параметров, потому что нам нужно нормализовать данные между 0 и 1. Но если вы хотите, вы можете добавить свои значения, которые будут видны в следующем методе.

В камере номер [102] : Сначала мы читаем все имена столбцов для дальнейшего использования для отображения результатов. Затем мы вызываем fit_tranform из созданного объекта min_max_Scalar и передаем туда CSV-файл.

В камере номер [103] : Мы получаем нормализованные результаты от 0 до 1.

Метод 5: Использование MinMaxScaler (feature_range = (x, y))

Sklearn также предоставляет возможность изменить нормализованное значение того, что вы хотите. По умолчанию они нормализуют значение от 0 до 1. Но есть параметр, который мы назвали feature_range, который может устанавливать нормализованное значение в соответствии с нашими требованиями.

В камере номер [104] : Импортируем все необходимые пакеты.

В камере номер [105] : Мы создали фиктивный CSV-файл (demo_numeric.csv), и теперь мы загружаем этот CSV-файл с помощью пакета pandas (read_csv).

В камере номер [106] : Мы печатаем тот CSV-файл, который мы недавно загрузили.

В камере номер [107] : Мы вызвали MinMaxScalar из метода предварительной обработки и создали для этого объект (min_max_Scalar). Но мы также передаем другой параметр внутри MinMaxScaler (feature_range). Это значение параметра мы установили от 0 до 2. Итак, теперь MinMaxScaler нормализует значения данных от 0 до 2.

В камере номер [108] : Сначала мы читаем все имена столбцов для дальнейшего использования для отображения результатов. Затем мы вызываем fit_tranform из созданного объекта min_max_Scalar и передаем туда CSV-файл.

В камере номер [109] : Мы получаем нормализованные результаты от 0 до 2.

Метод 6: Использование максимального абсолютного масштабирования

Мы также можем нормализовать данные с помощью панд. Эти функции также очень популярны при нормализации данных. Максимальное абсолютное масштабирование нормализует значения от 0 до 1. Мы применяем здесь .max () и .abs (), как показано ниже:

В камере номер [110] : Импортируем библиотеку панд.

В камере номер [111] : Мы создали фиктивный фрейм данных и распечатали его.

В камере номер [113] : Мы вызываем каждый столбец, а затем разделяем значения столбца с помощью .max () и .abs ().

В камере № [114] : Мы печатаем результат и подтверждаем, что наши данные нормализуются между 0 и 1.

Метод 7: использование метода z-оценки

Следующий метод, который мы собираемся обсудить, - это метод z-оценки. Этот метод преобразует информацию в распределение. Этот метод вычисляет среднее значение каждого столбца, затем вычитает из каждого столбца и, наконец, делит его со стандартным отклонением. Это нормализует данные между -1 и 1.

В камере номер [115] : Мы создали фиктивный фрейм данных и распечатали его.

В камере номер [117] : Мы вычисляем среднее значение столбца и вычитаем его из столбца. Затем мы делим значение столбца на стандартное отклонение.

В камере № [118] : Мы печатаем нормализованные данные от -1 до 1.

Вывод: мы видели разные виды нормализованных методов. Среди них sklearn очень известен благодаря поддержке машинного обучения. Но это зависит от требований пользователя. Иногда для нормализации данных достаточно функции pandas. Нельзя сказать, что существуют только вышеуказанные методы нормализации. Существует множество методов нормализации данных, которые также зависят от вашего типа данных, таких как изображения, числа, текст и т. Д. Мы фокусируемся на этих числовых данных и Python.