Как использовать наборы данных обнимающихся лиц

Kak Ispol Zovat Nabory Dannyh Obnimausihsa Lic



Применимость и удобство использования моделей машинного обучения проверяются на данных. Надежность тестов во многом зависит от количества и качества данных, к которым применяются эти модели. Само по себе создание, получение и очистка достаточно большого набора данных для проверки вашего « Обработка естественного языка (НЛП) Модель машинного обучения.

Hugging Face предлагает отличное решение этой проблемы благодаря своей исключительно большой библиотеке наборов данных, из которых вы можете выбрать тот, который идеально соответствует вашим требованиям. Здесь мы покажем вам, как найти идеальный набор данных и подготовить его для адекватного тестирования вашей модели.







Как использовать наборы данных обнимающихся лиц?

Мы покажем вам, как использовать наборы данных Hugging Face на примере « Крошечные истории Набор данных из Hugging Face.



Пример

Набор данных TinyStories содержит более 2 миллионов строк данных в разделении поездов и имеет более 2 тысяч загрузок на платформе Hugging Face. Мы будем использовать его в коде Google Colab, приведенном ниже:



! точка установить трансформаторы
! точка установить наборы данных

из наборов данных импортируйте load_dataset

набор данных = набор_данных ( 'роненельдан/Крошечные истории' )

TinyStories_Story = 3
example_string = набор данных [ 'тренироваться' ] [ TinyStories_Story ] [ 'текст' ]

Распечатать ( пример_строка )


В этом коде рассмотрим следующие шаги:





Шаг 01 : Первый шаг – это монтаж наборов данных трансформаторов.

Шаг 02 : Далее импортируйте необходимый набор данных, « Крошечные истории » в свой проект.



Шаг 03 : Затем загрузите выбранный набор данных, используя « load_dataset() » функция.

Шаг 04 : Теперь мы указываем номер истории, который нам нужен, из набора данных TinyStories. В нашем примере кода мы указали число 03.

Шаг 05 : Наконец, мы будем использовать метод «print()», чтобы показать вывод.

Выход



Примечание: Код и выходные данные также можно просмотреть непосредственно в нашей Google Colab. .

Заключение

Наборы данных «Обнимающее лицо» » позволяют пользователям невероятно эффективно тестировать свои модели машинного обучения, одновременно импортируя большие наборы данных из своей онлайн-библиотеки. В результате применение алгоритмов НЛП стало проще и быстрее, поскольку программисты могут тестировать свои проекты на наборе данных, который имеет как качество, так и количество.