Функция Pipeline() является неотъемлемой частью библиотеки Transformer. Требуется несколько входных данных, в которых мы можем определить задачу вывода, модели, механизм токенизации и т. д. Функция конвейера () в основном используется для выполнения задач НЛП над одним или несколькими текстами. Он выполняет предварительную обработку входных данных и постобработку на основе модели для создания удобочитаемых результатов и точного прогнозирования с максимальной точностью.
В этой статье рассматриваются следующие аспекты:
- Что такое библиотека наборов данных обнимающихся лиц?
- Как применить конвейеры к набору данных в Hugging Face?
Что такое библиотека набора данных обнимающих лиц?
Библиотека наборов данных Hugging Face — это API, который содержит несколько общедоступных наборов данных и обеспечивает простой способ их загрузки. Эту библиотеку можно импортировать и установить в приложение с помощью команды « пункт команда. Для практической демонстрации загрузки и установки наборов данных библиотеки Hugging Face посетите этот сайт. Ссылка на Google Colab. Вы можете загрузить несколько наборов данных с сайта Центр набора данных обнимающих лиц.
Узнайте больше о функционировании функции конвейера(), обратившись к этой статье « Как использовать функцию Pipeline() в трансформаторах? ».
Как применить конвейеры к набору данных в Hugging Face?
Hugging Face предоставляет несколько различных общедоступных наборов данных, которые можно легко установить с помощью однострочного кода. В этой статье мы увидим практическую демонстрацию применения конвейеров к этим наборам данных. Существует два способа реализации конвейеров в наборе данных.
Метод 1: использование метода итерации
Функция конвейера() также может выполнять итерацию по набору данных и модели. Для этого выполните следующие шаги:
Шаг 1. Установите библиотеку Transformer
Чтобы установить библиотеку Transformer, введите следующую команду:
!pip установить трансформаторы
Шаг 2. Импортируйте конвейеры
Мы можем импортировать конвейер из библиотеки Transformer. Для этого введите следующую команду:
из трубопровода импорта трансформаторов
Шаг 3. Внедрение конвейера
Здесь функция конвейер() реализована на модели « gpt2 ». Вы можете скачать модели с сайта Центр моделей обнимающего лица:
защита imp_pipeline():для x в диапазоне (1000):
доходность f'Набор данных реализации {x}'
генерировать_pipeline = конвейер (модель = 'gpt2', устройство = 0)
gen_char= 0
для вывода вgener_pipeline(imp_pipeline()):
gen_char += len(output[0]['generated_text'])
В этом коде « генерировать_конвейер ” — это переменная, содержащая функцию конвейера() с моделью “ gpt2 ». Когда он вызывается с помощью « imp_pipeline() » функция автоматически распознает данные, которые увеличиваются в диапазоне, указанном до 1000:
Это займет некоторое время на обучение. Ссылка на Google Ко также дано.
Способ 2: использование библиотеки наборов данных
В этом методе мы продемонстрируем реализацию конвейера с использованием библиотеки «наборов данных»:
Шаг 1: Установите трансформатор
Чтобы установить библиотеку Transformer, введите следующую команду:
!pip установить трансформаторы
Шаг 2. Установите библиотеку наборов данных.
Как « наборы данных Библиотека содержит все общедоступные наборы данных, мы можем установить ее с помощью следующей команды. Установив « наборы данных » мы можем напрямую импортировать любой набор данных, указав его имя:
!pip установить наборы данных
Шаг 3. Конвейер набора данных
Чтобы построить конвейер на основе набора данных, используйте следующий код. KeyDataset — это функция, которая выводит только те значения, которые интересуют пользователя:
из Transformers.pipelines.pt_utils импортировать KeyDatasetиз трубопровода импорта трансформаторов
из наборов данных импортируйте load_dataset
gen_pipeline = конвейер (модель = 'hf-internal-testing/tiny-random-wav2vec2', устройство = 0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', Split='validation[:10]') для вывода в gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Вывод на печать сейчас')
Распечатать ('----------------')
печать (выход)
Вывод приведенного выше кода приведен ниже:
Это все из этого руководства. Ссылка на Google Ко также упоминается в этой статье
Заключение
Чтобы применить конвейеры к набору данных, мы можем либо перебрать набор данных с помощью функции конвейера (), либо использовать « наборы данных » библиотека. Hugging Face предоставляет своим пользователям ссылку на репозиторий GitHub как для наборов данных, так и для моделей, которые можно использовать в зависимости от требований. В этой статье представлено подробное руководство по применению конвейеров к набору данных в Transformers.