Что такое List-Crawler в AWS?

Cto Takoe List Crawler V Aws



Данные оказали огромное влияние на рост компаний, поскольку многие из них сильно зависят от них, чтобы получить представление о них. Метаданные — это данные о данных, которые объясняют данные, чтобы данные можно было использовать для извлечения из них максимальной информации. Метаданные содержат такую ​​информацию, как расположение данных, структура схемы, тип данных или такие вещи, как владелец данных.

В этом руководстве объясняются сканеры списков в AWS.

Что такое List-Crawler в AWS?

Crawler — это компонент AWS Glue, который используется для обхода местоположения данных и выводит эту информацию обратно в каталог. Информация, которую собирает сканер, может быть типами данных, структурой схемы или, другими словами, собирает метаданные. Crawler также можно использовать с каталогом данных, который используется, когда данные перемещаются внутри экосистемы Glue при использовании заданий ETL и т. д.









Что такое Amazon Glue Service?

AWS Glue — это сервис Amazon Extract Transform and Load, который позволяет пользователю упорядочивать, находить, перемещать и преобразовывать все данные. AWS Glue является бессерверным, поскольку пользователю не требуется выделять и настраивать серверы или управлять жизненными циклами. Каталог данных и поисковые роботы — это компоненты AWS Glue, которые действуют как постоянное хранилище метаданных:







Как создать краулер на AWS?

Чтобы создать сканер на AWS, посетите сервис AWS Glue из Консоли управления AWS:



Отправляйтесь в « Краулеры », нажав на его название на левой панели:

Нажать на ' Создать сканер ' кнопка:

Введите имя сканера и нажмите « Следующий ' кнопка:

Выберите параметр сопоставления для склеенных таблиц и нажмите кнопку « Добавить источник ” для получения данных из:

Выберите службу S3 и нажмите « Обзор S3 », чтобы получить местоположение источника:

Просто выберите папку S3 и нажмите « Выбирать ' кнопка:

Как только местоположение будет добавлено в источник, просто нажмите « Добавьте источник данных S3 ' кнопка:

Нажать на ' Следующий ' кнопка:

Нажать на ' Создать новую роль IAM ” из “ Настроить параметры безопасности ' раздел:

Введите имя роли и нажмите « Создавать ' кнопка:

После этого просто нажмите на кнопку « Следующий ' кнопка:

Выберите целевую базу данных и введите имя, которое будет использоваться для таблицы:

Запланируйте поисковый робот на « По требованию » и нажмите на кнопку « Следующий ' кнопка:

Проверьте конфигурацию и нажмите « Создать сканер ' кнопка:

Искатель успешно создан, и его можно использовать для извлечения данных из источника, нажав кнопку « Бегать ' кнопка:

Это все, что касается сканеров списков в AWS.

Заключение

ListCrawler — это компонент сервиса AWS Glue, который можно использовать для обхода информации из источников и возврата к каталогу. Каталоги данных и сканеры могут использоваться для сбора данных, чтобы получить информацию о данных, которая известна как метаданные. Пользователь также может создать сканер из AWS Glue, чтобы получать данные из службы S3 или других источников и размещать таблицы создания в базе данных. В этом руководстве объясняется, как использовать ListCrawlers в AWS и как их создавать.