В этом руководстве объясняются сканеры списков в AWS.
Что такое List-Crawler в AWS?
Crawler — это компонент AWS Glue, который используется для обхода местоположения данных и выводит эту информацию обратно в каталог. Информация, которую собирает сканер, может быть типами данных, структурой схемы или, другими словами, собирает метаданные. Crawler также можно использовать с каталогом данных, который используется, когда данные перемещаются внутри экосистемы Glue при использовании заданий ETL и т. д.
Что такое Amazon Glue Service?
AWS Glue — это сервис Amazon Extract Transform and Load, который позволяет пользователю упорядочивать, находить, перемещать и преобразовывать все данные. AWS Glue является бессерверным, поскольку пользователю не требуется выделять и настраивать серверы или управлять жизненными циклами. Каталог данных и поисковые роботы — это компоненты AWS Glue, которые действуют как постоянное хранилище метаданных:
Как создать краулер на AWS?
Чтобы создать сканер на AWS, посетите сервис AWS Glue из Консоли управления AWS:
Отправляйтесь в « Краулеры », нажав на его название на левой панели:
Нажать на ' Создать сканер ' кнопка:
Введите имя сканера и нажмите « Следующий ' кнопка:
Выберите параметр сопоставления для склеенных таблиц и нажмите кнопку « Добавить источник ” для получения данных из:
Выберите службу S3 и нажмите « Обзор S3 », чтобы получить местоположение источника:
Просто выберите папку S3 и нажмите « Выбирать ' кнопка:
Как только местоположение будет добавлено в источник, просто нажмите « Добавьте источник данных S3 ' кнопка:
Нажать на ' Следующий ' кнопка:
Нажать на ' Создать новую роль IAM ” из “ Настроить параметры безопасности ' раздел:
Введите имя роли и нажмите « Создавать ' кнопка:
После этого просто нажмите на кнопку « Следующий ' кнопка:
Выберите целевую базу данных и введите имя, которое будет использоваться для таблицы:
Запланируйте поисковый робот на « По требованию » и нажмите на кнопку « Следующий ' кнопка:
Проверьте конфигурацию и нажмите « Создать сканер ' кнопка:
Искатель успешно создан, и его можно использовать для извлечения данных из источника, нажав кнопку « Бегать ' кнопка:
Это все, что касается сканеров списков в AWS.
Заключение
ListCrawler — это компонент сервиса AWS Glue, который можно использовать для обхода информации из источников и возврата к каталогу. Каталоги данных и сканеры могут использоваться для сбора данных, чтобы получить информацию о данных, которая известна как метаданные. Пользователь также может создать сканер из AWS Glue, чтобы получать данные из службы S3 или других источников и размещать таблицы создания в базе данных. В этом руководстве объясняется, как использовать ListCrawlers в AWS и как их создавать.