Как создать сканер для извлечения данных из корзины S3?

Kak Sozdat Skaner Dla Izvlecenia Dannyh Iz Korziny S3



AWS Glue используется для обнаружения данных, интеграции данных, обхода данных и создания каталога данных в облаке. Пользователь может создать сканер из AWS Glue, который будет сканировать данные из заданного источника, а затем сохранять их в каталоге данных для получения информации. Пользователю нужно только запустить сканер, и все остальное будет выполнено сканером в течение нескольких секунд.

В этом руководстве объясняется, как создавать сканеры для извлечения данных из корзины S3.

Как создать сканер для извлечения данных из корзины S3?

Чтобы создать сканер в AWS, посетите страницу « Клей AWS ” с панели управления Amazon:









Нажать на ' Базы данных ” из раздела Каталог данных, чтобы создать базу данных:







Нажать на ' Добавить базу данных », чтобы начать настройку:



Введите имя базы данных и оставьте все как есть, прежде чем нажимать кнопку « Создать базу данных ' кнопка:

База данных создана успешно:

После этого просто зайдите в « Краулеры », щелкнув ее на левой панели:

Нажать на ' Создать сканер ' кнопка:

Введите имя сканера и нажмите « Следующий ' кнопка:

Нажать на ' Добавить источник данных ” для выбора источника данных:

Чтобы проверить путь, по которому хранятся данные, посетите сервис S3:

Перейдите в корзину S3, куда загружаются данные. Пользователь может создавать ведро и загрузить данные по нему с дашборда AWS S3:

Нажать на ' Обзор S3 », чтобы выбрать путь к данным:

Выберите папку, содержащую данные, затем нажмите кнопку « Выбирать ' кнопка:

Путь S3 выбран, теперь нажмите « Добавьте источник данных S3 ' кнопка:

После добавления источника данных просто нажмите на кнопку « Следующий ' кнопка:

Добавьте роль IAM и нажмите « Следующий ' кнопка:

Введите целевую базу данных, созданную ранее, а затем введите имя таблицы:

Выберите расписание По запросу для сканера и нажмите кнопку « Следующий ' кнопка:

Просмотрите поисковый робот и нажмите « Создать сканер ' кнопка:

Сканер успешно создан, нажмите на кнопку « Бегать ” после его выбора:

Запуск сканера займет несколько минут, он извлечет данные и создаст таблицу для хранения данных:

Отправляйтесь в « Столы ” на панели управления Glue:

Выберите таблицу, нажав на ее название:

Отображаются детали истории, содержащие метаданные извлеченных данных:

Прокрутите страницу вниз и выберите раздел для просмотра таблицы, содержащей данные:

Вот и все, что касается создания краулера для извлечения данных из корзины S3.

Заключение

Чтобы создать сканер для извлечения данных из корзины S3, создайте базу данных на AWS Glue, в которой будут храниться просканированные данные. Настройте сканер на панели управления Glue, указав источник данных (сегмент S3) и целевую базу данных. Запустите сканер и извлеките данные из корзины S3 в таблицу базы данных, как подробно описано в этом руководстве.