Введение в Selenium в Python 3

Introduction Selenium Python 3



Selenium - это фреймворк, используемый для тестирования веб-приложений. Selenium автоматизирует браузер, такой как Chrome или Firefox, для запуска тестов на желаемом веб-сайте. Selenium также является очень мощным инструментом для очистки веб-страниц. Selenium поддерживает JavaScript и все современные функции браузера. Этот инструмент очень эффективен при извлечении информации с веб-сайтов.

Эта статья покажет вам, как настроить Selenium в вашем дистрибутиве Linux (например, Ubuntu), а также как выполнить базовую веб-автоматизацию и удаление веб-страниц с помощью библиотеки Selenium Python 3.







Предпосылки

Чтобы опробовать команды и примеры, использованные в этой статье, у вас должно быть следующее:



1) На вашем компьютере установлен дистрибутив Linux (желательно Ubuntu).
2) Python 3 установлен на вашем компьютере.
3) PIP 3 установлен на вашем компьютере.
4) Веб-браузер Google Chrome или Firefox, установленный на вашем компьютере.



Вы можете найти множество статей по этим темам на сайте LinuxHint.com . Обязательно ознакомьтесь с этими статьями, если вам понадобится дополнительная помощь.





Подготовка виртуальной среды Python 3 для проекта

Виртуальная среда Python используется для создания изолированного каталога проекта Python. Модули Python, которые вы устанавливаете с помощью PIP, будут установлены только в каталоге проекта, а не глобально.

Питон virtualenv модуль используется для управления виртуальными средами Python.



Вы можете установить Python virtualenv модуль глобально с использованием PIP 3, а именно:

$ sudo pip3 установить virtualenv

PIP3 загрузит и глобально установит все необходимые модули.

На этом этапе Python virtualenv модуль должен быть установлен глобально.

Создайте каталог проекта питон-селен-основной / в вашем текущем рабочем каталоге, как показано ниже:

$ mkdir -pv python-selenium-basic / драйверы

Перейдите в каталог только что созданного проекта. питон-селен-основной / , следующее:

$CDпитон-селен-основной /

Создайте виртуальную среду Python в каталоге вашего проекта с помощью следующей команды:

$ virtualenv.env

Виртуальная среда Python теперь должна быть создана в каталоге вашего проекта ».

Активируйте виртуальную среду Python в каталоге вашего проекта с помощью следующей команды:

$ source.env/ bin / активировать

Как видите, виртуальная среда Python активирована для этого каталога проекта.

Установка библиотеки Selenium Python

Библиотека Selenium Python доступна в официальном репозитории Python PyPI.

Вы можете установить эту библиотеку с помощью PIP 3 следующим образом:

$ pip3 установить селен

Библиотека Selenium Python должна быть установлена.

Теперь, когда библиотека Selenium Python установлена, следующее, что вам нужно сделать, это установить веб-драйвер для вашего любимого веб-браузера. В этой статье я покажу вам, как установить веб-драйверы Firefox и Chrome для Selenium.

Установка драйвера Firefox Gecko

Драйвер Firefox Gecko позволяет вам управлять или автоматизировать веб-браузер Firefox с помощью Selenium.

Чтобы загрузить драйвер Firefox Gecko, посетите GitHub выпускает страницу mozilla / geckodriver из веб-браузера.

Как видите, v0.26.0 - это последняя версия драйвера Firefox Gecko на момент написания этой статьи.

Чтобы загрузить драйвер Firefox Gecko, прокрутите немного вниз и щелкните архив Linux geckodriver tar.gz, в зависимости от архитектуры вашей операционной системы.

Если вы используете 32-разрядную операционную систему, щелкните значок geckodriver-v0.26.0-linux32.tar.gz ссылка.

Если вы используете 64-битную операционную систему, щелкните значок geckodriver-v0.26.0-linuxx64.tar.gz ссылка.

В моем случае я скачаю 64-разрядную версию драйвера Firefox Gecko.

Ваш браузер должен предложить вам сохранить архив. Выбирать Сохранить файл а затем щелкните Ok .

Архив с драйверами Firefox Gecko необходимо скачать в папке ~ / Загрузки каталог.

Извлеките geckodriver-v0.26.0-linux64.tar.gz архив из ~ / Загрузки каталог в драйверы / каталог вашего проекта, введя следующую команду:

$деготь -xzf~/Загрузки/geckodriver-v0.26.0-linux64.tar.gz-Cводители/

После извлечения архива драйвера Firefox Gecko новый водитель геккона бинарный файл должен быть создан в драйверы / каталог вашего проекта, как вы можете видеть на скриншоте ниже.

Тестирование драйвера Selenium Firefox Gecko

В этом разделе я покажу вам, как настроить ваш самый первый скрипт Selenium Python, чтобы проверить, работает ли драйвер Firefox Gecko.

Сначала откройте каталог проекта питон-селен-основной / с вашей любимой IDE или редактором. В этой статье я буду использовать код Visual Studio.

Создайте новый скрипт Python ex01.py , и введите следующие строки в скрипт.

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи
из время Импортироватьспать
браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')
браузер.получать('http://www.google.com')
спать(5)
браузер.покидать()

Как только вы закончите, сохраните ex01.py Скрипт Python.

Я объясню код в следующем разделе этой статьи.

Следующая строка настраивает Selenium для использования драйвера Firefox Gecko из драйверы / каталог вашего проекта.

Чтобы проверить, работает ли драйвер Firefox Gecko с Selenium, запустите следующее ex01.py Скрипт Python:

$ python3 ex01.ру

Веб-браузер Firefox должен автоматически посетить Google.com и закрыть себя через 5 секунд. Если это происходит, значит, драйвер Selenium Firefox Gecko работает правильно.

Установка веб-драйвера Chrome

Веб-драйвер Chrome позволяет управлять или автоматизировать веб-браузер Google Chrome с помощью Selenium.

Вы должны загрузить ту же версию веб-драйвера Chrome, что и ваш браузер Google Chrome.

Чтобы узнать номер версии своего веб-браузера Google Chrome, посетите хром: // настройки / помощь в Google Chrome. Номер версии должен быть в О Chrome раздел, как вы можете видеть на скриншоте ниже.

В моем случае номер версии 83.0.4103.116 . Первые три части номера версии ( 83.0.4103 в моем случае) должны соответствовать первым трем частям номера версии веб-драйвера Chrome.

Чтобы загрузить веб-драйвер Chrome, посетите официальная страница загрузки драйвера Chrome .

в Текущие выпуски будет доступен веб-драйвер Chrome для самых последних версий веб-браузера Google Chrome, как вы можете видеть на снимке экрана ниже.

Если используемая вами версия Google Chrome отсутствует в Текущие выпуски раздел, прокрутите немного вниз, и вы должны найти желаемую версию.

После того, как вы выберете правильную версию веб-драйвера Chrome, откроется следующая страница. Нажать на chromedriver_linux64.zip ссылка, как показано на скриншоте ниже.

Теперь необходимо загрузить архив веб-драйвера Chrome.

Архив веб-драйвера Chrome теперь должен быть загружен в папку ~ / Загрузки каталог.

Вы можете извлечь chromedriver-linux64.zip архив из ~ / Загрузки каталог в драйверы / каталог вашего проекта с помощью следующей команды:

$ распаковать~/ Загрузки / chromedriver_linux64.застегивать-d драйверы /

После извлечения архива веб-драйвера Chrome новый хромированная отвертка бинарный файл должен быть создан в драйверы / каталог вашего проекта, как вы можете видеть на скриншоте ниже.

Тестирование веб-драйвера Selenium Chrome

В этом разделе я покажу вам, как настроить ваш самый первый скрипт Selenium Python, чтобы проверить, работает ли веб-драйвер Chrome.

Сначала создайте новый скрипт Python ex02.py и введите в скрипт следующие строки кода.

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи
из время Импортироватьспать
браузерзнак равноwebdriver.Хром(исполняемый_путьзнак равно'./drivers/chromedriver')
браузер.получать('http://www.google.com')
спать(5)
браузер.покидать()

Как только вы закончите, сохраните ex02.py Скрипт Python.

Я объясню код в следующем разделе этой статьи.

Следующая строка настраивает Selenium для использования веб-драйвера Chrome из драйверы / каталог вашего проекта.

Чтобы проверить, работает ли веб-драйвер Chrome с Selenium, запустите ex02.py Скрипт Python, как показано ниже:

$ python3 ex01.ру

Веб-браузер Google Chrome должен автоматически перейти на Google.com и закрываться через 5 секунд. Если это происходит, значит, драйвер Selenium Firefox Gecko работает правильно.

Основы веб-парсинга с помощью Selenium

С этого момента я буду использовать веб-браузер Firefox. Вы также можете использовать Chrome, если хотите.

Базовый скрипт Selenium Python должен выглядеть как скрипт, показанный на скриншоте ниже.

Сначала импортируйте селен webdriver от селен модуль.

Затем импортируйте Ключи из selenium.webdriver.common.keys . Это поможет вам отправлять нажатия клавиш клавиатуры в браузер, который вы автоматизируете, из Selenium.

Следующая строка создает браузер объект для веб-браузера Firefox с помощью драйвера Firefox Gecko (Webdriver). С помощью этого объекта вы можете управлять действиями браузера Firefox.

Чтобы загрузить веб-сайт или URL (я буду загружать веб-сайт https://www.duckduckgo.com ), позвоните в получать() метод браузер объект в вашем браузере Firefox.

Используя Selenium, вы можете писать свои тесты, выполнять парсинг веб-страниц и, наконец, закрыть браузер с помощью покидать() метод браузер объект.

Выше представлен базовый макет скрипта Selenium Python. Вы будете писать эти строки во всех своих скриптах Selenium Python.

Пример 1: Печать заголовка веб-страницы

Это будет самый простой пример использования Selenium. В этом примере мы напечатаем заголовок веб-страницы, которую будем посещать.

Создайте новый файл ex04.py и введите в него следующие строки кодов.

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи

браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')

браузер.получать(https://www.duckduckgo.com)
Распечатать('Заголовок:% s'% browser.заглавие)
браузер.покидать()

Как только вы закончите, сохраните файл.

Здесь browser.title используется для доступа к заголовку посещенной веб-страницы и Распечатать() функция будет использоваться для печати заголовка в консоли.

После запуска ex04.py скрипт, он должен:

1) Откройте Firefox.
2) Загрузите желаемую веб-страницу
3) Получить заголовок страницы
4) Распечатать заголовок на консоли
5) И, наконец, закройте браузер

Как видите, ex04.py script правильно распечатал заголовок веб-страницы в консоли.

$ python3 ex04.ру

Пример 2: Печать заголовков нескольких веб-страниц

Как и в предыдущем примере, вы можете использовать тот же метод для печати заголовков нескольких веб-страниц с помощью цикла Python.

Чтобы понять, как это работает, создайте новый скрипт Python ex05.py и введите в скрипт следующие строки кода:

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи

браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')


URLзнак равно [https://www.duckduckgo.com, 'https://linuxhint.com', https://yahoo.com]
дляurlвURL:
браузер.получать(url)
Распечатать('Заголовок:% s'% browser.заглавие)
браузер.покидать()

Как только вы закончите, сохраните скрипт Python ex05.py .

Здесь URL list хранит URL-адреса каждой веб-страницы.

К для цикл используется для перебора URL список пунктов.

На каждой итерации Selenium сообщает браузеру посетить url и получите название веб-страницы. Как только Selenium извлекает заголовок веб-страницы, он печатается в консоли.

Запустите скрипт Python ex05.py , и вы должны увидеть заголовок каждой веб-страницы в URL список.

$ python3 ex05.ру

Это пример того, как Selenium может выполнять одну и ту же задачу с несколькими веб-страницами или веб-сайтами.

Пример 3: Извлечение данных с веб-страницы

В этом примере я покажу вам основы извлечения данных с веб-страниц с помощью Selenium. Это также известно как парсинг веб-страниц.

Сначала посетите Random.org ссылка из Firefox. Страница должна генерировать случайную строку, как вы можете видеть на скриншоте ниже.

Чтобы извлечь случайные строковые данные с помощью Selenium, вы также должны знать представление данных в формате HTML.

Чтобы увидеть, как случайные строковые данные представлены в HTML, выберите случайные строковые данные, нажмите правую кнопку мыши (ПКМ) и щелкните Осмотрите элемент (Q) , как показано на скриншоте ниже.

HTML-представление данных должно отображаться в Инспектор вкладка, как вы можете видеть на скриншоте ниже.

Вы также можете нажать на Значок проверки ( ) для проверки данных со страницы.

Щелкните значок проверки () и наведите указатель мыши на случайные строковые данные, которые вы хотите извлечь. HTML-представление данных должно отображаться, как и раньше.

Как видите, случайные строковые данные обернуты в HTML-код. для тег и содержит класс данные .

Теперь, когда мы знаем HTML-представление данных, которые хотим извлечь, мы создадим сценарий Python для извлечения данных с помощью Selenium.

Создайте новый скрипт Python ex06.py и введите в скрипт следующие строки кодов

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи

браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')

браузер.получать('https://www.random.org/strings/?num=1&len=20&digits
= on & upperalpha = on & loweralpha = on & unique = on & format = html & rnd = new '
)

dataElementзнак равнобраузер.find_element_by_css_selector('pre.data')
Распечатать(dataElement.текст)
браузер.покидать()

Как только вы закончите, сохраните ex06.py Скрипт Python.

Здесь browser.get () загружает веб-страницу в браузере Firefox.

В browser.find_element_by_css_selector () Метод ищет в HTML-коде страницы определенный элемент и возвращает его.

В этом случае элемент будет предварительные данные , то для тег с именем класса данные .

Ниже предварительные данные элемент был сохранен в dataElement Переменная.

Затем сценарий печатает текстовое содержимое выбранных предварительные данные элемент.

Если вы запустите ex06.py Сценарий Python должен извлекать случайные строковые данные с веб-страницы, как вы можете видеть на снимке экрана ниже.

$ python3 ex06.ру

Как видите, каждый раз, когда я запускаю ex06.py Сценарий Python извлекает с веб-страницы разные случайные строковые данные.

Пример 4: Извлечение списка данных с веб-страницы

В предыдущем примере показано, как извлечь отдельный элемент данных с веб-страницы с помощью Selenium. В этом примере я покажу вам, как использовать Selenium для извлечения списка данных с веб-страницы.

Сначала посетите random-name-generator.info из вашего веб-браузера Firefox. Этот веб-сайт будет генерировать десять случайных имен каждый раз, когда вы перезагружаете страницу, как вы можете видеть на скриншоте ниже. Наша цель - извлечь эти случайные имена с помощью Selenium.

Если вы внимательно изучите список имен, вы увидите, что это упорядоченный список ( умереть ярлык). В умереть тег также включает имя класса список имен . Каждое из случайных имен представлено в виде элемента списка ( на тег) внутри умереть ярлык.

Чтобы извлечь эти случайные имена, создайте новый скрипт Python ex07.py и введите в скрипт следующие строки кода.

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи

браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')

браузер.получать('http://random-name-generator.info/')

список имензнак равнобраузер.find_elements_by_css_selector('ol.nameList li')

дляимявсписок имен:
Распечатать(имя.текст)

браузер.покидать()

Как только вы закончите, сохраните ex07.py Скрипт Python.

Здесь browser.get () загружает веб-страницу генератора случайных имен в браузере Firefox.

В browser.find_elements_by_css_selector () метод использует селектор CSS ol.nameList li найти все на элементы внутри умереть тег с именем класса список имен . Я сохранил все отобранные на элементы в список имен Переменная.

К для цикл используется для перебора список имен Список на элементы. На каждой итерации содержимое на элемент напечатан на консоли.

Если вы запустите ex07.py Скрипт Python, он получит все случайные имена с веб-страницы и распечатает их на экране, как вы можете видеть на скриншоте ниже.

$ python3 ex07.ру

Если вы запустите сценарий во второй раз, он должен вернуть новый список случайных имен пользователей, как вы можете видеть на снимке экрана ниже.

Пример 5: Отправка формы - поиск на DuckDuckGo

Этот пример так же прост, как и первый. В этом примере я захожу в поисковую систему DuckDuckGo и ищу термин селен hq используя Selenium.

Сначала посетите DuckDuckGo поисковая система из веб-браузера Firefox.

Если вы проверите поле ввода поиска, оно должно иметь идентификатор search_form_input_homepage , как вы можете видеть на скриншоте ниже.

Теперь создайте новый скрипт Python ex08.py и введите в скрипт следующие строки кода.

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи
браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')
браузер.получать('https://duckduckgo.com/')
searchInputзнак равнобраузер.find_element_by_id('search_form_input_homepage')
searchInput.send_keys('селен HQ'+ Ключи.ВХОДИТЬ)

Как только вы закончите, сохраните ex08.py Скрипт Python.

Здесь browser.get () загружает домашнюю страницу поисковой системы DuckDuckGo в веб-браузере Firefox.

В browser.find_element_by_id () метод выбирает элемент ввода с идентификатором search_form_input_homepage и хранит его в searchInput Переменная.

В searchInput.send_keys () используется для отправки данных нажатия клавиш в поле ввода. В этом примере он отправляет строку селен hq , и клавиша Enter нажимается с помощью Keys.ENTER постоянный.

Как только поисковая система DuckDuckGo получит клавишу Enter, нажмите ( Keys.ENTER ), он выполняет поиск и отображает результат.

Запустить ex08.py Скрипт Python, как показано ниже:

$ python3 ex08.ру

Как видите, браузер Firefox посетил поисковую систему DuckDuckGo.

Он автоматически набрал селен hq в текстовом поле поиска.

Как только браузер получит клавишу Enter, нажмите ( Keys.ENTER ), он отобразил результат поиска.

Пример 6: Отправка формы на W3Schools.com

В примере 5 отправка формы поисковой системы DuckDuckGo была простой. Все, что вам нужно было сделать, это нажать клавишу Enter. Но это не относится ко всем формам. В этом примере я покажу вам более сложную обработку формы.

Сначала посетите Страница HTML-форм на сайте W3Schools.com из веб-браузера Firefox. После загрузки страницы вы должны увидеть образец формы. Это форма, которую мы отправим в этом примере.

Если вы проверите форму, Имя поле ввода должно иметь идентификатор имя , то Фамилия поле ввода должно иметь идентификатор lname , а Кнопка 'Отправить' должен иметь тип Разместить , как вы можете видеть на скриншоте ниже.

Чтобы отправить эту форму с помощью Selenium, создайте новый скрипт Python ex09.py и введите в скрипт следующие строки кода.

изселенИмпортироватьwebdriver
изселен.webdriver.общий.ключи ИмпортироватьКлючи
браузерзнак равноwebdriver.Fire Fox(исполняемый_путьзнак равно'./drivers/geckodriver')
браузер.получать('https://www.w3schools.com/html/html_forms.asp')
имязнак равнобраузер.find_element_by_id('fname')
fname.Чисто()
fname.send_keys('Шахриар')
lnameзнак равнобраузер.find_element_by_id('lname')
lname.Чисто()
lname.send_keys('Шовон')
submitButtonзнак равнобраузер.find_element_by_css_selector('input [type =' submit ']')
submitButton.send_keys(Ключи.ВХОДИТЬ)

Как только вы закончите, сохраните ex09.py Скрипт Python.

Здесь browser.get () открывает страницу HTML-форм W3schools в веб-браузере Firefox.

В browser.find_element_by_id () метод находит поля ввода по идентификатору имя а также lname и хранит их в имя а также lname переменные соответственно.

В fname.clear () а также lname.clear () методы очищают имя по умолчанию (Джон) имя значение и фамилия (Доу) lname значение из полей ввода.

В fname.send_keys () а также lname.send_keys () тип методов Шахриар а также Шовон в Имя а также Фамилия поля ввода соответственно.

В browser.find_element_by_css_selector () метод выбирает Кнопка 'Отправить' формы и сохраняет его в submitButton Переменная.

В submitButton.send_keys () метод отправляет нажатие клавиши Enter ( Keys.ENTER ) к Кнопка 'Отправить' формы. Это действие отправляет форму.

Запустить ex09.py Скрипт Python, как показано ниже:

$ python3 ex09.ру

Как видите, форма была отправлена ​​автоматически с правильными входными данными.

Заключение

Эта статья должна помочь вам начать тестирование Selenium в браузере, веб-автоматизацию и библиотеки очистки веб-страниц в Python 3. Для получения дополнительной информации ознакомьтесь с официальная документация по Selenium Python .