Веб-очистка с BeautifulSoup в Python

Android · 10.07.2019

Есть несколько пакетов в Python, которые позволяют нам очищать информацию от интернет-страниц. Один из наиболее распространенных - BeautifulSoup.

BeautifulSoup позволяет нам разбирать содержание HTML данного URL и получать доступ к его элементам, отождествляя их с их признаками. Поэтому мы будем использовать его, чтобы извлечь определенные части текста с веб-сайтов.

Это - чрезвычайно простой в использовании, но все же сильный пакет. Почти с 3-5 линиями кодекса мы будем в состоянии извлечь любой текст, который мы хотим от Интернета.

Чтобы установить его, пожалуйста, напечатайте следующий кодекс в свое распределение Python:

! pip install beautifulsoup4

Чтобы предоставить BeautifulSoup HTML-код любой страницы, мы должны будем также импортировать модуль запросов. Чтобы установить его, если это уже не включено в Ваше распределение питона, пожалуйста, напечатайте:

! pip install requests

Мы будем использовать модуль запросов, чтобы получить HTML-код от страницы и затем провести через него с пакетом BeautifulSoup. Мы будем учиться использовать две команды, которые будут достаточно для нашей задачи:

find_all (признак элемента, признак): это позволяет нам определять местонахождение любого элемента HTML от интернет-страницы, вводящей ее признаки. Эта команда определит местонахождение всех элементов того же типа. Чтобы получить только первый, мы можем использовать, находят () вместо этого.

get_text (): как только мы определили местонахождение данного элемента, эта команда позволит нам извлекать текст внутри.

Так, в этом пункте, что мы должны сделать, должны провести через HTML-код нашей интернет-страницы (например, в Google Chrome, мы должны войти в интернет-страницу, нажать кнопку щелчка правой кнопкой мыши, чтобы Видеть исходный код), и определить местонахождение элементов, которые мы хотим очистить. Мы можем просто сделать этот с помощью Ctrl F или Cmd F, как только мы видим исходный код.

Как только мы определили элементы интереса, мы получим HTML-код с модулем запросов и извлечем те элементы с BeautifulSoup.

На данном этапе мы в состоянии извлечь содержание различных новостных статей.

Автор	Заголовок	Раздел	Ответы	Дата
	Интересно Руководство по тестированию Веб-Безопасности OWASP.	Уязвимости и взлом	0	02.04.2024
H	Веб-разработчик. Ищу работу.	Услуги дизайнеров/веб-разработчиков	1	14.06.2023
M	Веб-сервис Masscan Online	Дедики/VPN/соксы/ssh	4	08.09.2022
S	[Веб-Разработка] Фейки/копии сайтов, клоакинг \| EN AVAILABLE	Услуги дизайнеров/веб-разработчиков	0	29.05.2021
S	Веб-сервис Masscan.Online	Продажа софта	1	05.12.2020
E	Закрыто Курс «Тестирование Веб-Приложений на проникновение»	Корзина	0	16.10.2020
	Проверено «EDEM Design» \| Веб-дизайн и сайты под ключ для роста продаж \| Программы и скрипты	Услуги дизайнеров/веб-разработчиков	2	10.09.2020
S	[Академия верстки] Веб-разработчик 12.0	Полезные статьи	0	18.06.2019
	INLINE Веб майнинг	Проекты Private Keeper	1	27.01.2019
C	Apple, очистка от iCloud	Вопросы и интересы	49	12.02.2020

Веб-очистка с BeautifulSoup в Python

Android

Название темы