Веб-очистка с BeautifulSoup в Python

A

Android

Original poster
C57D2200-DAFE-4837-9B7A-2DB3305AA830.jpeg
Есть несколько пакетов в Python, которые позволяют нам очищать информацию от интернет-страниц. Один из наиболее распространенных - BeautifulSoup.

BeautifulSoup позволяет нам разбирать содержание HTML данного URL и получать доступ к его элементам, отождествляя их с их признаками. Поэтому мы будем использовать его, чтобы извлечь определенные части текста с веб-сайтов.

Это - чрезвычайно простой в использовании, но все же сильный пакет. Почти с 3-5 линиями кодекса мы будем в состоянии извлечь любой текст, который мы хотим от Интернета.

Чтобы установить его, пожалуйста, напечатайте следующий кодекс в свое распределение Python:

! pip install beautifulsoup4

Чтобы предоставить BeautifulSoup HTML-код любой страницы, мы должны будем также импортировать модуль запросов. Чтобы установить его, если это уже не включено в Ваше распределение питона, пожалуйста, напечатайте:

! pip install requests

Мы будем использовать модуль запросов, чтобы получить HTML-код от страницы и затем провести через него с пакетом BeautifulSoup. Мы будем учиться использовать две команды, которые будут достаточно для нашей задачи:

find_all (признак элемента, признак): это позволяет нам определять местонахождение любого элемента HTML от интернет-страницы, вводящей ее признаки. Эта команда определит местонахождение всех элементов того же типа. Чтобы получить только первый, мы можем использовать, находят () вместо этого.

get_text (): как только мы определили местонахождение данного элемента, эта команда позволит нам извлекать текст внутри.

Так, в этом пункте, что мы должны сделать, должны провести через HTML-код нашей интернет-страницы (например, в Google Chrome, мы должны войти в интернет-страницу, нажать кнопку щелчка правой кнопкой мыши, чтобы Видеть исходный код), и определить местонахождение элементов, которые мы хотим очистить. Мы можем просто сделать этот с помощью Ctrl F или Cmd F, как только мы видим исходный код.

Как только мы определили элементы интереса, мы получим HTML-код с модулем запросов и извлечем те элементы с BeautifulSoup.

На данном этапе мы в состоянии извлечь содержание различных новостных статей.
 

Название темы