Пишем парсер на Python - грабим Proxy ч.2

  • Автор темы Gidroponika
  • Дата начала
G

Gidroponika

Продолжим начатое.

В прошлой

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

мы спарсили список прокси, и получили очищенный от мусора вывод в виде словаря. Чтобы совсем всё получилось идеально (убрать кавычки и фигурные скобки), нужно словарь перевести в строку.


Для этого напишем цикл, и разместим его сразу под словарём data. Чтобы цикл был рабочим, нужно переменную b сделать глобальной.

Код:
global  b
        d = " "
        for i in data:           
            b = data[i]
            c = i+": "+data[i]
            d = d+c+', '

Можно также убрать пробел в начале записи с помощью lstrip(), и вывод на печать будет такой print(d.lstrip())



Запускаем программу, и получаем чистый список данных в виде строк

9884b1c003dd3d656526d.png

Но конечно лучше же иметь запись результатов в текстовом файле. Поэтому мы поменяем вывод на запись в файл и получим на выходе proxy.txt

Код:
with open('proxy.txt', 'a') as f:
            print(d, file=f)

Текстовый файл это уже замечательно, но мы сделаем наши данные ещё более читаемыми. Для этого откроем proxy.txt с помощью EXEL. Выделим щелчком мышки столбец А, зайдём во вкладку "Данные" --> "Текст по столбцам"

d622ac6b88f52cf6f1762.png

Жмём далее, выставляем разделитель "запятая"

9f28dd6e0e1a3a7f6f9e2.png

Ещё раз далее и ОК. Расставим ширину колонок как нам нравится и получим удобный и красивый результат. Но как говорится не все прокси одинаково хороши. Нам нужно отобрать наилучшие. Поэтому отсортируем наш лист по колонке D и получим в самом низу сервера с низкой анонимностью.

1cc6be301b66a0fcf4241.png

Теперь просто-напросто выделим строки с такими серверами и удалим. А затем снова отсортируем по столбцу F, и увидим следующий результат

02c4a28882552021d7324.png

Теперь можно сохранить XLS, и пользоваться самыми быстрыми прокси (колонка F). В колонке D выбираем при этом варианты с максимальной анонимностью. В данном примере самыми лучшими соответственно будут сервера в строках 1, 3, 6, 7, 8.



Ну вот мы спарсили и отобрали лучшие сервера. Работу с парсингом по этому сайту можно считать законченной. Там есть ещё другие странички с серверами, но мы их не будем парсить, нам же нужны только самые свежие сервера. Списки прокси обновляются каждый день, так что можно запускать программу раз в день, отбирать лучшие варианты в EXCEL и пользоваться.

UPDATE:

Сегодня я решил немного переписать парсер и сделать вывод как в оригинале с шапкой сверху.

d2a95d06c9f1a4337599f.png

Для этого нужно заглянуть в код шапки. Как видно шапка заключена в тег 'thead'

b08831987298234f3c658.png

Также есть теги 'tr' и 'th'

0d1d6dcbd6ffb69f15077.png

Соответственно нужно создать для шапки отдельную переменную head.

Код:
head = soup.find('thead').find_all('tr')

Теперь напишем для шапки отдельный цикл и на этот раз данные мы разместим не в словаре, а в кортеже


Код:
for tr in head:
        th = tr.find_all('th')
        ip1 = th[1].text
        port1 = th[2].text
        country1 = th[3].text.replace('\xa0', '')
        anonym1 = th[4].text.replace('\r\n        ', '')
        types1 = th[5].text.replace('\r\n\t\t\t\t\t', '').replace('\r\n        ', '')
        time1 = th[6].text

        data1 = (ip1, port1, country1, anonym1, types1, time1)

Если сейчас вывести на печать, получим такой результат

fc8ec77cde6c0dbfc920c.png

Наша конструкция сработала, шапка есть. Но присутствуют скобки и кавычки. От них легко избавиться, если печать вывести таким образом

Код:
print(", ".join([str(s) for s in data1]))

Теперь данные получились чистыми

cf86cc2c50cb3c883f38f.png

Наведёт окончательную красоту - результат скопируем в EXCEL, также сначала распределим по столбцам. И чтобы шапочку всегда было видно, нужно её закрепить.

e1ab4a2cb6403ae96adc3.png

Готово! Теперь, если мы прокрутим в самый низ, то всё равно шапка будет оставаться на месте.

b6872cd636a75eb11d469.png



Исходник:

Код:
import requests
from bs4 import BeautifulSoup


def get_html(site):
    r = requests.get(site)
    return r.text


def get_page_data(html):
    soup = BeautifulSoup(html, 'lxml')
    head = soup.find('thead').find_all('tr')
    line = soup.find('table', id='theProxyList').find('tbody').find_all('tr')

    for tr in head:
        th = tr.find_all('th')
        ip1 = th[1].text
        port1 = th[2].text
        country1 = th[3].text.replace('\xa0', '')
        anonym1 = th[4].text.replace('\r\n        ', '')
        types1 = th[5].text.replace('\r\n\t\t\t\t\t', '').replace('\r\n        ', '')
        time1 = th[6].text

        data1 = (ip1, port1, country1, anonym1, types1, time1)
        print(", ".join([str(s) for s in data1]))

        for tr in line:
            td = tr.find_all('td')
            ip = td[1].text
            port = td[2].text
            country = td[3].text.replace('\xa0', '')
            anonym = td[4].text.replace('\r\n        ', '')
            types = td[5].text.replace('\r\n\t\t\t\t\t', '').replace('\r\n        ', '')
            time = td[6].text

            data = (ip, port, country, anonym, types, time)
            print(", ".join([str(s) for s in data]))


def main():
    url = 'http://foxtools.ru/Proxy'
    get_page_data(get_html(url))


if __name__ == '__main__':
    main()

Надеюсь, вы что-то узнали для себя нового
 
Название темы
Автор Заголовок Раздел Ответы Дата
G Пишем парсер на Python - грабим Proxy ч.1 Бруты/Парсеры/Чекеры 2
Ёшкин_кот Интересно Пишем любой текст на листочке который держит обнажённая девушка. 18+ Свободное общение и флейм 0
Ёшкин_кот Интересно Пишем вредоносное ПО с помощью ChatGPT. Формат mp4. English-speaking. Полезные статьи 0
A Пишем свой RAT на Python > {Часть 1} Уязвимости и взлом 3
U Интересно PHP - Пишем свой фишинг скрипт для кражи тт аккаунтов {Уровень: EASY} Другие ЯП 10
L Интересно C# - Пишем Watchdog (Модуль защиты вашего трояна) .NET 2
K Интересно [Roman Akhromieiev] Telegram. Пишем ботов на Node JS и Telegraf (2020) Другое 1
sxkury Пишем малютку для скана сайта Софт от наших юзеров 6
АнАлЬнАя ЧуПаКаБрА Интересно Пишем брут на любой(почти) банк [OFX] Другие ЯП 1
S Пишем свой перехватчик СМС Android Другие ЯП 3
T Пишем WinLocker на Delphi С/C++ 0
N Пишем отзывы и получаем от 200 рублей в день. Способы заработка 12
G Пишем скрипт для работы с VirusTotal-ом Полезные статьи 0
G Пишем шифровальщик на python Полезные статьи 0
Traven Пишем спамер Telegram, на Python Другое 0
Traven Пишем свой стиллер на Python Другие ЯП 4
Traven WinLocker на python. Пишем вирус. Другое 0
V Пишем переносной кейлоггер на C++ Полезные статьи 1
O Пишем стиллер на Batch Вирусология 15
A Delphi для начинающих – Урок 6 – Пишем свой калькулятор С/C++ 0
E [PHP] Пишем свой движок 2.0 Другие ЯП 0
Glods Пишем многопоточный Brute С/C++ 0
R Пишем билдер C# вариант 1 .NET 2
Mr Crabs Продам Telegram парсер участников чата по сообщениям Куплю/Продам 0
Parser_Pro Бесплатный парсер бот в Телеграм [ Parser Pro ] Бруты/Парсеры/Чекеры 5
C Проверено Datacol 7.341 [x32] [Универсальный парсер] [Cracked by Coder-V] Продажа софта 2
Mr Crabs Закрыто Telegram Граббер, парсер и автопостер в канал Корзина 1
A A-Parser - универсальный многопоточный парсер Продажа софта 1
АнАлЬнАя ЧуПаКаБрА INLINE Переписанный приватный парсер номеров [1 из 13] Проекты Private Keeper 1
E VkSearch — бесплатный парсер пользователей ВК Бруты/Парсеры/Чекеры 1
W SQL Hunter1.2 (парсер для Google и поиск уязвимостей sql) Spam/DDOS/Malware 12
M Создать софт парсер Свободное общение и флейм 1
АнАлЬнАя ЧуПаКаБрА VkSearch — бесплатный парсер пользователей ВК Бруты/Парсеры/Чекеры 3
obscure Интересно YouTube канал на кардер\хаккинг\скам\кодер тематику Видео/Музыка 0
ChangeExpert Ожидает оплаты ChangeExpert - первый полностью автоматизированный криптовалютный обменник на рынке РФ Обменники 1
Support81 Был героем – стал злодеем: почему уставшие ИБ-специалисты встают на путь криминала Новости в сети 0
F Ручное размещение тем на разных форумах и продажа базы. Ищу работу. Предлагаю свои услуги. 0
Support81 Loop DoS: бесконечные циклы на службе киберпреступников Новости в сети 0
M Работа на выгодных условиях без особого труда. Предоставляю работу. Ищу специалиста. 0
Support81 ФБР: технологии могут повлиять на американские выборы в 2024 году Новости в сети 0
Emilio_Gaviriya Статья Поиск уязвимостей на хосте. Уязвимости и взлом 1
Support81 Американские власти наложили санкции на разработчиков спайвари Predator Новости в сети 0
Support81 Фишинг-кит CryptoChameleon ориентирован на пользователей мобильных устройств Новости в сети 0
srv24 Продам SRV24 - выделенные серверы в 193 странах мира от 15$! Скидки при оплате на 1 год! Заходи! Сайты/Хостинг/Сервера 1
Support81 Xeno RAT опубликован на GitHub: продвинутый кибершпионаж теперь доступен каждому Новости в сети 0
Support81 Более 100 тысяч зараженных репозиториев на GitHub маскируются под легитимные проекты Новости в сети 0
Emilio_Gaviriya Статья Как ловить хакеров на живца. Уязвимости и взлом 0
Support81 Картинки PNG - новый способ доставки троянов на компьютеры организаций Новости в сети 0
Support81 Темный рыцарь на продажу: в чьих руках окажется исходный код вымогателя Knight 3.0? Новости в сети 0
Emilio_Gaviriya Статья Безопасность на серверах. Уязвимости и взлом 0

Название темы