Прокси парсер (программа для получения больших списков прокси)
Искал нормальный парсер прокси-листов по ссылкам на страницы с прокси-листами. К сожалению не нашел, пришлось писать свой.
Ногами не пинайте, проги пишу редко и то - либо для себя, либо на заказ.
В итоге получилось что-то типо - скачивает страницу по ссылке и вытаскивает с нее все прокси, добавляет их в общий список, далее идет по следующей ссылке парсит и т.д.
Потом удаляет дубликаты. В итоге у Вас получается нехилый прокси лист, который остается только прочекать на валидность чекерами проксиков.
О свежести ссылок на странички с проксями (AllLinx.txt) ничего не говорю, скажу просто выдирал со всех программ в подряд которые искали прокси серверы, так и набил свой большой список.
Кому его мало - прикладываю еще фалик - temp.txt - в нем их намного больше, просто мне не хватило сил и времени его до конца обработать. А вообще хватает и того файла, который прога грузит по умолчанию. Можете его корректировать как хотите - изменять\удалять\добавлять свежие ссылки на страницы с прокси-листами.
Там сейчас 535 ссылок на странички с проксиками, в итоге получаем 586230 проксиков, после удаления дубликатов и их сотритировки получаем список прокси 148714 штук, которые нужно прочекать. В итоге получаем NN-ое количесво прокси, у меня получалось немало, даже до конца обычно их никогда не чекал, хватало меньше половины этого списка. Чем чекать ? - выбирайте сами...
В нете для этого прог полно. Или можете подождать - на днях свой чекер выложу, он не только работоспособность проверяет, но и работу для конкретного сайта.
Т.к. есть прокси, которые, например, работают с маил.ру, но не работают с гуглом, поэтому тоже пришлось писать свой софт. Он уже есть, но выкладывать не буду т.к. ща его дизайн оставляет желать лучшего, а сегодня в среду разработки больше лезть не хочу. Если будут желающие - выложу на днях.
Всех кто захочет написать что после парсинга, удаления дубликатов и сортировки списка все прокси - INVALID - просьба идти лесом или ждите мой чекер (он внутрисетевые IP сам отслеживает и удаляет), так как некоторые сайты хранят богом забытые прокси видас 000.xxx.dfs.sdf:ydti
Так что при чеке подождите пока дойдет до нормального диаппазона адресов или ковыряйте список (его начало ручками). Если совсем не нравится - забейте в ТХТ - файл только свои ссылки.
Прога может немножко подтормаживать (смотря, у кого сколько камней в компе, - у меня на двух камнях и двух гб оперативы самая большая пага парсится не более 53 секунд, но оболочка не виснет, только интерфейс молчит - типопрога стоит, так что имейте терпение) т.к. при обработке (парсинге) страниц требует много памяти (оно и понятно), так что не обращайте на это внимания, либо все самые толстые ссылки (на наличие проксиков) просто удалите, так как там есть линки на страницы и ~50.000 проксиков.
Забыл упомянуть - есть фишка в проге - удалять мертвые линки и сохранять свежий список/
Прокси парсер (программа для получения больших списков прокси
Страница: 1
Сообщений 1 страница 1 из 1
Поделиться12013-06-04 20:09:58
Страница: 1