• XSS.stack #1 – первый литературный журнал от юзеров форума

TXT Nomerorg парс (6 М)

Star_etc

(L3) cache
Пользователь
Регистрация
10.02.2021
Сообщения
199
Реакции
254
Собственный парсинг сайта Nomer.org
Убрал РФ
Почистил от дублей
Из 27 М в исходном файле осталось 6 М строк

Актуальность: декабрь 2020
Количество строк: 6 195 248

 
Последнее редактирование:
Собственный парсинг сайта Nomer.org
Вытащил РФ
Почистил от дублей
Из 27 М в исходном файле осталось 6 М строк

Актуальность: декабрь 2020
Количество строк: 6 195 248

Скрытое содержимое
ТС вы забыли указать пароль
 
Просто парсинг рф с этого сайта не может весить так мало.
Скачал глянул это РФ.
Киев,Минск, Кировоград, Одесса, Астана, Рига, Полтава, Запорожье, Черновцы
Есть все, кроме российских городов.
 
Собственный парсинг сайта Nomer.org
Вытащил РФ
Почистил от дублей
Из 27 М в исходном файле осталось 6 М строк

Актуальность: декабрь 2020
Количество строк: 6 195 248

Скрытое содержимое
строчка "Вытащил РФ" означает, что из получившегося в результате парсинга файла, я в ручную удалил все российские населенные пункты.
Просто парсинг рф с этого сайта не может весить так мало.
Скачал глянул это РФ.
Киев,Минск, Кировоград, Одесса, Астана, Рига, Полтава, Запорожье, Черновцы
Есть все, кроме российских городов.
 
:D :D :D По вашему " Вытащил " все подумали абсолютно обратное, что там только РФ и осталось. По Украине там данные из старой ДРФО 2004 года, в крайности так было, когда я пробовал там искать людей, лет 5 тому назад. Но всё равно почему то строк очень мало, видимо при парсинге что то пошло не так, и спарсилась только малая часть строк. Одной Украины должно быть 52 миллиона.
 
:D :D :D По вашему " Вытащил " все подумали абсолютно обратное, что там только РФ и осталось. По Украине там данные из старой ДРФО 2004 года, в крайности так было, когда я пробовал там искать людей, лет 5 тому назад. Но всё равно почему то строк очень мало, видимо при парсинге что то пошло не так, и спарсилась только малая часть строк. Одной Украины должно быть 52 миллиона.
парсинг был и правда не простой. предпринимал несколько попыток втечение месяца. думаю, вы прекрасно знаете особенности этого сайта, которые начинаются с ограничения доступа к нему и фиксирвоанного количества посылаемых запросов.
однако на выходе я получил файл, содержащий 27 млн строк. почистил дубли - 22 млн. почистил россию - 6 млн.
в любом случае я результатом доволен, файл включает в себя как миллионники так и поселки городского типа. кому-нибудь точно пригодится, так как номер орг не вечен, как и все в этом мире.
 
парсинг был и правда не простой. предпринимал несколько попыток втечение месяца. думаю, вы прекрасно знаете особенности этого сайта, которые начинаются с ограничения доступа к нему и фиксирвоанного количества посылаемых запросов.
однако на выходе я получил файл, содержащий 27 млн строк. почистил дубли - 22 млн. почистил россию - 6 млн.
в любом случае я результатом доволен, файл включает в себя как миллионники так и поселки городского типа. кому-нибудь точно пригодится, так как номер орг не вечен, как и все в этом мире.
На сколько я понимаю, Вы парсили города с главной страницы и не парсили это http://nomer-org.website/allukraina/ ( а это и есть вырезка с старой ДРФО на 52 ляма строк, там полные ФИО, дата рождения, адрес и номер стационарного телефона, если он конечно есть по адресу ).
Посмотрел Ваш парсинг и мне он что то напомнил, а именно всем известный телефонный справочник MegaContacts. Они есть разной актуальности и с разным набором стран, на сколько помню 2008 год точно существует. Если погугулить, то можно найти с десяток вариантов этого сборника. Только в нём, как и в Вашем парсинге ФИО в формате Фамилия и инициалы Имени и Отчества. На сколько помню, из этого справочника можно выгружать пакетно в текстовый файл городами или даже странами, так что парсинг Вы делали скорее всего зря.
Если кому то будет интересно, вот залил один из вариантов что был на компе https://bayfiles.com/pbi5q5z0ua/Bases_09_exe
Справочник в собственной оболочке, достаточно удобной.
 
На сколько я понимаю, Вы парсили города с главной страницы и не парсили это http://nomer-org.website/allukraina/ ( а это и есть вырезка с старой ДРФО на 52 ляма строк, там полные ФИО, дата рождения, адрес и номер стационарного телефона, если он конечно есть по адресу ).
Посмотрел Ваш парсинг и мне он что то напомнил, а именно всем известный телефонный справочник MegaContacts. Они есть разной актуальности и с разным набором стран, на сколько помню 2008 год точно существует. Если погугулить, то можно найти с десяток вариантов этого сборника. Только в нём, как и в Вашем парсинге ФИО в формате Фамилия и инициалы Имени и Отчества. На сколько помню, из этого справочника можно выгружать пакетно в текстовый файл городами или даже странами, так что парсинг Вы делали скорее всего зря.
Если кому то будет интересно, вот залил один из вариантов что был на компе https://bayfiles.com/pbi5q5z0ua/Bases_09_exe
Справочник в собственной оболочке, достаточно удобной.
спасибо. буду иметь ввиду)
для меня это был опыт, а любой опыт важен
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх