• XSS.stack #1 – первый литературный журнал от юзеров форума

XLSX Запросы на бесплатный парсинг

Putkin

floppy-диск
Пользователь
Регистрация
17.12.2021
Сообщения
3
Реакции
8
В сети всегда есть что собрать, но не у всех есть такая возможность.

Поэтому предлагаю размещать в этой теме запросы на парсинг любых открытых ресурсов, для последующей нормализации и конвертации в кронос. БЕСПЛАТНО!

Если вам нужно что-то спарсить
1. Ссылка на ресурс
2. Что и в каком объёме необходимо забрать.

Пример запроса:
На сайте https://jobinspb.ru/ лежат резюме. Нужен полный архив, насколько возможно. Достаточно полей ФИО - email - телефон + ссылка на оригинальное резюме. Выгрузка подойдёт в формате кроноса или экселя.

Если вы можете кому-то помочь
Обязательно отпишитесь в теме, что вы вязли работу в задачу и примерные сроки.
 
в каком формате? и какие поля?

тот же вопрос какие поля?
Естественно все возможные... Требуется авторизация для отображения данных.
 
Естественно все возможные... Требуется авторизация для отображения данных.
если не горит могу сделать в течении недели(мб раньше, зависит от загрузки)
 
1. https://joblab.ru/search.php?r=res&submit=1
2. Спарсите все резюме по городам, они лежат там в открытом виде
Зачем ты вводишь людей в заблуждение, что там данные открыты? покажи скрин с "открытыми данными".
 
Зачем ты вводишь людей в заблуждение, что там данные открыты? покажи скрин с "открытыми данными".
там кроме контактов вся инфа доступна без регистрации
1652825937900.png
 
там кроме контактов вся инфа доступна без регистрации
Посмотреть вложение 35998
без контактов эта "инфа" и яйца выеденного не стоит. А контакты там не показывает даже работодателям.
 
Последнее редактирование:
без контактов эта "инфа" и яйца выеденного не стоит. А контакты там не показывает даже работодателям.
Контакты там проверяются на соответствие, поэтому не показывается после регистрации сразу. Это практика общемировая.
Да и потом, что значит не стоит яйца выеденного инфа? Странное умозаключение от человека, не первый год собирающего информацию, работающего с информацией. Возможно для вас этот набор и бесполезен, но из этого не следует что он бесполезен без контактов абсолютно для всех. Так же как то, что если кому то базы связок mail-pass без телефонов и/или полных Ф.И.О. не нужны, то они не стоят и яйца выеденного.
Даже без даты рождения, просто имя, город и фото это не бесполезная инфа, т.к. может использоваться в ai, например. Для целей расчета совпадений количественного и качественного с другими источниками анкетных и фотографических данных этого же лица на фото в других фотографиях, или иных целей. Хотя даже без контактов, там показывается и дата рождения и местами указаны полные ФИО, локации кроме города (ст. метро), множество полных резюме, а это места работы, образование и периоды времени и прочее. То есть, даже без всяких там ai-технологий это не лишняя информация совсем. Более того, чем больше информации, тем вероятней лучше и анализ и точнее выдача контактов в этих резюме своими способами. Если это понадобилось бы зачем то. Как бизнес по продаже исторической базы профессионалов неких под хед-хантерские нужды, или еще зачем-то.
К примеру, работа над созданием имеющейся у меня приватной базы специалистов российского банковского и финансового сектора была заказана за 14.000 долларов. Туда включена расходная часть, выплаты сотрудникам уточнявшим информацию и прочее. Смысл не в сумме, а в том, что если бы я и другие мои коллеги считали многое мусором, то не было бы ни такой базы, ни заказа такого. Потому что это куда ценней и востребованней чем паблик утечки резюме, которые любой фрилансер сделает за 100-300 долларов, или как договоришься.
Под всё есть свое применение, или круг интересов в информации. Есть множество тем, которые не известны, но очень ценны, если мы говорим о ценностях материальных. Вы не поверите, какой спрос на данные советских паспортов, записи и не из паблика. Где есть орган выдачи, потому что по голому значению диапазонов серий-номеров не очевидно всегда даже то, что паспорт ли это, или свидетельство о рождении. Не всегда в ряде случаев очевиден и регион выдачи на возраст. Где человек находился, или откуда он. Но это невероятно ценно (еще и потому что мало оцифрованных редких крупных баз таких) и есть сферы, в которых это регулярно нужно и вполне может или кормить тебя регулярно, или давать иную некую выгоду кроме вознаграждений.
Так же, как и к примеру голые серии-номера российских паспортов, диапазон и максимальное кол-во аутентичных данных по датам и органам выдачи, как и наименованию таких органов, чьи коды подразделений не всегда имеют одно и то же наименование в разные годы (не МВД и ФМС, а как внесено в паспорт). Если вы не знаете где это применить и сколько это стоит, то из этого не следует что это мусор.
Для вас мусор оцифрованный архив прессы девяностых годов, нулевых. Хотя странно что на сканирование тонн мукулатуры выделялились бы деньги. Для других объект интереса и поиска. Если же еще и извлечь сущности из этого (отличить топонимы от Фамилий и Имен например и другое) и сделать рубрикатор, то еще дороже. Да и когда у меня спрашивают зачем что-то такое нужно и информация открыта, я часто привожу примеры, что найдите мне статью о мошеннике в питерской мерии путине из невского вестника, или ее копию в библиотеке.
Вы бы очень удивились, если бы узнали сколько что стоит из того, что многие обыватели назвали бы мусором. Потому что вся ваша коллекция и многих других коллекционеров данных финансово не стоила бы и части этого, а то и ничего бы не стоила, т.к. ее бы просто готовую принесли.
Не мыслите как обыватель и не будете обывателем.
 
Последнее редактирование:
Скрытое содержимое
модешь подсказать как ты обрабатывал <b> тэги?
<b>Никнейм</b>: ceyeno2245<br/><b>Статус: </b>Пользователь<br/><a href="auth.php?id=searchmes&amp;show=126158">Количество сообщений</a>: 0<br/><b>На сайте</b>: Online<br/><b>Возраст</b>: 45<br/><b>Пол</b>: Мужской<br/></td>
потому что у меня поля сливались (((
['Никнейм: ceyeno2245Статус: ПользовательКоличество сообщений: 0На сайте: ' 'OnlineВозраст: 45Пол: Мужской']
 
модешь подсказать как ты обрабатывал <b> тэги?
<b>Никнейм</b>: ceyeno2245<br/><b>Статус: </b>Пользователь<br/><a href="auth.php?id=searchmes&amp;show=126158">Количество сообщений</a>: 0<br/><b>На сайте</b>: Online<br/><b>Возраст</b>: 45<br/><b>Пол</b>: Мужской<br/></td>
потому что у меня поля сливались (((
['Никнейм: ceyeno2245Статус: ПользовательКоличество сообщений: 0На сайте: ' 'OnlineВозраст: 45Пол: Мужской']
получаю сырой массив и обрабатываю регулярками.
 
получаю сырой массив и обрабатываю регулярками.
Понятно, я пытался решить это дело чисто методами bs4... но видимо надо было и правда просто regex заюзать.
 
Вопрос не по конкретному ресурсу, а по принципу. Есть ресурс(просто для примера) с динамически подгружаемой информацией при наведении(клике) мышью https://oddslogs.com/match/44574/africa-malawi-women-mozambique-women
primer.jpg
Интересную для себя информацию обычно граблю через ПО Sequentum Enterprise(крякнутый=>поддержки нет), для которого в сети не так уж много мануалов/уроков/примеров.
Вопрос: что из доступных продуктов может через конструктор(с минимальным допиливанием) грабить подобную динамично подгружаемую информацию? Хотелось бы что бы под этот продукт были уроки/мануалы и т.п.
 
Добрый день. Если можно спарсить номера от сюда https://vkusnyesushi.moscow/, нужен номер телефона, остальная инфа не обязательна. Заранее спасибо!
Держи
Код:
Доставка Вкусные Суши в Москве 8 (499) 753-6474, 8 (499) 113-4343
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх