• XSS.stack #1 – первый литературный журнал от юзеров форума

SQL livestream.com 24M scrape 2021

zhkchk

RAID-массив
Пользователь
Регистрация
23.04.2021
Сообщения
60
Реакции
103
24 миллиона записей профиля с некоторыми социальными сетями, почтой и часовыми поясами

 
У кого есть возможность, выдерните все строки, где почты есть (строки с собачками) ( Уже почти сутки стоит, обработалось только два гига и вообще двигаться перестало. Там файл .json весом 139 Гб. Почты там не во всех строках. По приблизительным рассчётам, если взять только строки с почтами, файл будет весить около одного гигабайта.
 
Последнее редактирование:
Пожалуйста, обратите внимание, что пользователь заблокирован
У кого есть возможность, выдерните все строки, где почты есть (строки с собачками) ( Уже почти сутки стоит, обработалось только два гига и вообще двигаться перестало. Там файл .json весом 139 Гб. Почты там не во всех строках. По приблизительным рассчётам, если взять только строки с почтами, файл будет весить около одного гигабайта.
EM EDITOR + премка, легко тянет объемы
 
А в чем проблема? Разве нельзя при помощи grep вытащить строки с почтой?
я вытаскивал строки и с более громадных баз. Но конкретно эта ни в какую не хочет. Висит и все. Мой греп ее не может обработать по каким то причинам
 
я вытаскивал строки и с более громадных баз. Но конкретно эта ни в какую не хочет. Висит и все. Мой греп ее не может обработать по каким то причинам
А есть ссылка на файл? Если с целым файлом не получается, можно попробовать через построчный split
 
А есть ссылка на файл? Если с целым файлом не получается, можно попробовать через построчный split
ссылки нет. а файл я удалил. так как обработать не смог, а в таком виде он мне не нужен был. слишком много весит и слишком много в нем бесполезного мусора (
 
Последнее редактирование:
ссылки нет. а файл я удалил. так как обработать не смог, а в таком виде он мне не нужен был. слишком много весит и слишком много в нем бесполезного мусора (
Ясно)
 
я вытаскивал строки и с более громадных баз. Но конкретно эта ни в какую не хочет. Висит и все. Мой греп ее не может обработать по каким то причинам
Привет. Я то этот файл пытался в csv перевести, но, есть там несколько заморочек,
над которыми надо посидеть и разобраться более обстоятельно и трезво))
Думал твой вопрос неактуален, сейчас ради интереса прошелся по файлу командой awk '/@/{ print>"01.txt" }' 01.json; там за две минуты файлик в районе 11 гб получается. Напиши свой греп с точным синтаксисом, попробую проверить.
Навскидку в гугле поискал, нашел чтото типа grep -E "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b" , посмотрю, что выдаст
 
Последнее редактирование:
Привет. Я то этот файл пытался в csv перевести, но, есть там несколько заморочек,
над которыми надо посидеть и разобраться более обстоятельно и трезво))
Думал твой вопрос неактуален, сейчас ради интереса прошелся по файлу командой awk '/@/{ print>"01.txt" }' 01.json; там за две минуты файлик в районе 11 гб получается. Напиши свой греп с точным синтаксисом, попробую проверить.
Навскидку в гугле поискал, нашел чтото типа grep -E "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b" , посмотрю, что выдаст
если можно перезалейте этот файлик, думаю что-то смогу с ним сделать
 
ссылки нет. а файл я удалил. так как обработать не смог, а в таком виде он мне не нужен был. слишком много весит и слишком много в нем бесполезного мусора (
Найдено 259826 строк по grep -E "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b"
в архиве 95 мб (при распаковке 4 гб)

если можно перезалейте этот файлик, думаю что-то смогу с ним сделать
Если вы про исходный файл, то постараюсь залить послезавтра, тут интернет еле еле ползает.
Синтаксис виден в файле чуть выше, not valid json
(наверняка легко решается через регулярки, нашел в инете регулярку для замены одинарных кавычек на двойные, чтобы при этом не менялись апострофы в словах типа don't , rock 'n roll , но все равно эти апострофы заменялись, ломая значения у ключа description ), там еще скриптам не нравилось значения True False None, требуя true false null
 
Исходный файл, в оригинальном варианте - одним файлом и расспличенный на 42 кусочка по 600 тыс строк.
Ссылка на 2 недели, вроде пароль не ставил, но если есть то местный.
Размер в архиве, чуть больше 6 гб

 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх