• XSS.stack #1 – первый литературный журнал от юзеров форума

3.1 миллиарда почт и паролей пользователей

Да, тоже хочу запихнуть все в субд, только скорее всего в postgresql, так как вроде индекс особо не нужен тут(мне), а мускул быстрее psql только когда индекс имеет.
Хотя сейчас psql оптимизируют постоянно, мб сейчас уже и индекс мускул не спасет.
Сколько у тебя вся сборка весит?
И индекс тебе зачем, если не секрет?
Вместе с индексом весит всё ~200Гб. Т.е. в два раза больше, чем исходник.
С индексами скорость выборки 1-2 сек.
У меня всё объединено в поиск, в т.ч. и этот сборник тоже.
 
Коллеги, доброго дня. Проблему с хранением и поиском ( я говорю про Linux ) решил с помощью архиватора zstd.
95 гб ужимается в 32 гб. Все дампы зажал в 420 гб. Для поиска написал скрипт - отлично грепит по архивам.


echo "Что ищем?"
read strfile
zstdgrep -r "$strfile" *


Архивирую командой c последующим удалением исходника zstd FILE.txt -10 --rm
Архиватор под винду https://github.com/facebook/zstd/releases
 
Коллеги, доброго дня. Проблему с хранением и поиском ( я говорю про Linux ) решил с помощью архиватора zstd.
95 гб ужимается в 32 гб. Все дампы зажал в 420 гб. Для поиска написал скрипт - отлично грепит по архивам.

echo "Что ищем?"
read strfile
zstdgrep -r "$strfile" *

Архивирую командой c последующим удалением исходника zstd FILE.txt -10 --rm
Архиватор под винду https://github.com/facebook/zstd/releases

Получается, что все архивы должны быть в папке со скриптом?
Какой линух лучше использовать? Mint пойдет?
 
Согласен. Еще б колоночку с источником откуда мыл взят.. цены б не было.
Фактически, когда собрана большая коллекция из баз, то получается устанавливать с высокой долей вероятности откуда взята запись.
Плюс агрегаторы типа haveibeenpwned помогают тоже, у кого коллекции не большие.
Неудобно, но за неимением другого потянет)
 
Выложу сюда, чтоб не пладить темы с почтами, похдодит на мой вгляд
Только EMail GeniusMarketing (Подписчики)
В файле xlsx - 60к.
Год 08.2019
 
Выложу сюда, чтоб не пладить темы с почтами, похдодит на мой вгляд
Только EMail GeniusMarketing (Подписчики)
В файле xlsx - 60к.
Год 08.2019

Увы, файл не доступен. Есть возможность перезалить?

ЗЫ - Топикстартерам огромный респект за обработанную базюку, повисю на раздаче недельку-вторую, скоро железо на ТО отправится... (( буду безмашинной))

ЗЫ2 - спасибо за отдельный файл с пассами, очень полезно, давно сама собирала, но забросила, а тут такой роскошный подарочек на тучу записей :)
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх