• XSS.stack #1 – первый литературный журнал от юзеров форума

Работа с текстом и вопросы по regex'ам

JohnRipper

CPU register
Пользователь
Регистрация
05.10.2018
Сообщения
1 049
Реакции
3 365
Предлагаю в теме задавать вопросы по обработке баз/текста, парсингу, нормализации данных, выборках и др. аспектах работы с базами, какое ПО пользуете. (Сортировщики, склейщики, парсеры, СУБД...)

Также, задаём вопросы по регуляркам. Они меня не раз спасали и с помощью них можно творить чудеса)) Я по мере возможности буду помогать (опыт работы с регексами есть:) ) и прошу других активно включаться в жизнь раздела)
Если вопрос касается обработки текста, то желательно выкладывать пример и то, что требуется получить))
 
Пожалуйста, обратите внимание, что пользователь заблокирован
JohnRipper
какую программу ты используешь для работы с гигабайтами баз данных? Где это вообще все хранится, в каком формате? Реляционные базы (типа mysql), или есть какие-то специальные проги? Или текстовые файлы?

Регулярки это сильная вещь, да.
 
Я жёсткий олдскул)
Пэтому использую отечественное решение - СУБД "КроносПРО". Она не очень распространена в IT-кругах. Но активно используется представителями всяких контор, занимающихся детективной деятельностью, службами безопасности банков, предприятий и т.п. Связано это с её простотой в использовании и низким порогом взождения. Не обязательно быть айтишником, чтобы начать её пользовать. Отсутствует необходимость в сервере. Вы её можете использовать на обычной тачке. Ну и в целом получаем неплохую скорость поиска. К плюсам можно отнести также возможность интегрирования в поиск самых разнородных данных.

Огромным минусом является проприетарность данной СУБД. "Поженить" данную СУБД с чем-то представляет огромную сложность.

Для любителей прикоснуться к древности))))))
Ссылка:
CronosPRO v5.0.11003
https://yadi.sk/d/-a2mgBkkhZDP7

Для работы с текстом, в т.ч. с большими объёмами использую тектовый редактор EmEditor. Он практически полностью покрывает мои потребности. В дополнении с regex'ами позволяет производить множество операций с текстом. Переставлять столбцы, нормализовать данные, удалять дубли строк или в конкретных столбцах.

Что касается организации хранения, то тут всё просто. RAID на 10 ТБ как основное место хранения. И бэкап - 6-и террабайтный внешний хард. В настоящий момент мне хватает. С учётом того, что данных в моей безе около 2ТБ.
Всё, что находится не в базе, а лежит на харде, тоже стараюсь использовать в каком-то смысле. Организован индекс в Архивариус 3000. Не самый эффективный способ, но мне сгодится. Всё лучше, чем когда данные ждут своей очереди и лежат на харде мёртвым грузом. Так хоть какой-никакой поиск можно осуществлять.
 
Связано это с её простотой в использовании и низким порогом взождения.
Можно пару уроков по сей проге, а конкретно:
Как добавить или конвертировать cvs файлы в базу?
id, nick, name, sex
1, Admin, Ivan, male
2, Bart, Sasha, male
3, Cat, Olya, female

Как добавить или конвертировать sql файлы в базу?
CREATE TABLE `users` (
`id` int() unsigned NOT NULL,
`nick` varchar() NOT NULL,
`name` varchar() NOT NULL,
`sex` varchar() unsigned NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

INSERT INTO `users` VALUES (1, 'Admin', 'Ivan', 'male'), (2, 'Bart', 'Sasha', 'male'), (3, 'Cat', 'Olya', 'female');

P.s. По теме, все софты свои + шикарные плагины в PasswordsPro.
Раньше чистил огромные файлы от дублей sort входящий в пакет gnu coreutils, но щас перешел на App.merge.
 
JohnRipper
какую программу ты используешь для работы с гигабайтами баз данных? Где это вообще все хранится, в каком формате? Реляционные базы (типа mysql), или есть какие-то специальные проги? Или текстовые файлы?

Регулярки это сильная вещь, да.
Если txt или csv, то лучше Terminal или командной строки сложно что-то придумать. В ней можно практически все сделать, используя sed, cut, sort, cat, tr, awk + for loops. И те же регулярки, естественно.
 
Если txt или csv, то лучше Terminal или командной строки сложно что-то придумать. В ней можно практически все сделать, используя sed, cut, sort, cat, tr, awk + for loops. И те же регулярки, естественно.
Проще тогда уже EmEditor...
 
Для работы с текстом, в т.ч. с большими объёмами использую тектовый редактор EmEditor.
Под винду для действительно больших файлов гораздо удобнее textpipe, если речь идет о сложных обработках с множеством проходов. Правда 64-битной рабочей бесплатной версии не встречал, а для некоторых задач вроде уникализации многогигабайтных файлов 32-битная ударится об потолок по памяти на процесс. Ценник за лицензию у них неадекватный.
 
1 TextPipe программа с очень большими возможностями. Ее основное предназначение – обработка текстовой информации, преобразование текста и извлечение информации из текста.
2 Мощная СУБД «CronosPRO», сочетающая высокую скорость работы, экономичность размещения данных на диске, простой пользовательский интерфейс. Предназначена для организации информации в виде банков данных и их дальнейшей обработки.

Применяю к использованию в порядковом номере, храню кое какие базы в кронос, возможность инструментальная прикладывается с видео файлах и документация в Word
 
1 TextPipe программа с очень большими возможностями. Ее основное предназначение – обработка текстовой информации, преобразование текста и извлечение информации из текста.
2 Мощная СУБД «CronosPRO», сочетающая высокую скорость работы, экономичность размещения данных на диске, простой пользовательский интерфейс. Предназначена для организации информации в виде банков данных и их дальнейшей обработки.

Применяю к использованию в порядковом номере, храню кое какие базы в кронос, возможность инструментальная прикладывается с видео файлах и документация в Word

Не, ну если какие-то объемные данные используются регулярно\часто, то субд напрашивается сама собой. А для разовой обработки или когда обработка однотипная, но входящие данные разные, то текстпайп рулит, тем более что фильтры можно сохранять.

Этот видел. Не рабочий для больших файлов кряк, спамит баннером каждые 100к строк и бьет файл вывода.
 
знаю многие ищут софт который открывает и редактирует тяжелые файлы txt да и не только, сейчас перешел на более продвинутый TextPipe Pro и EmEditor 18.9.12 лицензия лежит без дела, решил поделиться в этой теме
прога
вирустотал
устанавливаем, водим имя и кеу в соответствующие поля в софте, после чего обновляемся до крайнего update
 
знаю многие ищут софт который открывает и редактирует тяжелые файлы txt да и не только, сейчас перешел на более продвинутый TextPipe Pro и EmEditor 18.9.12 лицензия лежит без дела, решил поделиться в этой теме
прога
вирустотал
устанавливаем, водим имя и кеу в соответствующие поля в софте, после чего обновляемся до крайнего update
Скрытое содержимое
Спасибо! Вот это был нереально босяцкий подгон! ;):smile12:
 
На rsload качаю еще с 5х версий...
Для бинарников лучше юзать 010 Editor в нем скрипты на C удобно можно писать. Вобщем кому как удобнее...
 
Не стал открывать отдельную тему, спрошу здесь.
Также как и у вас насобирался самосвал и маленькая тележка баз данных различных форматов - Cronos, SQL, TXT....etc
Текстовый поиск имхо не рулит. Конвертить в Кронос геморно, особенно sql.
Нашел программу - Архивариус3000. Она видит все форматы, даже Кронос, но индексирует долговато.
В планах есть засунуть все это в какую-нибудь бигдату - монгодб или друида.
Подскажите, что из движков целесообразнее использовать для этих целей? Какая ОС лучше справится? ЦентОС потянет? Для фронтенда Апаче сгодится, или есть более производительные вещи?

Скачать Архивариус3000 с официального сайта можно ТУТ

Ключик для последней версии Архивариус3000 4.79

[CLIKE]*** A3J6Tg/0zihV6y/IPp2irDM379xmBmn19S8wxzL7ZZVJY
fkGCB0lChEp1bf78JPB2iaWxzy4KKnhcbZrdEn9CO+e/h
aK1MKrEO3YN87Z9CViaYVXZciJDnp5AI1XuPEJH/Z/ymB
0b/LVWppAWliGpY62SagTijhuAOuBN320hTrkNuT+bBI= ***[/CLIKE]
 
Также как и у вас насобирался самосвал и маленькая тележка баз данных различных форматов - Cronos, SQL, TXT....etc

В планах есть засунуть все это в какую-нибудь бигдату - монгодб или друида.
Какие стоят задачи? По каким критериям будет поиск?
Какие в настоящее время имеются объёмы (количество строк примерно, размер данных на диске)? Какие объёмы поддерживать в планах?
 
Меня больше интересует как кучи разных данных впилить в одну базу.
Я имею ввиду 10шт IP, 3 емайлов к примеру и пару скайпов и т.д. А потом все это еще и редактировать и добавлять...

Есть идеи? делитесь(
 
Меня больше интересует как кучи разных данных впилить в одну базу.
Я имею ввиду 10шт IP, 3 емайлов к примеру и пару скайпов и т.д. А потом все это еще и редактировать и добавлять...

Есть идеи? делитесь(
Я так понимаю речь идёт о том, как поженить в едином замысле БД к примеру с полями
ФИО, ДР, Телефон
+
Email, ФИО
+
Email:HashPass, IP
и любого другого разнородного формата?
 
Какие стоят задачи? По каким критериям будет поиск?
Какие в настоящее время имеются объёмы (количество строк примерно, размер данных на диске)? Какие объёмы поддерживать в планах?
Поиск по всем полям. Нужно определиться с хранилкой и искалкой ;)
Имеется более 10тб разноплановых данных.
 
Меня больше интересует как кучи разных данных впилить в одну базу.
Я имею ввиду 10шт IP, 3 емайлов к примеру и пару скайпов и т.д. А потом все это еще и редактировать и добавлять...

Есть идеи? делитесь(
Идеи есть. Но в плоскую структуру бд грамотно не впихнуть, а в многоуровневую - сразу увеличивается трудоемкость работы в десяток раз.
 
Поиск по всем полям. Нужно определиться с хранилкой и искалкой ;)
Имеется более 10тб разноплановых данных.
Ну я топлю за Кронос, просто потому, что я на нём изначально всё храню. У меня большие массивы данных накоплены именно в нём, он полностью подходит под мои задачи и съезжать с Кроноса мне просто не целесообразно. Хотя Кронос олдскул, старьё и т.д., но с возложенными на него задачами справляется. Плюс, огромный плюс, что для Кроноса не важна структура данных. У меня такой разнобой дикий с данными - тем не менее поиск работает, работает удовлетворительно, я бы даже сказал хорошо.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх