• XSS.stack #1 – первый литературный журнал от юзеров форума

Отпарсить строки и удалить дубли

ProstoPisatel

RAM
Пользователь
Регистрация
30.01.2020
Сообщения
104
Реакции
6
Есть >200 текстовиков по 100мб.
В них содержатся строки с инфой.
Есть необходимость со всех текстовиков:
1. Отпарсить строки, содержащие определенный текст.
Например строка - prostopisatel898989:asdasd:asdasda:123:asdsadsa
И все строки которые содержат "prostopis" мне надо в отдельный текстовый файл. Со всех 200 текстовиков.
А затем с этого текстовика удалить дубли, допустим строки:
prostopisatel898989:asdasd:asdasda:123:asdsadsa
123prostopisatel898989:asdasd:asdasda:123:asdsadsa
Не являются дублями, а вот:
prostopisatel898989:asdasd:asdasda:123:asdsadsa - это уже дубль.

Подскажите софт, или скрипт какой? Чтобы работать с большими текстовыми данными.
Спасибо!
 
в линуксе
grep "prostopis" твой_файл.txt | sort -u >твой_новый_файл.txt
А он строку выдернет, или только ключевик prostopis?
Плюс у меня не 1 файл, а целая куча, и со всех надо выдернуть, массово.
 
А он строку выдернет, или только ключевик prostopis?
Строку

Плюс у меня не 1 файл, а целая куча, и со всех надо выдернуть, массово.
Замени "твой_файл.txt" на "*.txt"
 
Удалить дубликаты
Сверка баз
Нормализатор баз
Получить логины
Получить пароли
Отсортировать по доменам
Удалить домены
Склеить с паролями
Склеить базы
Разбить по количеству
Рандомизировать
Скопировать содержимое в буфер обмена

Инструкция по установке программы:
Скидываете файл в папку, запускаете. Все функции появятся в контекстном меню.
Не перемещайте и не удаляйте этот файл. Если всё таки вам надо его переместить/удалить, то запускаете его еще раз/удаляете
57e9dd444e4ef032024a1b073a2c976d.png



скачать https://mega.nz/#!jlUX2QIT!HdgCAKTP3FVVpFaFlCfX6QBvs5eU2TfEZ2vzPQI_Lg4
 
Grep'ом выдернул строки, а как дубли почистить в том же линуксе?
Код:
sort -u
как раз тебе уберет повторы и сортирнёт
 
Grep'ом выдернул строки, а как дубли почистить в том же линуксе?
sort garbage.txt | uniq -u > sort.txt
где garbage.txt исходный файл, если кодировка 1251, то предварительно:
iconv -f cp1251 -t utf8 *.txt | less -o garbage.txt
а чтоб выдернуть сразу несколко параметров в файл 222.txt пропиши с каждой новой строки слово, строка которая нужна:
grep -f 222.txt *.txt >output12_01.txt
 
Спасибо всем, вроде разобрался немного, все равно руками допиливаю, но это уже издержки кривости самих текстовиков.
Но в целом в разы работу ускорило, нежели пилить файлы по 10мб, и через Notepad++ выдирать.
 
Всё ж просто.
grep -ir "prostopis" * > 1.txt
В 2 строки т.к. не знаю мощности компа, можешь и в 1.
grep -ir "prostopis" * | sort -u > 1.txt

ключ "-i" будет игнорировать регистр, а ключ "-r" будет сканить так же все подпапки.
формат не обязательно указывать, т.к. я не знаю *.txt или другие форматы у тебя.
 
Объективно, тс коль с линуксом на вы (в противном случае вы бы не создавали сабж), рекомендую:
под винду качай с офф сайта emeditor - мощный редактор с поддержкой bigfile и ништяками. Там же и работа с файлами.
вот ключи:
  • [CLIKE]DMAZM-WHY52-AX222-ZQJXN-79JXH (Lifetime License)
  • DEAZV-27TFM-BL52D-PVN9L-ADULD (2021)
  • DEAZW-38TGM-HH52D-XG5WR-FX4QW (2021)
  • DMAZW-48TGM-LQ52C-G82V6-2JJUC (2021)
  • DMAZW-4ATGM-QL52D-M6XEM-TCFCS (2021)
  • DMAZG-ZWTQ7-NP222-H2FSK-KPX3X
  • DMBZG-ZWTU2-UL222-LGSKU-DAPRU
  • DQHZ2-ZWTCU-S5222-6GT6T-QZ4HZ
  • DKAZQ-R9TYP-5SM2A-9Z8KD-3E2RK
  • DSEZY-TWZQE-9F222-TFMNT-H7ECU[/CLIKE]
 
Всё ж просто.
grep -ir "prostopis" * > 1.txt
В 2 строки т.к. не знаю мощности компа, можешь и в 1.
grep -ir "prostopis" * | sort -u > 1.txt
Ну так бы я не делал, потому что * будет парсит и в своём же output в 1.txt получится вечный цикл...
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх