• XSS.stack #1 – первый литературный журнал от юзеров форума

Вопрос о извлечения данных из файла

cheees

CD-диск
Пользователь
Регистрация
23.10.2019
Сообщения
11
Реакции
2
Возникла необходимость извлечь из файла только почтовые адреса, подскажите какими инструментами можно это сделать? Буду благодарен так же за совет по очистке дублей :)
 
grep
спасибо а можно более подробнее? я пробовал этим инструментом через терминал, но результата не дало просто переключилось в следующую строку без каких либо результатов (
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Возникла необходимость извлечь из файла только почтовые адреса, подскажите какими инструментами можно это сделать? Буду благодарен так же за совет по очистке дублей :)
для очистки дубликатов я юзаю в Notepad++ плагин TextFX
1615723535249.png
 
для очистки дубликатов я юзаю в Notepad++ плагин TextFX
Посмотреть вложение 20906
спасибо. к сожалению размер файла большой и нотепад не в силах его обработать. в EmEditor можно такое же сделать?
 
Пожалуйста, обратите внимание, что пользователь заблокирован
спасибо. к сожалению размер файла большой и нотепад не в силах его обработать. в EmEditor можно такое же сделать?
в emeditor не знаю, наверное должно быть, а так в терминале можешь с помощью sort
 
спасибо а можно более подробнее? я пробовал этим инструментом через терминал, но результата не дало просто переключилось в следующую строку без каких либо результатов (
 
Я когда, это всё еще популярно было, вот такой прогой пользовался, eMail Extractor под WinXP на торентах можно найти ещё. Мегабайт по 50-100 я ей файлы скармливал, на более мощном железе возможно и более крупные норм будет.

eMailExtractor_Win.jpg
 
Используйте в EmEditor регулярное выражение
Код:
\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b
Снял семнадцатисекундное видео для тех, кому тяжко понять как это готовить.
Очистка дублей совсем просто:

14.03.2021_155425.png
 
Последнее редактирование:
Используйте в EmEditor регулярное выражение
Код:
\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b
Только что придумал регулярку попроще, на больших массивах быстрее раз в 10 будет: [^@ ]*@[^@ ]*[.][^ ]*
Если инфа разделяется в том числе табулятором, то [^@ \t]*@[^@ ]*[.][^ \t]*
 
Обычно такое требуется, когда из дампов мейлы дергают, поэтому и так сойдет :D
Сойдет, но наборы разные и будут ошибки. На счет в 10 раз быстрее, я ХЗ, если железо в ногу со временем и не самое бюджетное, то я бы не сказал что там так уж медленно. Указанная мною регулярка классика проверки на валид email вообще, она более корректно работает...
Ну а так, не суть конечно что использовать
 
Сойдет, но наборы разные и будут ошибки. На счет в 10 раз быстрее, я ХЗ, если железо в ногу со временем и не самое бюджетное, то я бы не сказал что там так уж медленно. Указанная мною регулярка классика проверки на валид email вообще, она более корректно работает...
Ну а так, не суть конечно что использовать
Подскажи, пож, как бить на строки правильно, делаю замену \),\( на \n, с небольшими массивами справляется, где счет на миллионы идет виснет наглухо, файл 500 мб может в оперативе при таких итерациях под 4 ГБ раздуться, очень долго идет обработка...
 
Подскажи, пож, как бить на строки правильно, делаю замену \),\( на \n, с небольшими массивами справляется, где счет на миллионы идет виснет наглухо, файл 500 мб может в оперативе при таких итерациях под 4 ГБ раздуться, очень долго идет обработка...
Ты знаешь, EmEditor крайне медленно себя ведет, вне зависимости от дополнительных настроек в этом плане. Даже Notepad++ с заменами \r\n ведет себя в разы быстрее. При чем от объема оперативной памяти это слабо зависит, от камня, чипсета тоже. Я как на топовом железе это делаю, так и на ноутбуке дешевом, особого прироста там нету.
Скажу даже больше, в принципе, можно вычислить рациональный объем файла для таких замен по времени, что бы было быстрее. Если мы говорим о десятках гигабайт, то ей Богу, будет быстрее разбить чуть на большее кол-во файлов исходник и в них что-то заменить, чем ждать в одном файле или в несколько меньшем кол-ве файлов разбитых. Разница безусловно есть и в объеме оперативы и в камне, но EmEditor с переносами строк тупит одинаково, цикл там или не цикл, искать вхождения, подсчет или не искать, он медленно это делает...
Что касается именно критического зависания, то сообразно своей мощности ты можешь с настройками поиграть. Плюс конечно же отменять историю замен, возможно будет шустрее. Но все проблемы с тормозами это не решит

14.03.2021_163721.png
 
Последнее редактирование:
Пожалуйста, обратите внимание, что пользователь заблокирован
ТС не забивай себе голову всякими экстракторами\спец.парсерами\etc юзай grep, тебе же всего лишь логи почты ваытащить нужно. ДА и в дальнейшем когда ключики запомнишь оно тебе пригодиться тк этот софт есть на 95% линуксовых тачек.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх