Возникла необходимость извлечь из файла только почтовые адреса, подскажите какими инструментами можно это сделать? Буду благодарен так же за совет по очистке дублей 
спасибо а можно более подробнее? я пробовал этим инструментом через терминал, но результата не дало просто переключилось в следующую строку без каких либо результатов (grep
для очистки дубликатов я юзаю в Notepad++ плагин TextFXВозникла необходимость извлечь из файла только почтовые адреса, подскажите какими инструментами можно это сделать? Буду благодарен так же за совет по очистке дублей![]()
спасибо. к сожалению размер файла большой и нотепад не в силах его обработать. в EmEditor можно такое же сделать?для очистки дубликатов я юзаю в Notepad++ плагин TextFX
Посмотреть вложение 20906
в emeditor не знаю, наверное должно быть, а так в терминале можешь с помощью sortспасибо. к сожалению размер файла большой и нотепад не в силах его обработать. в EmEditor можно такое же сделать?
sort file | uniq -u > newfile
спасибо а можно более подробнее? я пробовал этим инструментом через терминал, но результата не дало просто переключилось в следующую строку без каких либо результатов (
\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b
Только что придумал регулярку попроще, на больших массивах быстрее раз в 10 будет: [^@ ]*@[^@ ]*[.][^ ]*Используйте в EmEditor регулярное выражение
Код:\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b
Не будет корректно работать. Точнее не везде будет работать корректно[^@ ]*@[^@ ]*[.][^ ]*
Сойдет, но наборы разные и будут ошибки. На счет в 10 раз быстрее, я ХЗ, если железо в ногу со временем и не самое бюджетное, то я бы не сказал что там так уж медленно. Указанная мною регулярка классика проверки на валид email вообще, она более корректно работает...Обычно такое требуется, когда из дампов мейлы дергают, поэтому и так сойдет![]()
Подскажи, пож, как бить на строки правильно, делаю замену \),\( на \n, с небольшими массивами справляется, где счет на миллионы идет виснет наглухо, файл 500 мб может в оперативе при таких итерациях под 4 ГБ раздуться, очень долго идет обработка...Сойдет, но наборы разные и будут ошибки. На счет в 10 раз быстрее, я ХЗ, если железо в ногу со временем и не самое бюджетное, то я бы не сказал что там так уж медленно. Указанная мною регулярка классика проверки на валид email вообще, она более корректно работает...
Ну а так, не суть конечно что использовать
Ты знаешь, EmEditor крайне медленно себя ведет, вне зависимости от дополнительных настроек в этом плане. Даже Notepad++ с заменами \r\n ведет себя в разы быстрее. При чем от объема оперативной памяти это слабо зависит, от камня, чипсета тоже. Я как на топовом железе это делаю, так и на ноутбуке дешевом, особого прироста там нету.Подскажи, пож, как бить на строки правильно, делаю замену \),\( на \n, с небольшими массивами справляется, где счет на миллионы идет виснет наглухо, файл 500 мб может в оперативе при таких итерациях под 4 ГБ раздуться, очень долго идет обработка...