• XSS.stack #1 – первый литературный журнал от юзеров форума

прочее Ищу софт для удаления дублей строк с файла 100ГБ+

Пожалуйста, обратите внимание, что пользователь заблокирован
Зачем на unix подобных системах использовать питон если есть уже ранее упомянутый sort?
sort не вытянет 100гб
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Если для unix:

Самый простой и непринужденный вариант:
uniq input_file > output_file

Примерно такой же по простоте, что и выше:
sort -u input.txt -o output.txt

Ну и наконец с лимитом по потреблению памяти, если совсем уж выполняя ваши условия:
sort -T /sort_dir -S 4G -u input_file -o output_file

В последнем случае, параметр -S ограничивает потребление памяти данным процессом. Если проиводится выход за лимит, то временные данные сортировки складируются в директорию /sort_dir
 
Как профи профи. EmEditor используй. Лучшее решение в мире, поддержка, откат и настройка.
В чем разница 100 Гб или тысяча. Зависит от трефакторки. Каретки, начало, перенос строки, чтения файла-сорца блоками, индексирование.
100 или10 гб. Пойми логику регулярок. Часто пацаны тупят по синаксису. Взяли анализ с начало строки и пиши пропало ))
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх