• XSS.stack #1 – первый литературный журнал от юзеров форума

прочее Ищу софт для удаления дублей строк с файла 100ГБ+

Ezios

(L1) cache
Пользователь
Регистрация
14.07.2020
Сообщения
669
Реакции
480
Ищу софт для удаления дублей строк с файлов 100ГБ+ ,но при этом юзало не много озу ,в наличии на виртуалке только 16 гб.
Пробовал rling с гита . Но что-то долго все он делает .
Может знаете другие софтины для удаления дублей с файлов большого объема .
 
Пожалуйста, обратите внимание, что пользователь заблокирован
https://xss.pro/threads/127780/
https://xss.pro/threads/123192/
 
Ищу софт для удаления дублей строк с файлов 100ГБ+ ,но при этом юзало не много озу ,в наличии на виртуалке только 16 гб.
Пробовал rling с гита . Но что-то долго все он делает .
Может знаете другие софтины для удаления дублей с файлов большого объема .
KeyWordKeeper неплохая для такого, утилита от Guron'a берет меньше объемы, но если оператива позволяет.
 
KeyWordKeeper неплохая для такого, утилита от Guron'a берет меньше объемы, но если оператива позволяет.
KWK имеет ограничение на кол-во строк.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Актуально.
у rand есть же актуальное, бесплатное решение. не подходит разве?
 
Дефолтный sort?

Код:
sort [OPTION]... [FILE]...
sort [OPTION]... --files0-from=F

-S, --buffer-size=SIZE
  use SIZE for main memory buffer

--parallel=N
  change the number of sorts run concurrently to N

-u, --unique
  with -c, check for strict ordering; without -c, output only the first of an equal run

-o, --output=FILE
  write result to FILE instead of standard output

Код:
sort -S 8G --parallel=8 -u {file1} {file2} ... -o sorted.txt
 
EmEditor с правильным файлом подкачки спрявляется с 100Gb элементарно
эт правда. Написан на сях, параллелит процессы, на все ядра + примочки приложения, сортировки поиск, сравнение файлов, - визуализация и тд
только платная версия, но кряки есть

однако, у тебя, locative явно не 16 гб оперативки ;)

2тс - если ты хочешь работать с большими файлами нарасти озу, без этого тухло будет работать любой софт. Знаю по своему компу: после апдейта с 16г до 64 все стало намного веселее.
 
Ищу софт для удаления дублей строк с файлов 100ГБ+ ,но при этом юзало не много озу ,в наличии на виртуалке только 16 гб.
Пробовал rling с гита . Но что-то долго все он делает .
Может знаете другие софтины для удаления дублей с файлов большого объема .
Вы определитесь. Вам шашечки или ехать. Если мало памяти выделить то каждую часть файла придётся сверять рекурсивно, условно делить по 8гб и сравнивать каждый файл друг с другом выделяя дубли во временный файл который не должен быть больше 8 гб потом удалить то что есть во временном файле из всех файлов т.е. в память прогнать 8+8 итого ваши 16 и получить результат, или быстро дать 100 гигов оперативки и построить массив с ключ строкой и сохранить, это все +- условно. Тут либо много оперативки и быстро или мало оперативки и медленно. Не бывает такого, что много и бесплатно.
 
однако, у тебя, locative явно не 16 гб оперативки ;)
Есть такое, но даже с 16Gb оперативы и подкачкой гиг на 500 можно спокойно отработать на дубли 100-гиговый текстовик.
 
Есть такое, но даже с 16Gb оперативы и подкачкой гиг на 500 можно спокойно отработать на дубли 100-гиговый текстовик.
Ну в данном случае файл подкачуи оправдан если это SSD желательно серверный, а не raid sas hdd. А так да, решение с файлом подкачки вполне оправданно.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
в таких случаях чем тащить к себе разные кряки, проще скрипт удобный запилилть для обработки построчно или блоками и не грузил всё в память, количество паралельных потоков исходя из ядер проца, может даже лучше на низкуровневом языке чтоб по шустрее был
 
EmEditor с правильным файлом подкачки спрявляется с 100Gb элементарно
на 100% согласен, но если используешь unix-о подобные системы то самописный python скрипт отлично справиться с этой задачей
 
на 100% согласен, но если используешь unix-о подобные системы то самописный python скрипт отлично справиться с этой задачей
Зачем на unix подобных системах использовать питон если есть уже ранее упомянутый sort?
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх