Выручайте! Чем можно вычистить дубликаты строк с русским текстом?
App.Merge.exe превращает все в HEX, если есть русские буквы.
App.Merge.exe превращает все в HEX, если есть русские буквы.
emeditor много чего умеет в том числе и чистит от дублей гигабайты текста. Кряков полно.Выручайте! Чем можно вычистить дубликаты строк с русским текстом?
App.Merge.exe превращает все в HEX, если есть русские буквы.
emeditor много чего умеет в том числе и чистит от дублей гигабайты текста. Кряков полно.
cat file.txt | sort -u > outfile.txtНенужно. Просто увеличь файл подкачки гигов на 15...для него слишком много памяти нужно ( Он даже если и откроет, то при любых операциях с ошибкой вываливается. Нужно что-то, как merge, что память не кушает.
Ненужно. Просто увеличь файл подкачки гигов на 15...
Второй вариант используй sort -u test.txt -o result.txt есть под винду в пакете CoreUtils. гугол в помощь
Сверху же тулзу скинул.Спасибо, попробую!
А вы не знаете, как можно полностью вычистить от дубликатов файл весом 20 гб? Мерге уже ничего не видит, пишит 0. Но когда что-то ищешь, то по выдаче видишь, что дубликаты есть и их много. Если пытаться файл порезать, перемешивать, то после этого мерге дубликаты находит, но очень и очень мало - 5, 10... хотя их там десятки тысяч, если не миллионы.
Сверху же тулзу скинул.
Разбивай по алфавиту/размеру
Убирай пробелы
И сортируй и сливай
В чем проблема?
Сверху же тулзу скинул.
Разбивай по алфавиту/размеру
Убирай пробелы
И сортируй и сливай
В чем проблема?