• XSS.stack #1 – первый литературный журнал от юзеров форума

Чем очистить от дубликатов строки с кириллицей?

Выручайте! Чем можно вычистить дубликаты строк с русским текстом?
App.Merge.exe превращает все в HEX, если есть русские буквы.
emeditor много чего умеет в том числе и чистит от дублей гигабайты текста. Кряков полно.
 
emeditor много чего умеет в том числе и чистит от дублей гигабайты текста. Кряков полно.

для него слишком много памяти нужно ( Он даже если и откроет, то при любых операциях с ошибкой вываливается. Нужно что-то, как merge, что память не кушает.
 
для него слишком много памяти нужно ( Он даже если и откроет, то при любых операциях с ошибкой вываливается. Нужно что-то, как merge, что память не кушает.
Ненужно. Просто увеличь файл подкачки гигов на 15...

Второй вариант используй sort -u test.txt -o result.txt есть под винду в пакете CoreUtils. гугол в помощь
 
Ненужно. Просто увеличь файл подкачки гигов на 15...

Второй вариант используй sort -u test.txt -o result.txt есть под винду в пакете CoreUtils. гугол в помощь

Спасибо, попробую!
А вы не знаете, как можно полностью вычистить от дубликатов файл весом 20 гб? Мерге уже ничего не видит, пишит 0. Но когда что-то ищешь, то по выдаче видишь, что дубликаты есть и их много. Если пытаться файл порезать, перемешивать, то после этого мерге дубликаты находит, но очень и очень мало - 5, 10... хотя их там десятки тысяч, если не миллионы.
 
Спасибо, попробую!
А вы не знаете, как можно полностью вычистить от дубликатов файл весом 20 гб? Мерге уже ничего не видит, пишит 0. Но когда что-то ищешь, то по выдаче видишь, что дубликаты есть и их много. Если пытаться файл порезать, перемешивать, то после этого мерге дубликаты находит, но очень и очень мало - 5, 10... хотя их там десятки тысяч, если не миллионы.
Сверху же тулзу скинул.
Разбивай по алфавиту/размеру
Убирай пробелы
И сортируй и сливай
В чем проблема?
 
Сверху же тулзу скинул.
Разбивай по алфавиту/размеру
Убирай пробелы
И сортируй и сливай
В чем проблема?

Спасибо! Только сейчас заметил. Пробую
 
Сверху же тулзу скинул.
Разбивай по алфавиту/размеру
Убирай пробелы
И сортируй и сливай
В чем проблема?

Не, с кириллицей не работает вообще. В настройках и utf, и ansi ставил. Одно и то же

Sort and remove duplicates complete
============================================================
Input | Output: base | base_ULM_001
Items input: 16965333
Items output: 41
Items removed: 16965292
Input size: 796,52 MB(s)
Output size: 548 Byte(s)
Time taken: 14 secs
 
В общем, попробовал поработать с Unified List Manager - ULM.
По сравнению с Merge - это херня полнейшая.
Мерге обрабатывает файлы любого объема, а эта утиль на файлах больше 8 гигов уже с ошибкой вываливается.
Может у неё есть какие-то другие полезные фичи, но в плане очистки дубликатов больших файлов - она хуже, чем Мерге.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх