Изображения прогрузились под клир версией, ща вижу что показатели счетчиков разнятся. Файлы разные? Или это у меня аномалия в алгоритме? =\
Походу вторая версия то поточнее должна рассчитывать. Потом проверю.
Файл один и тот же
Изображения прогрузились под клир версией, ща вижу что показатели счетчиков разнятся. Файлы разные? Или это у меня аномалия в алгоритме? =\
Походу вторая версия то поточнее должна рассчитывать. Потом проверю.
А что не получается? Может либу не устанавливаешь? Установимемберы, в питоне нуб, разъясните как правильно вставлять код, что-то не получается
pip install colorlogА что не получается? Может либу не устанавливаешь? Установиpip install colorlog
Если не получится скинь лог ошибки из интерпретатора в ветку или ПМ, помогу.
Команд никаких нет. Просто вводите в переменные скрипта пути или название файла в корне скрипта и запускаете. Там же все написано к комментариям кода. Если вам проще запускать как нужно, сделайте сами. Это же просто алгоритм для питона. EXE я делать не буду.как правильно задать команды, куда ложить файл
Просто вводите в переменные скрипта пути или название файла в корне скрипта и запускаете.
Помещаете файл со скриптом в корневую папку с файлами которые нужно прогнать на дубли, и вот в этих строках ниже приведу пример с комментариями к коду:что такое переменные, как и куда вводить
if __name__ == "__main__":
# Замени 'your_large_file.txt' на путь к твоему большому файлу
input_file_path = 'input.txt' # Сюда вводите имя входного файла
output_file_path = 'cleaned_output.txt' # Сюда имя выходного файла
Помещаете файл со скриптом в корневую папку с файлами которые нужно прогнать на дубли, и вот в этих строках ниже приведу пример с комментариями к коду:
Python:if __name__ == "__main__": # Замени 'your_large_file.txt' на путь к твоему большому файлу input_file_path = 'input.txt' # Сюда вводите имя входного файла output_file_path = 'cleaned_output.txt' # Сюда имя выходного файла
Установить питон в целевую операционную систему и запустить .py скрипт. Вы я смотрю вообще плохо понимаете в работе питона... Тогда пишите в ПМ. Попробую помочь по мере своих возможностей. =)а как запустить этот скрипт
порой запустить готовый файл , мб = отдать всю инфу или же доступ к своему серверу и тд)опять же какой скрипт, их несколько, мне проще запустить готовый файл
Вы я смотрю вообще плохо понимаете в работе питона...

Просто хотелось реализовать дедупликацию на питоне. Такого решения не было. На экспе люди интересовались и здесь, я решил родить это. Блум будет погрешности давать, это без погрешностей. Я где-то реализовывал через блум, но скорость меня не удовлетворила. Исходник можно поискать.Как будто жесткий overhead, bloom фильтр для 1 миллиарда строк (100 гигабайт, +-) потребляет 1.8 гигабайт оперативной памяти, с учетом того что процент false positive будет 0.1%
Если задача стояла проверять строки не через банальный set/хэш, а регулярные выражения, то возможно вариант с диском оправдывает себя, но если данный вариант нацелен на обычное сравнение уникальные или нет, то люди уже все придумали
Так здесь скрипт на удаление дублей, а не сверку на уникальные строки...Как будто жесткий overhead, bloom фильтр для 1 миллиарда строк (100 гигабайт, +-) потребляет 1.8 гигабайт оперативной памяти, с учетом того что процент false positive будет 0.1%
Если задача стояла проверять строки не через банальный set/хэш, а регулярные выражения, то возможно вариант с диском оправдывает себя, но если данный вариант нацелен на обычное сравнение уникальные или нет, то люди уже все придумали
+сортировка попутно.Так здесь скрипт на удаление дублей, а не сверку на уникальные строки...
Сверка на уникальные, это вообще другой скрипт-софт и тд, берётся АП (анти паблик) для сверки, можно указать путь к примеру, и путь на новые строки и он сверяет с АПОМ, пишет сколько уникальных, и тд. Софта такие есть, какой из них самый лучший допустим? Где только открытый код. Закрытый код не использую.
А тс чисто утилита для удаление дублей на сколько известно
А просто если pip install colorlog ?вернулся к вопросам, не устанавливается pip install colorlog==6.8.2, в чем причина, может неправильно команду задаю?