• XSS.stack #1 – первый литературный журнал от юзеров форума

Статья Merge File Sort или быстрая сортировка строк и удаление дублей интерпретатором в файле от 400 GB за счет ПЗУ

одно и то же

ERROR: Could not find a version that satisfies the requirement colorlog (from versions: none)
ERROR: No matching distribution found for colorlog

установил, файрвол не давал, странно, pip и другие библиотеки устанавливались
 
все одно не катит у меня, ошибки на обоих скриптах

SyntaxError: Non-UTF-8 code starting with '\xc4' in file C:\Users\Admins222\Desktop\main2.py on line 7, but no encoding declared; see https://peps.python.org/pep-0263/ for details

SyntaxError: Non-UTF-8 code starting with '\xc8' in file C:\Users\Admins222\Desktop\main.py on line 1, but no encoding declared; see https://peps.python.org/pep-0263/ for details
 
Так и не понял какие крайние показатели времени на выполнение операций. В EmEditor возможно обрабатывать файлы свыше 16 Тб. Ничего практичней, т.е. удобней, надежней, быстрее, с живой текущей поддержкой и стабильно-регулярным развитием я не встречал.
Приведены показатели скорости выполнения операций открытия, чтения, извлечения, сложной сортировки и дедупликации на платформе ЦП Ryzen 9 9950X с 64 ГБ оперативной памяти, на SSD в Windows 11. Использовался EmEditor v25.2.906. Каждый эталон был выбран 3 раза, и показано среднее время выполнение операции.
  • Открытие и прочтение файла:
Размер и кол-во строк​
Время​
Файл размером 1 Гб (12 783 832 строки)​
0,113 секунды​
Файл размером 50 Гб (639 132 990 строк)
20,825 секунд​
  • Удаление дублей (тот же файл):
Размер и кол-во строк​
Время​
Файл размером 1 Гб (12 783 832 строки)​
0,31 секунд​
  • Операции с csv файлом 15,2 Гб с 106 219 502 строками:
Операция​
Время​
Сортировка от А до Я, меньшее-большее​
7,343 секунды​
Извлечение строк
52,358 секунд​
Нахождение уникального значения (XvxsQhwz)
10,10 секунд​
 
Последнее редактирование:
все одно не катит у меня, ошибки на обоих скриптах

SyntaxError: Non-UTF-8 code starting with '\xc4' in file C:\Users\Admins222\Desktop\main2.py on line 7, but no encoding declared; see https://peps.python.org/pep-0263/ for details

SyntaxError: Non-UTF-8 code starting with '\xc8' in file C:\Users\Admins222\Desktop\main.py on line 1, but no encoding declared; see https://peps.python.org/pep-0263/ for details
С кодировкой какие-то траблы, UTF-8 надо.

В EmEditor возможно обрабатывать файлы свыше 16 Тб. Ничего практичней, т.е. удобней, надежней, быстрее, с живой текущей поддержкой и стабильно-регулярным развитием я не встречал.
На момент написания алгоритма EmEditor не справлялся с логом на 300 гигабайт при 128 гигабайт оперы.
 
Последнее редактирование:


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх