• XSS.stack #1 – первый литературный журнал от юзеров форума

Помощь с уникализацией файлов

Marcus Aurelius

HDD-drive
Пользователь
Регистрация
02.04.2021
Сообщения
27
Реакции
79
Не знал, в какой раздел опубликовать тему. Решил, что более подходящего раздела не будет.

Задача: нужно загрузить ряд файлов (около 10к) на сайт "X" (аля дорвей) с заданным уровнем уникальности.

Имеем файлы, скачанные с другого ресурса - сайт "Y". Оба сайта находятся в одной сетке. При загрузке файла на сайт "Х" идет двухступенчатая проверка. 1 этап: сравнение хэша файла с хэшами в БД сайта "Y". Если хэши совпадают - загрузка отклоняется в связи с идентичностью материала. 2 этап: при успешном прохождении первого шага идет проверка на уникальность на ресурсе text.ru и сравнение с полученным результатом уникальности. Если процент уникальности (~75-80%) удовлетворяет условиям - файл загружается, в противном случае, отклоняется.

Свои мысли: написал скрипт на питоне, пробежался циклом по файлам в каждый добавил по пробелу - сохранил - хэш изменен. Первый этап проверки пройдет.

Со вторым этапом возникли сложности: добавление word-spacing, замена аналогичных символов кириллицы на латиницу типа "а" на "а", "О" на 0 и тд не особо помогает. Сервис умеет анализировать подобную уникализацию. Думал, случайными фразами, рандомно как-то вставить в текст. В голову больше что-то не пришло. Заменить местами абзацы в авторежиме хз.

С автозагрузкой на сайт набросал скриптик с использованием селениума и драйвера хромовского.

Форматы файлов, в основном: doc, docx, pdf, ppt, pptx.

Будьте добры, поделитесь идеями, как можно повысить саму уникальность, пройти проверку, автоматизировать загрузку файлов.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх