CSV Metadata xss.pro

marmalade · 14.09.2021

Хм, выходит, что кто-то, встал после 11 утра, зашел на сервер и выключил парсинг онлайн форума в 12.09.2021 в 11:40 , написал админу и позднее,
запостил и топик об этом. Админ же, несмотря на его постоянную занятость и нескорые ответы, ответил спустя ровно 34 минуты - что он в курсе т.к. они с автором уже предварительно говорили об этом.
Когда мета-данные превращаются в данные - из них можно снова извлечь мета данные! Но без отдела дата саентистов которым платят зп не просто так - не обойтись.

А по делу, мне бы тоже хотелось бы от степаныча узнать что-то новенькое, но врядли это будет. Но начну набрасывать первым, надеюсь вызов будет принят.
Чтобы чему-то обучить нейронку, нужно сперва собрать датасет и его разметить. Например вот методология сбора и разметки датасета комментариев на степень токсичности.

Подобный датасет( правда комменты тут с википедии ) можно скачать здесь: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Там же и был объявлен конкурс а 35к$ на самую лучшую модельку по определению токсичности.

In this competition, you’re challenged to build a multi-headed model that’s capable of detecting different types of of toxicity like threats, obscenity, insults, and identity-based hate better than Perspective’s current models. You’ll be using a dataset of comments from Wikipedia’s talk page edits. Improvements to the current model will hopefully help online discussion become more productive and respectful.

Таким же макаром, можно собрать датасет из сообщений на форуме и разметить его по степени угрозы или еще чего. Ваши предложения принимаются, кстати, ибо сходу не придумать что толковое. Тут вживую не понятно кто че из себя представляет.

А про граф модель построения текстов, нлп и маркова, не надо рассказывать, приведите пример. На форуме это очень маленькие данные, в теории можно собрать все сообщения и скормить их анализатору собрать их в пачки по похожести, да и самообучающуюся нейроку сделать, которая сама себя будет проверять по авторству этих сообщений. Но хз какой будет результат. Было бы интересно, чтобы пытливые умы потестили, а не работали на датасет))

Автору топика респект, кстати

x4k · 14.09.2021

А отпарсите вот мой например? некоторые из Вас уже тут ддосили. Видимо ддосилки померли (хостинг выгнал). Начните с nmapa... нене... начните с 80?
wazup.one

Samorez · 14.09.2021

stepany4 сказал(а):

У вас какие-то иллюзии. Люди которые изучают актеров андеграунда, спецслужбы и частники тоже перманентно парсят профильные форумы, отслеживают изменения в постах, есть даже лингво-семантические анализаторы, для выявления авторского стиля, подобий в написанном. Чисто для экономии времени втыкания в данные. Так что всё это разумеется анализируется. Ники, явные, неявные связи, подобия в тексте. Давно и достаточно успешно.
Хорошие ресерчеры прикручивают и другие совпадения, альтернативные ники, почты, иные digitals fingerprints.
Это не уровень каких-то спецслужб, это необходимость для любых профи, которые возятся с одним и тем же.

ИИ теперь будет заниматься этим, на самом деле шаблоны поведения самое трудное в анонимности.

stepany4 · 14.09.2021

Samorez сказал(а):

ИИ теперь будет заниматься этим, на самом деле шаблоны поведения самое трудное в анонимности.

Да для этого ИИ и кубитовые кванты и не требуются. Всё гораздо проще. Для того что бы отпарсить тысячи форумов, или их индексировать содержимое даже сервер не нужен. Это решение с нуля можно написать. И для сбора, и для индексирования, и для автоматического снятия копии, которое будет маскироваться под бот поисковой системы.
А для нужд корпорации, облегчения неебического объема документооборота потребуется.
Ой, да масса таких решений есть, из известных, российских можно выделить ABBYY. Info Extractor SDK который они для СберБанка делали, точнее под него допиливали, торгуют вроде. ABBYY Intellectual Search SDK тоже решение для корпораций. И это не топовые решения, мирового уровня и в них нет ноу-хау, там давным давно всё уже другое и гораздо круче.
У IBM масса решений есть. Micro Focus поставляет решения для анализа всего вообще и для корпораций и для государств, в частности ЦРУ и МИ-6 купили их некоторые комплексы.
Анализ потокового видео, распознавание одежды, распознавание чеков, текста и картинок. Содержимого документов. Запрещенной символики, оружия, чего угодно. Ну практически всего в тексте, медиа и любого объема информации и совершенно любых источников этой информации.
10x faster growth than traditional business data как они заявляют.
И кстати по части семантики, языков там всё очень скромно. Поэтому что касается авторства, глубинного поиска, то используются другие решения.

R00v · 14.09.2021

думаю это не баг а фичя для тех кто сидит без JS
проверяем еще раз -- в профиле убрали на https://xssforum7mmh3n56inuf2h73hvhnzobi7h2ytb3gvklrfqm7ut3xdnyd.onion/online/ отображаться
у кого так?
stepany4, Eject, @Frame,frog2 у вас JS включен?

Eject · 14.09.2021

R00v сказал(а):

у вас JS включен?

Да

bbi34yy · 14.09.2021

Все отображается.

stepany4 · 14.09.2021

Всё отображается. И пускай отображается. Кому-то это облегчит работу.
Мне лично скрывать нечего. И не вижу ничего такого, что кто-то будет знать что я там какие-то темы читал.
Остальные не знаю. Пусть лучше думают что и где они пишут, чем беспокоятся о том, что кто-то будет знать что он смотрел и читал.

Guron_18 · 17.09.2021

1631429837,/members/195192/,2021-09-12T09:57:17+0300,Премиум,Prevoss, Смотрит профиль пользователя Guron_18 ,12.09.2021 в 09:57
Пасеба.

CSV Metadata xss.pro

marmalade

Gray Hat ♣ White Rabbit

x4k

6767694e 61635361 72656d6d 0a Li-En

Samorez

(L1) cache

stepany4

TPU unit

R00v

CD-диск

Eject

(L1) cache

bbi34yy

(L1) cache

stepany4

TPU unit

Guron_18

floppy-диск