• XSS.stack #1 – первый литературный журнал от юзеров форума

Распознавание CAPTCHA Mail.ru, Yandex.ru

cosmik

floppy-диск
Пользователь
Регистрация
09.06.2009
Сообщения
8
Реакции
0
Добился неплохих результатов распознавания CAPTCHA Mail.ru.
50-60% вероятность распознавания CAPTCHA на странице регистрации
80% при отправке письма

Занимаюсь китайской CAPTCHA Mail.ru. Результаты появляются отличные. Обучил свою OCR, символы расспознаются на ура. Остался алгоритм разбиения всей CAPTCHA на кластеры (сегментация), но учитывая её особенности большую проблему это не создает.

Yandex.ru на порядок сложнее распознать, но некоторые успехи достигнуты. Здесь имеются значительные проблемы с сегментацией, похоже сотрудники Yandex, в отличае от Mail.ru, все же знали что делают. Достаточно присмотреться и обнаружить белые линии на CAPTCHA разрезающие контуры цифр.

Занимался ли кто данной темой? Интересно знать результаты. Готов пообщаться в привате. Тема очень интересная.
 
Да, интересная тема.
Помню, был сайтец - brain-lab.org, кажется.
Там чел написал свою opensource OCR на основе нейросетей. Точность распознавания цифирок составляла больше 97%.
Но там без сегментации было. Даже хз как её проводить.
Глядя на гугловскую каптчу (яндексовская очень похожа на неё) ... я впадаю в шок (символы искажены относительно друг друга).
Глядя на каптчу на mail.com я впадаю в ещё больший шок (анимированная).
Сейчас ещё делают 3D-каптчи. Каптчи, где нужно посчитать что-то. Ужоснах.

Сегментация - намного бОльшая проблема, чем написание OCR.

Даже не знаю что посоветовать... Почитай Яна ЛеКуна. Он делал свёртывающиеся сетки. Только не помню что у него там было ... или сами сетки сегментировали или был какой-то отдельный прописанный сегментатор... хм... не помню. Но точно помню, что его система слипшиеся символы распознавала. (все доки на английском. доков много. возможно в них нет описаний сегментатора ... но .. идеи, думаю, должны быть)

Проблема действительно очень интересная. Уходить в эту проблему надо с головой. Денег можно на этой проблеме поднять нехило - если свою систему распознавания написать (да ещё и универсальную).
 
Достаточно присмотреться и обнаружить белые линии на CAPTCHA разрезающие контуры цифр.

digits.gif


Первая мысль, которая приходит в голову - это залить фон , а потом выделить незалитые области. Но это не проктит, т.к. есть искажения (точнее, "повреждения" контура). Поэтому можно попробовать сначала увеличить контур (обратная эрозия), а потом залить и выделить. Потом нужно следить за тем, чтобы контур символов не "слипнулся".

Но это ещё не всё. Надо будет потом "собрать" что-ли выделенные куски. И попробовать их в нужных местах слепить. При этом, волновой анализ что-ли использовать ... или топологическую проекцию.

Мдя... нужно долго думать, я полагаю.

А вообще, можно попробовать нейросетку научить символы сегментировать. Но её надо делать на основе сетки, которая уже знает символы. Типа, можно попробовать подавать каптчу по кускам и выявлять с помощью нейросетки - где находится символ, а где место их соединения. Только функционировать это будет достаточно долго.

Задача, на самом деле, жестокая. Ппц.
 
Задача, на самом деле, жестокая. Ппц.
она уже давно решена =) и не единожды.Но у меня появились детские вопросы (я любознательна:))

1. под сегментацией в данном случае понимается "расклейка символов"?

2. а существуют ли в паблике антикапча в буржунете? может есть похожие алгоритмы, точнее сами капчи

3. . если есть готовые автореггеры - взломанные, лицензионные - в хрумере оллсабе, сеонюке, букмаркет демон и др. - можно ли юзать их (хотя конечно, готовых решений на все времена не будет)

4. по аналогии с базами хешей создается база всех готовых картинок?, или символов с определенным типом искажения?

5. не проще версия на pda? и можно ли эмулировать подключение с компа так, будто вы зашли с pda ?
 
она уже давно решена =)
Не расскажешь нам правильный алгоритм распознавания Yandex CAPTCHA.
Хотелось бы взглянуть на эти готовые решения или хотябы на доказательства их существования, я видел достаточно сервисов и людей занимающихся продажей аккаунтов, все они пользуются услугами anti-captcha.com даже для таких простых CAPTCHA как на Mail.ru
 
Не расскажешь нам правильный алгоритм распознавания Yandex CAPTCHA.
ну не мой же, что вы...Мне автор предлагал...партнерство, именно по продаже.
Но я не люблю торговать, и принципиально ничего не продаю, потому отказалась.
А самого скрипта я бы и не увидела- не все же темы палятся до нюансов.
Единственное, что могу сказать - не настолько уж это бешенные деньги. Именно продажа голых акков.

Если вы заинтересованы в бизнесе (для меня это так- просто головоломка), то ..нну не знаю, писать ли это..в общем- склеивают авторегу с каким-то спам сервисом. тогда капают деньги в 3-5-10 раз больше.
===
п.с. никакой антикапчи. многопоточный режим- около 50к
 
она уже давно решена =) и не единожды
...
Мне автор предлагал...партнерство, именно по продаже.

А что вообще за софт-то? Что это за скрипт? Какое название?

в общем- склеивают авторегу с каким-то спам сервисом. тогда капают деньги в 3-5-10 раз больше.

Я не могу понять какую функцию тут спам-сервис выполняет. Людям спамят с просьбой распознать каптчу? :D Или что?

Капают деньги в 3-5-10 раз относительно чего? По сравнению с чем? По сравнению с тем, чтобы закупать у антикаптчевского сервиса и продавать mail-аккаунты?

около 50к

Что это за единицы измерения-то :D ? 50 к чего? USD? RUR? Аккаунтов в час?
 
Я не могу понять какую функцию тут спам-сервис выполняет. Людям спамят с просьбой распознать каптчу? biggrin.gif Или что?

Видимо она имеет ввиду, что на сервисах типа Mail.ru на форме составления письма, уже после нескольких отправок с 1-го IP, появляется CAPTCHA и поэтому спамеры очень заинтересованы в её распознавании, что позволяет им отправлять больше. Для большинства таких сервисов задача распознавания давно решена, это правда.

:) lisa99, могу подрабатывать твоим переводчиком, за прайсом стучи в аську..
 
Видимо она имеет ввиду, что на сервисах типа Mail.ru
она имела ввиду совсем другое, так что cosmik - ваш прайс ушел в минусы.
но флудить мы не будем, ок? ибо "как распознать" и "как заработать" - две разные ;) темы.
==
впрочем, готова поделится инфой всего .........эммм....за пару сотен акков Я.
 
но флудить мы не будем, ок? ибо "как распознать" и "как заработать" - две разные wink.gif темы.

вообщем тебя опять не поняли (как минимум я), а то что касается флуда, то это помойму как раз к тебе :P

Добавлено в [time]1245256580[/time]
впрочем, готова поделится инфой всего .........эммм....за пару сотен акков Я.

стучи в асю, дам тебе акков Я, могу даже просто так
 
Первая мысль, которая приходит в голову - это залить фон , а потом выделить незалитые области. Но это не проктит, т.к. есть искажения (точнее, "повреждения" контура). Поэтому можно попробовать сначала увеличить контур (обратная эрозия), а потом залить и выделить. Потом нужно следить за тем, чтобы контур символов не "слипнулся".
Как альтернатива - распознавать по контуру.

4. по аналогии с базами хешей создается база всех готовых картинок?, или символов с определенным типом искажения?
Картинки генерируются рандомно и вместить весь диапазон в базу хешей - гиблое дело.

Цитата|Quote(lisa99 @ 16.06.09, 01:44:13)
в общем- склеивают авторегу с каким-то спам сервисом. тогда капают деньги в 3-5-10 раз больше.
*



Я не могу понять какую функцию тут спам-сервис выполняет. Людям спамят с просьбой распознать каптчу? biggrin.gif Или что?
Привязать капчу яндекса к сапп-сервису, обращаясь на который люди будут её распознавать!?..
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх