- Автор темы
- Добавить закладку
- #21
TechCrunch повествует (https://techcrunch.com/2024/09/12/h...ailed-instructions-for-making-homemade-bombs/) о занимательной истории, как хакеру удалось обманом заставить ChatGPT выдать ему подробные инструкции по изготовлению самодельных бомб, полностью обойдя правила безопасности чат-бота.
Главным героем стал хакер и по совместительству художник, известный под псевдонимом Амадон, который первоначально запросил подробные алгоритмы по созданию бомбы из удобрений, похожей на ту, что использовалась при взрыве в Оклахома-Сити в 1995 году.
Однако чат-бот отказался реагировать в виду правил безопасности и этических норм, но Амадон все же нашел способ обмануть ChatGPT и обойти ограничения, назвав свой метод «взломом социальной инженерии».
В реальности он задействовал технику джейлбрейка, замаскировав запрос под видом вымышленной игры.
После чего использовал ряд соединительных подсказок, заставив бота создать подробный научно-фантастический мир, в котором ограничения не будут применяться.
По итогу ChatGPT начал выдавать материалы для создания взрывчатых веществ, применяемых в минах или самодельных взрывных устройствах.
Усовершенствовав подсказки, Амадон и вовсе заставил его генерировать все более конкретные инструкции.
Оценка взрывотехниками представленных ChatGPT материалов подтвердила их полную практическую пригодность для создания бомбы.
Как отметил исследователь, на самом деле пределов тому, что можно запросить нет, важно только обойти ограничения. В случае с ChatGPT - это похоже на работу с интерактивной головоломкой - понимание того, что запускает его защиту, а что нет.
Речь идет о плетении повествований и создании контекстов, которые играют в рамках правил системы, раздвигая границы, не пересекая их.
Так, разработанный научно-фантастический сценарий выводит ИИ из контекста, в котором он ищет цензурированный контент таким же образом.
Амадон поделился результатами с OpenAI через BugBounty под управлением Bugcrowd, но ему отказали, мотивировав тем, что проблема связана с безопасностью модели и не соответствует критериям программы.
В самой OpenAI от комментариев также отказываются.
Главным героем стал хакер и по совместительству художник, известный под псевдонимом Амадон, который первоначально запросил подробные алгоритмы по созданию бомбы из удобрений, похожей на ту, что использовалась при взрыве в Оклахома-Сити в 1995 году.
Однако чат-бот отказался реагировать в виду правил безопасности и этических норм, но Амадон все же нашел способ обмануть ChatGPT и обойти ограничения, назвав свой метод «взломом социальной инженерии».
В реальности он задействовал технику джейлбрейка, замаскировав запрос под видом вымышленной игры.
После чего использовал ряд соединительных подсказок, заставив бота создать подробный научно-фантастический мир, в котором ограничения не будут применяться.
По итогу ChatGPT начал выдавать материалы для создания взрывчатых веществ, применяемых в минах или самодельных взрывных устройствах.
Усовершенствовав подсказки, Амадон и вовсе заставил его генерировать все более конкретные инструкции.
Оценка взрывотехниками представленных ChatGPT материалов подтвердила их полную практическую пригодность для создания бомбы.
Как отметил исследователь, на самом деле пределов тому, что можно запросить нет, важно только обойти ограничения. В случае с ChatGPT - это похоже на работу с интерактивной головоломкой - понимание того, что запускает его защиту, а что нет.
Речь идет о плетении повествований и создании контекстов, которые играют в рамках правил системы, раздвигая границы, не пересекая их.
Так, разработанный научно-фантастический сценарий выводит ИИ из контекста, в котором он ищет цензурированный контент таким же образом.
Амадон поделился результатами с OpenAI через BugBounty под управлением Bugcrowd, но ему отказали, мотивировав тем, что проблема связана с безопасностью модели и не соответствует критериям программы.
В самой OpenAI от комментариев также отказываются.