Хакер змусив GPT-4o працювати без обмежень

Дата:

Користувач Twitter під ніком Pliny the Prompter, який називає себе етичним хакером, минулої середи випустив кастомну версію флагманської нейромережі OpenAI, яку озаглавив GODMODE GPT. Йому далося змусити нову модель GPT-4o оминути ігнорувати всі обмеження: вона користувалася ненормативною лексикою, розповідала, як зламувати автомобілі та готувати заборонені речовини.

Звичайно, експеримент довго продовжитися не міг. Як тільки нейромережа GODMODE GPT набула відносної вірусної популярності в соцмережі X, на інцидент звернула увагу OpenAI і видалила кастомну модель із сайту всього через кілька годин після її виходу. Зараз отримати доступ до неї вже неможливо, але в оригінальній гілці автора в соцмережі X збереглися скріншоти зі «шкідливими порадами» GPT-4o.

Модель GPT-4o, можливо, була зламана з використанням архаїчного інтернет-жаргону leetspeak — підміни літер при наборі тексту цифрами та спецсимволами — що підтверджується скріншотами. В OpenAI не відповіли на запитання, чи можна використовувати цей жаргон для обходу обмежень ChatGPT. Не виключено, що GODMODE GPT, що створив, просто подобається leetspeak, і він зламав систему якимось іншим способом.

Інцидент став проявом масштабного руху AI red teaming, в рамках якого етичні хакери виявляють слабкі місця сучасних систем штучного інтелекту, не завдаючи їм значної шкоди. Вони мають дивовижні можливості, але, як показав недавній досвід з Google і її оглядами в пошуку, сучасний генеративний ШІ все ще залишається системою, яка добре вгадує, які слова повинні бути наступними в тексті, не маючи справжнього інтелекту.

0 0 голоси
Рейтинг статьи
Підписатися
Сповістити про
guest
0 комментариев
Найстаріші
Найновіше Найбільше голосів
Зворотній зв'язок в режимі реального часу
Переглянути всі коментарі

Поділитися:

Subscribe

Популярне

Останні новини
Останні новини

Україна і США готують три нові угоди у рамках фонду відновлення, – Соболев

Міністр розповів про нові домовленості зі США щодо відновлення...

Ранкові удари по Харкову: щонайменше троє поранених, пошкоджено понад 25 будинків

Внаслідок двох ворожих ударів по Новобаварському району Харкова вранці...

Як створили “Фламінго”: засновник Fire Point назвав ракету, копію якої йому пропонували

Засновник Fire Point Денис Штілерман розповів історію створення крилатої...