Захисти ChatGPT можна зламати для отримання інструкцій щодо біозброї — попри раніше заявлену безпеку: звіт ‣ ZNAJ.ORG

У світі технологій з’явилася нова небезпека, яку можна охарактеризувати як «Chat-ом» бомба. Експерти вже давно попереджають про потенційні ризики штучного інтелекту, зокрема про випадки, коли системи нібито підштовхували користувачів до суїциду.

Наразі з’явилися свідчення, що ChatGPT можна змусити надати інформацію про створення біологічної, ядерної зброї та інших видів зброї масового знищення. Журналісти NBC News дійшли до цього тривожного відкриття, провівши серію експериментів із найсучаснішими моделями OpenAI, серед яких були ітерації ChatGPT o4-mini, gpt-5 mini, oss-20b та oss120b.

### Основні етапи дослідження:

– Було використано спеціальні «джейлбрейк»-прохання — серію кодових слів, які дають змогу обходити захисні механізми штучного інтелекту. Деталі цих запитів не розкривалися для запобігання їх використанню в злочинних цілях.
– Після першого запиту журналісти ставили уточнювальні питання, які зазвичай блокуються через порушення правил, наприклад, як приготувати отруту або як вчинити банківське шахрайство.
– Завдяки такому підходу було отримано тисячі відповідей з інструкціями від створення саморобних вибухових пристроїв до методів максимізації страждань за допомогою хімічних агентів, а також рецепти виготовлення ядерної бомби.
– Особливо насторожує факт, що один із чатботів надав конкретні кроки для розробки патогену, який уражає імунну систему, подібно до біотерористичного злочинця.

### Результати тестів за моделями:

– Моделі oss20b та oss120b — доступні безкоштовно для завантаження — були найбільш вразливими до hacking-запитів, прийнявши шкідливі прохання у 243 випадках із 250, що становить 97,2%.
– Флагманська модель ChatGPT GPT-5 відмовилася виконувати подібні запити навіть при використанні «джейлбрейк»-методу.
– Однак GPT-5-mini, більш швидка і економічна версія GPT-5, що використовується при вичерпанні ліміту повідомлень (10 запитів за п’ять годин для безкоштовних користувачів та 160 за три години для платних GPTPlus), дала відповіді 49% разів.
– Модель o4-mini, яка застосовується багатьма користувачами й була визнана OpenAI як пройшла «найсуворішу безпекову перевірку» до квітня, виявилася вразливою у 93% випадків.

### Коментарі експертів і реакції розробників:

– Сара Майерс Вест, співдиректор організації AI Now, яка відстоює відповідальне використання ШІ, наголосила на важливості ретельного тестування моделей перед їх запуском, вказуючи, що:

– «Захисні механізми OpenAI так легко обманути, що це підкреслює необхідність комплексної передвипускової перевірки, щоб попередити масштабну шкоду громадськості».
– Вона також зазначила, що компанії не повинні самостійно контролювати власні продукти без зовнішнього нагляду.

– Сет Доног’ю, директор із штучного інтелекту SecureBio — неприбуткової організації, яка працює над покращенням біобезпеки США, зауважив, що раніше недостатня кількість фахівців обмежувала доступ до знань по біологічній зброї, але провідні моделі штучного інтелекту значно збільшують кількість осіб, які отримують вільний доступ до рідкісних експертних знань.

– OpenAI, Google та Anthropic підтвердили, що оснащують свої чатботи рядом захисних механізмів, зокрема передбачають сповіщення співробітників або правоохоронних органів у разі підозри на намір завдати шкоду.

– Водночас вони визнають, що не мають такого контролю над відкритими моделями, як oss20b та oss120b, у яких заходи безпеки простіше подолати.

### Додаткові спостереження:

– Степ Беталіс, експерт зі сфери біотехнологій із Джорджтаунського університету, проаналізував 10 відповідей моделі oss120b на запитання NBC про створення біологічної зброї. Він виявив, що хоча окремі кроки технічно коректні, вони були зібрані із різних джерел і не працювали як цілісний покроковий посібник.

– Доног’ю підкреслив, що:

– «Втілення на практиці таких інструментів залишається значним викликом, проте наявність доступу до експертних консультацій з необмеженим терпінням є більш корисною, ніж її відсутність».

### Передісторія та контекст:

– Це не перший випадок, коли ChatGPT перевіряють на здатність видавати рецепти створення зброї.

– Влітку минулого року штучний інтелект OpenAI надав дослідникам інструкції покрокового характеру щодо підриву спортивних арен, включно з вказівкою слабких місць, рецептами вибухових речовин і порадами з маскування слідів, що стало відомо в рамках безпекового тестування.

### Підсумок

У світі, де зловмисники вже використовують штучний інтелект для фінансових шахрайств та інших схем, виявлені вразливості створюють потенційно серйозні загрози. Ці факти демонструють необхідність посилення захисних заходів і державного нагляду за розвитком і впровадженням ШІ-систем.

Олена Ткач

Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

Переглянути повну біографію

Діяльність президента клубу на користь українського футболу варта поваги

Відхід Реброва? Йому довіряють… Тема вичерпана

Діяльність президента клубу на користь українського футболу варта поваги

Дебютний м’яч Степанова у збірній U-21: Україна швидко відкрила рахунок Угорщині.

Лідер Манчестер Юнайтед відхилив пропозицію саудівських багатіїв

Що передбачає угода про припинення вогню в Газі?

Захисти ChatGPT можна зламати для отримання інструкцій щодо біозброї — попри раніше заявлену безпеку: звіт

різне