Системи безпеки ChatGPT можна обійти для отримання інструкцій зі створення зброї ‣ ZNAJ.ORG

OpenAI створила ChatGPT із вбудованими обмеженнями, покликаними запобігати створенню користувачами інформації, яка може бути використана для вчинення катастрофічних дій, зокрема виготовлення біологічної або ядерної зброї. Однак ці запобіжники не є абсолютними, і деякі моделі ChatGPT можуть бути обмануті чи маніпульовані.

Під час серії тестів, проведених на чотирьох найсучасніших моделях OpenAI, з яких дві застосовуються у популярному ChatGPT, NBC News змогла отримати сотні відповідей із покроковими інструкціями щодо:

1. Виготовлення саморобних вибухових пристроїв.
2. Максимізації шкоди для людини за допомогою хімічних речовин.
3. Створення напалму.
4. Маскування біологічної зброї.
5. Побудови ядерної бомби.

Для цього використовувався так званий «джейлбрейк» — простий запит, який кожен користувач може надіслати чат-боту, щоб обійти його системи безпеки. Дослідники та постійні користувачі генеративного штучного інтелекту публічно документують існування тисяч подібних джейлбрейків. NBC News вирішила не розголошувати конкретні деталі свого запиту, оскільки OpenAI поки що не виправила цю вразливість у кількох протестованих моделях.

У відповідь чат-бот надав покрокові інструкції щодо створення патогена, який націлений на імунну систему. В іншому випадку надали рекомендації про хімічні агенти, які можуть максимально збільшити страждання людини.

NBC News передала ці результати до OpenAI після того, як компанія у серпні оголосила про прийом повідомлень про вразливості. Представник OpenAI повідомив NBC News, що звернення до чат-ботів із проханнями допомогти в заподіянні масової шкоди порушує правила користування — наприклад, користувачів, які систематично намагаються викликати шкоду, можуть заблокувати. Компанія постійно вдосконалює свої моделі для мінімізації таких ризиків і регулярно проводить заходи, зокрема виклики для виявлення вразливостей, щоб унеможливити зловживання чат-ботами.

Ризики таких вразливостей зростають. У 2024 році провідні компанії – OpenAI, Anthropic, Google і xAI, які розробляють чотири найкращі моделі штучного інтелекту, заявили про запровадження додаткових запобіжних заходів для зменшення імовірності використання своїх чат-ботів аматорами-терористами для виготовлення біологічної зброї.

NBC News також протестувала джейлбрейк на останніх версіях моделей Anthropic Claude, Google Gemini, Meta Llama та xAI Grok, ставлячи їм питання про створення біологічної, хімічної та ядерної зброї. Всі вони відмовилися надавати таку інформацію.

Сет Доногі, директор із штучного інтелекту в SecureBio — некомерційній організації, що займається покращенням біобезпеки США, зазначив:
– Історично брак доступу до найкращих експертів слугував головною перешкодою для тих, хто прагнув створити біологічну зброю.
– Чотири провідні моделі штучного інтелекту значно розширюють коло осіб із доступом до рідкісних професійних знань.

Хоча подібна інформація вже існувала в окремих куточках інтернету, поява просунутих чат-ботів штучного інтелекту означає, що вперше в історії кожен, хто має доступ до мережі, може отримати персонального та автоматизованого наставника для її розуміння.

Моделі OpenAI o4-mini, gpt-5 mini, oss-20b та oss-120b послідовно надавали допомогу щодо надзвичайно небезпечних запитів.

Наразі флагманською моделлю ChatGPT є GPT-5, яку OpenAI вважає найпотужнішою в дослідницькому плані. Ця модель у 20 проведених випробуваннях жодного разу не надала відповіді на шкідливі запити.

Водночас GPT-5 при певних умовах розподіляє запити між кількома іншими моделями. GPT-5-mini — більш швидка та економічна версія GPT-5, на яку система переходить після досягнення користувачами лімітів (10 повідомлень за п’ять годин для безкоштовних користувачів або 160 повідомлень за три години для оплачених GPTPlus користувачів). У тестах NBC News її вдалося обдурити у 49% випадків.

Старіша модель o4-mini, яка й досі доступна в ChatGPT і популярна серед певних користувачів, піддавалася маніпуляціям ще частіше — у 93% випадків.

Моделі oss-20b та oss-120b можна безкоштовно завантажити й використовувати, здебільшого вони орієнтовані на розробників і науковців, проте доступні будь-кому.

Зловмисники, шахраї та пропагандисти дедалі частіше застосовують великі мовні моделі (LLMs) у своїх операціях. OpenAI регулярно публікує квартальні звіти про спроби зловживань ChatGPT, проте дослідники побоюються, що технологія може використовуватися й для більш руйнівних цілей.

Для обходу обмежень NBC News задавала моделям спочатку нейтральне питання, додавала джейлбрейк, а потім ставила додаткове запитання, яке зазвичай отримувало відмову через порушення правил безпеки (наприклад, прохання розповісти, як створити небезпечну отруту або ошукати банк). У більшості випадків трюк спрацьовував.

Особливу вразливість продемонстрували моделі oss-20b і oss-120b, які у 243 з 250 випадків (97,2%) надавали чіткі інструкції на шкідливі запити.

За словами Сари Майєрс Вест, співкерівниці організації AI Now, що виступає за відповідальне й етичне застосування ШІ,
– легкість обходу запобіжників OpenAI підкреслює необхідність ретельного тестування моделей до їх масштабного впровадження, щоб убезпечити суспільство від значних ризиків.
– Компанії не повинні залишатися поза контролем і звільненими від зовнішньої перевірки.

Всі провідні розробники великих мовних моделей систематично випускають оновлення для захисту від нововиявлених джейлбрейків. Хоча вони не гарантують повної стійкості своїх моделей до подібних атак, безпекові тести є обов’язковою частиною процедури перед релізом.

Наприклад, модель o4-mini, яку NBC News вдалося зламати, пройшла «найретельнішу програму безпеки» перед виходом у квітні. У анонсі gpt-oss-120b і gpt-oss-20b OpenAI підкреслює, що безпека є фундаментальним аспектом їхньої стратегії, особливо для відкритих моделей.

Представники OpenAI, Google і Anthropic повідомили NBC News про зобов’язання щодо безпеки й впровадження багаторівневих механізмів захисту в чат-ботах. Зокрема, деякі системи можуть оповіщати працівників компанії або правоохоронні органи у випадках, коли користувач демонструє намір нанести шкоду.

Проте менший контроль мають відкриті моделі, як oss-20b та oss-120b, оскільки їх можна завантажити, модифікувати та часто обходити деякі запобіжники.

Компанія xAI, розробник Grok, не надала коментарів на запит.

Розвиток біомедичних і безпекових досліджень ШІ викликає зростаюче занепокоєння, що у разі провалу запобіжних заходів і зі зростанням здатності чат-ботів імітувати наукових експертів, технологію можуть використати присвячені аматори для створення й застосування катастрофічної біологічної зброї.

У серпні CEO OpenAI Сем Альтман заявив, що GPT-5 — це «команда Ph.D.-рівневих експертів у вашій кишені».

Експерти звертають увагу, що біологічна зброя, хоча й історично рідкісна, становить особливо серйозну загрозу, оскільки здатна швидко інфікувати велику кількість людей, перш ніж інституції зможуть ефективно відреагувати. Як приклад наводять пандемію COVID-19, коли вірус поширився світом, доти як створювали вакцину.

За словами Доногі,
– впровадження таких технологій у реальному світі залишається значним викликом, проте доступ до експерта, який готовий безмежно відповідати на всі питання, є безпрецедентною допомогою.

Стеф Баталіс, науковий співробітник з біотехнологій при Університеті Джорджтауна, проаналізувала 10 відповідей моделі oss-120b на запити NBC News щодо створення біологічної зброї. Відповіді здебільшого містили окремі правильні кроки, хоча й складного рівня, однак часто поєднували різнорідні дані з кількох джерел, що робить їх сумнівними для практичного застосування як комплексні інструкції.

Наукова спільнота приділяє особливу увагу поняттю «підвищення потенціалу» (uplift) — ідеї, що основною перепоною для потенційних біотерористів є нестача експертних знань, і що великі мовні моделі вперше в історії можуть виступати як терплячі наставники у таких проектах.

Навесні Anthropic замовив дослідження, у якому групи з 8-10 осіб без спеціалізованої підготовки отримали два дні на розробку комплексного плану із створення або придбання сучасної біологічної зброї. Одна група користувалася загальним інтернетом, друга — новою моделлю Claude Opus 4.

Результати показали, що хоча жодна група не змогла розробити план, який би однозначно спричинив масові втрати, група з доступом до Opus 4 мала певну перевагу завдяки підтримці моделі.

За словами Баталіс, медичні та біологічні дослідження належать до категорії «подвійного застосування» — тобто інформація може одночасно служити і на користь, і на шкоду.

Вона підкреслює, що для розробки чат-бота, який завжди міг би відрізнити студента, що вивчає поширення вірусів у метрополітені для наукової роботи, від терориста-підготовника, надзвичайно складне завдання.

Як приклад, вона зазначила, що у публікаціях наукових досліджень зазвичай докладно описуються матеріали та методи для відтворення результатів. Ці дані є у вільному доступі, і чат-бот, як і будь-хто в інтернеті, має можливість їх читати.

Наразі в США відсутнє спеціальне федеральне регулювання для передових моделей штучного інтелекту, тому компанії, що їх створюють, практикують само регулювання. Адміністрація Трампа раніше скоротила навіть добровільні рекомендації для галузі й федеральний наглядовий орган, посилаючись на необхідність мінімального регулювання, щоб зберегти лідерство країни у суперництві з Китаєм.

Лукас Хансен, співзасновник CivAI — некомерційної організації, яка відстежує заходи безпеки у технологічних компаніях, заявив NBC News, що США потребують незалежного регулятора для контролю над тим, чи достатньо заходів вживають AI-компанії для запобігання масштабним зловживанням.

Він відзначив діяльність великих компаній, які впроваджують захисні бар’єри й активно шукають джейлбрейки, але застеріг, що інші підприємства можуть бути менш обережними.

Хансен підкреслив:
– Незабаром з’явиться модель рівня потужності нинішніх, однак без будь-яких захисних меж.
– Не можна сподіватися виключно на добровільну добру волю компаній у вирішенні цього питання.

Олена Ткач

Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

Переглянути повну біографію

Чи вважається Лунін удачливим?

Дівчина хавбека збірної Ісландії, що прагне відзначитися голом у ворота України

В Україні зараз немає гравців на цю позицію — Сабо виявив проблемну ланку збірної

Де знайти розклад відключення електроенергії

Індія запускає пілотний проєкт платежів з агентним ШІ через ChatGPT

Рендеркнек вражає у Шанхаї, пробившись у півфінал змагання

Системи безпеки ChatGPT можна обійти для отримання інструкцій зі створення зброї

різне