Коли мова заходить про перевірку того, наскільки близька ChatGPT до можливостей людського інтелекту, логічно звернутися до вчень видатних мислителів, таких як давньогрецький філософ Сократ. Саме це стало основою для дослідження, опублікованого у International Journal of Mathematical Education in Science and Technology. Вчені поставили перед ChatGPT 2400-річну математичну задачу, що полягала у подвоєнні площі квадрата.
У класичній версії задачі учень подвоював довжину кожної сторони квадрата, проте після суперечки Сократ направляв його на те, щоб замість цього використати довжину діагоналі початкового квадрата для обчислення сторін. Головна мета Сократа полягала не у прямому розв’язанні задачі, а у тому, щоб продемонструвати, що учень уже володіє необхідними знаннями для знаходження правильного результату через логічний аналіз. Протягом століть науковці дискутували навколо питання: чи є математичні знання вродженими, чи вони здобуваються через раціональне мислення і досвід. Інтерес викликає те, як великі мовні моделі (LLM), зокрема ChatGPT, підходять до розв’язання подібних завдань.
Д-р Надев Марко — співкерівник дослідження з Єврейського університету в Єрусалимі, у співавторстві з професором математики та освіти Андреасом Стиліаніде з Кембриджа, висували припущення, що оскільки ChatGPT навчений на текстах, а не зображеннях, якщо він зможе надати правильне розв’язання, це стало б підтвердженням гіпотези про те, що математичні здібності і логічне мислення здобуваються, а не закладені генетично. Вони ставили під сумнів, чи ці знання зберігаються і можуть бути «видобуті» або ж створюються «генеруються» на основі набутих досвіду та роздумів. Учені припускали, що ймовірність правильної відповіді від чатбота буде низькою. Натомість ChatGPT імпровізував, однак зробив подібну помилку до студента — неправильно заперечив можливість застосування діагоналі, стверджуючи, що геометричного розв’язання немає.
Як же науковці розпізнали імпровізацію чатбота?
– Д-р Марко підкреслює, що ймовірність того, що хибне твердження про подвоєння сторін виникло з уже існуючих даних, є «вкрай низькою». Це свідчить, що ChatGPT формував відповідь, адаптуючись на основі попередньої взаємодії.
– Адаптація реакції свідчить про генерацію знань, а не їх просте відтворення чи доступ до вбудованих даних.
– Зі слів Марко, природний інстинкт людини — спробувати логічно пояснити явища «на основі попереднього досвіду». Чатбот, здається, наслідує цей процес, створюючи гіпотези чи відповіді «ніби учень або вчений», проте він працює не з досвідом, а з накопиченою інформацією.
– Відкриття нейронного коду людського мислення може одного дня призвести до створення штучного інтелекту, що перевершує людину, однак наразі таких результатів серед технологій немає.
Також це підводить до поняття «зони найближчого розвитку» (ЗНР). Цей термін описує природний розрив між тим, що людина знає в теперішньому часі, і тим, чого вона може навчитися або осягнути з правильним керівництвом, зазвичай від більш досвідчених осіб. Можливо, ChatGPT використовує аналогічну концепцію як основу для формування знань, розв’язуючи задачі, яких не було у тренувальних даних або в його минулому досвіді.
Втім, дослідники застерігають і проявляють обережність щодо отриманих результатів, наголошуючи на необхідності проведення подальших поведінкових досліджень задля формування остаточних висновків. Наразі поведінка моделі виглядає «учнівською», але доказів того, що великі мовні моделі формують логічні висновки так само, як люди, недостатньо.
Ці знахідки збігаються з недавніми результатами незалежного дослідження компанії Apple, у якому зроблено схожий висновок: продвинуті системи штучного інтелекту не використовують логіку і розуміння світового контексту так, як це робить людина.