Читачі обирають фанфікшн про ChatGPT • The Register ‣ ZNAJ.ORG

Читачі текстів, створених із використанням стилістики відомих авторів, надають перевагу роботам, написаним штучним інтелектом (ШІ), порівняно з людськими імітаціями, однак лише після того, як розробники здійснюють тонке налаштування моделей ШІ для точного розуміння творчості конкретного автора.

Дослідники вважають, що ці результати змушують судові інстанції переосмислити усталені уявлення щодо дозволу тренування ШІ на творах авторів у межах винятку справедливого використання (fair use) для уникнення порушення авторських прав.

У препринті під назвою “Читачі віддають перевагу результатам ШІ, навченого на захищених авторським правом книжках, порівняно з професійними письменниками”, Тухін Чакрабарті, асистент-професор комп’ютерних наук Стоні Брюкського університету, Джейн С. Гінсбург, професор права Колумбійського університету, та Парамвіір Дхіллон, доцент Школи інформаційних наук Мічиганського університету, описують, як вони оцінювали вплив моделей ШІ, здатних наслідувати стиль людського письма.

Дослідники обрали цю тему на тлі численних судових позовів від імені авторів, які стверджують, що розробники моделей ШІ незаконно використовували їхні твори під час навчання. Один із таких позовів, Bartz проти Anthropic, очікує на врегулювання у розмірі 1,5 мільярда доларів, оскільки Anthropic тренували свої моделі на скопійованих творах.

Інший судовий процес, Kadrey проти Meta, завершився перемогою Meta з технічних причин, зумовлених процесуальними недоліками позивачів, хоча суддя визнавав, що «у багатьох випадках копіювання захищених авторським правом творів для навчання генеративних моделей ШІ без дозволу є незаконним».

Власники авторських прав у США подали понад 50 позовів щодо порушення авторських прав проти компаній, що займаються штучним інтелектом. Станом на сьогодні включно в ці позови увійшли претензії, пов’язані із відтворенням відео і аудіо. Юридичні експерти зауважують, що тренування моделей ШІ на захищених текстах, аудіозаписах і відео, ймовірно, припустиме як випадок справедливого використання, однак відповідальність може настати у разі відтворення моделей ШІ захищеного контенту у буквальному вигляді.

Втім, якщо саме тренування ШІ стане юридичною загрозою, розробники моделей можуть зазнати катастрофічних збитків — окрім мільярдів інвестицій у центри обробки даних задля задоволення очікуваного попиту на ШІ. Колишній керівник Meta, Нік Клегг, нещодавно висловив думку, що необхідність отримувати дозвіл від митців для збору їхніх робіт «фактично знищить індустрію ШІ в країні за одну ніч».

Чакрабарті, Гінсбург і Дхіллон поставили за мету з’ясувати, чи можуть моделі ШІ створювати високоякісні літературні тексти, що відтворюють індивідуальний стиль певного автора.

Автори відзначають, що попередні дослідження свідчили про те, що ШІ не здатен створювати високохудожню літературну прозу або креативний нехудожній текст, спираючись лише на початкові запити, у конкурентній боротьбі з професійними письменниками.

Для експерименту вони залучили 28 учасників із провідних магістерських програм із творчого письма (MFA) і попросили їх написати уривки завдовжки близько 450 слів у стилі 50 лауреатів літературних премій. Результатом стали 150 рукописів, які імітували творчість таких відомих письменників, як Еліс Манро, Кормак Маккарті, Хан Канґ та інших. Ці зразки порівнювали із 150 створеними ШІ уривками, призначеними для імітації стилів відомих авторів.

Початково 28 експертних письменників MFA та 131 звичайний читач надавали перевагу людським текстам. Проте ситуація змінилася після того, як розробники провели тонке налаштування ШІ-моделей, що створювали імітації — це спростувало попередні дослідження, які стверджували, що ШІ не може генерувати тексти, які сприймаються як якісна література.

Автори зазначають:

– У сліпому попарному порівнянні, здійсненому серед 159 експертів (кандидатів MFA з провідних американських програм) і звичайних читачів (запрошених через платформу Prolific), тексти, згенеровані ШІ без тонкого налаштування, були категорично відхилені експертами за недостатню стилістичну відповідність, проте думки звичайних читачів були більш неоднозначними.
– Після тонкого налаштування моделі ChatGPT на повних творчих доробках окремих авторів результати змінилися радикально: тепер експерти віддавали перевагу ШІ-згенерованим текстам за стилістичну подібність та якість письма, а звичайні читачі демонстрували подібні зміни у вподобаннях.

Процес тонкого налаштування, за спостереженнями дослідників, усуває стилістичні особливості ШІ, які читацьке коло раніше сприймало негативно, такі як надмірна кількість кліше.

Парамвіір Дхіллон повідомив виданню The Register, що наразі не може надати офіційну цитату через заборону інтерв’ю до офіційної публікації роботи, але зазначив: перевага читачів на користь текстів, згенерованих ШІ, у поєднанні з низькою вартістю їхнього виробництва потенційно означає, що літературні твори штучного інтелекту можуть конкурувати з творами, створеними людьми, а можливо — й витіснити їх.

Іншими словами, юридична спільнота не може ігнорувати вплив ринку ШІ на авторські твори при оцінці, чи є використання захищеного контенту ШІ справедливим.

Відповідно до чинного законодавства США, обвинувачені у незаконному використанні авторських матеріалів можуть посилатися на захист у вигляді справедливого використання, керуючись чотирма критеріями:

1. Мета та характер використання — комерційне чи некомерційне застосування.
2. Характер твору — наприклад, фактологічні роботи менш захищені, ніж художні.
3. Обсяг використаного матеріалу.
4. Вплив використання на потенційний ринок або вартість авторського твору.

Дослідники підрахували, що середня вартість тонкого налаштування моделі та обчислення виводу для створення роману завдовжки 100 000 слів становить $81, що є на 99,7% дешевшим порівняно з витратами на наймання професійного письменника ($25 000) для виконання такого ж завдання.

Вони резюмують:

– Створення тонко настроєних великих мовних моделей (LLMs), які базуються на зібранні або значній частині захищених авторським правом творів окремих авторів, не може вважатися справедливим використанням у випадках, коли такі моделі продукують тексти, що імітують творчість цих авторів.

Враховуючи, що моделі ШІ не відтворюють публікації дослівно, автори попереджають, що широке тлумачення «потенційного ринку або вартості копійованого твору» у законодавстві США може призвести до відмови визнання справедливим використанням навіть таке копіювання, яке не проявляється безпосередньо у кінцевому продукті, якщо воно заміщує джерельний твір.

Варто нагадати, що після появи доповіді у травні колишній президент США Дональд Трамп звільнив Шіру Перлмуттер с посади реєстратора авторських прав менш ніж за добу після її відмови схвалити спроби Ілона Маска збирати великі масиви захищених авторським правом творів для тренування моделей ШІ, як це прокоментував конгресмен Джо Морелл (федеральний округ Нью-Йорк-25).

Олена Ткач

Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

Переглянути повну біографію

Кудрівка та Металіст 1925 завершили матч внічию, призначено нового головного тренера збірної Швеції. Головні події 20 жовтня

Жінка з Мічигану виграла 100 тис. доларів, попросивши ChatGPT вибрати лотерейні номери – Національні новини

Як танцював Проспер, ви б здивувалися

Андрій Шевченко зустрівся з французьким послом в Україні

Льюїс Хемілтон поділився думками щодо свого виступу на Гран-прі США

Читачі обирають фанфікшн про ChatGPT • The Register

різне