Розробники ШІ відкривають вакансії для поетів і письменників: Навіщо?

Найбільшу перевагу надають тим, хто володіє мовами, менш представленими в Інтернеті

В IT зростає попит на гуманітаріїв: розробники генеративного ШІ Scale AI та Appen шукають поетів, письменників та авторів фан-фікшн, які виведуть роботу алгоритмів на новий рівень. Як зазначають дослідники, згенерувати заголовки таблоїдів — це непогано, але інструмент, здатний відтворити стиль Гюго, виглядає набагато переконливіше.

Найбільші розробники генеративного ШІ із Кремнієвої долини публікують вакансії для поетів, драматургів чи письменників зі ступенем магістра, чи PhD. Десятки інших набирають співробітників для розмітки з гуманітарною освітою чи багаторічним досвідом роботи у галузі літератури.

Списки не обмежуються англійською: деякі шукають спеціально поетів і письменників-фантастів хінді та японською, а також тих, хто пише мовами, менш представленими в Інтернеті.

Підрядники мають писати короткі оповідання на задану тему, які будуть використовуватися в моделях ШІ. Крім того, вони надаватимуть відгуки про літературну якість згенерованих текстів.

Ці списки ілюструють зв’язок між дивовижними можливостями генеративного ШІ та невидимою роботою людей, які стоять за ним.

У листопаді 2022 року, коли було запущено ChatGPT, особливо навдивовиж виглядала здатність чат-бота писати вірші англійською. Наразі розробники збирають зразки художніх творів, завдяки яким він зможе створювати контент іншими мовами.

За словами Дена Брауна, професора Університету Ватерлоо, який досліджує креативність обчислювальних систем, ці інвестиції можуть окупитись.

“Якщо ви можете правильно генерувати заголовки таблоїдів французькою мовою, це одне. Але якщо продукт може відтворити стиль Гюго чи когось відомого, це викликає довіру іншого роду”, — каже він.

Серед клієнтів Scale AI та Appen є найбільші гравці у галузі розробки штучного інтелекту, зокрема OpenAI, Meta, Google та Microsoft. Вони намагаються посісти передові позиції у гонитві за лідерство у перспективному напрямі.

Конкуренція постійно зростає, і, як пояснює Браун, тут неймовірно важливою є перевага перших компаній, які охоплюють ринок до приходу нових гравців.

Представник Appen заявив, що попит на письмових підрядників значно зріс з кінця 2022 року, зокрема мовами, відмінними від англійської. “Наразі креативні письменники мають унікальний досвід, який дозволяє нам розробляти високоякісні навчальні дані для створення креативного ШІ, такого як поезія, тексти пісень та написання оповідань”.

Представник Scale AI відмовився відповідати на конкретні питання про те, як вони набирають персонал. “У нашій роботі завжди були й будуть залучені люди, оскільки це вкрай важливо для розробки відповідального, безпечного та точного штучного інтелекту”, — прокоментував він.

Навчити ШІ створювати художні тексти високої якості — непросте завдання. Багато великих мовних моделей не навчені бути креативними. Одним із критеріїв, які використовуються дослідниками штучного інтелекту для оцінки креативності, є новизна — наскільки текст, створений моделлю, відрізняється від того, що вже існує. Але такі інструменти, як ChatGPT були створені для імітації людського письма, а не для творчості.

“Вони навчені відтворювати. Вони не створені для того, щоб бути великими, вони намагаються бути якомога ближчими до того, що існує”, — пояснює Фабриціо Гоес, який викладає інформатику в Університеті Лестера.

Є причина, через яку багато перших статей від ШІ були футбольними оглядами та фінансовими новинами. Часто такі тексти дотримуються єдиного формату і не вимагають оригінальності. Між поезію оцінюють за її здатністю дивним чином створювати образи чи викликати певний настрій.

“Коли люди пишуть вірші, їм дуже, дуже важко це робити добре, — сказав Браун, зазначивши, що більшість поетів проходять через етапи редагування та доопрацювання, яким не навчені мовні моделі. — Навіть зараз після того, як почалася революція великих мовних моделей, ці машини не призначені створювати нове”.

Наприклад, ChatGPT важко наслідувати структуру та ритму відомих поетів, що пишуть англійською, особливо тих, що порушують літературні норми. Вірші американського поета Волта Вітмена відрізняються незвичайними формами, які структура не схожа на класичну поезію. ChatGPT не міг повторити цей стиль і часто дотримувався класичних строф з чотирьох рядків, навіть якщо в інструкції була пряма вказівка цього не робити.

Ще складніше із твором віршів іншими мовами. Згідно з Гоєсом, ті самі дослідники намагалися імітувати поширені польські стилі поезії. Раніше цього року вони намагалися вдосконалити моделі для створення таких поетичних форм, як японські хайку та вака.

На сьогодні є свідчення того, що великі розробники ШІ навчають моделей на матеріалах, які легко зібрати в набір даних. Серед них Project Gutenberg, база даних із відкритим вихідним кодом, що містить десятки тисяч літературних творів зі статусом суспільного надбання.

Деякі дослідники також припускають, що розробники використовували Archive of Our Own (AO3), платформу, на якій розміщено понад 5 млн фанфіків. Нещодавно The Atlantic повідомила, що захищені авторським правом твори відомих авторів, зокрема Стівена Кінга, Зейді Сміт та Джорджа Сондерса, потрапили до популярного датасету LLM Books3.

Як і в більшості баз, зібраних за допомогою Інтернету, більшість матеріалів тут написані англійською мовою.

Клієнти Scale AI та Appen добре доплачують креативним авторам, які допомагають заповнити цю прогалину у літературній мові. Наприклад, у Японії Scale AI платить співробітнику, який працює з даними, всього $13,98. Але досвідчений поет, який пише японською, книжковий редактор чи креативний письменник можуть отримувати до $50. Ймовірно, це пов’язано із вимогою про наявність вищої освіти.

Є прецеденти, коли ці компанії покладалися на експертів для роботи з даними — медики, коментують медичні зображення, або колишні військові, які працюють над продуктами оборонної сфери.

Дослідник із Дослідницького інституту розподіленого штучного інтелекту (DAIR) Мілагрос Мічелі розповідає, що тренд на використання професіоналів посилився лише за останні шість місяців. Компанії переходять від створення моделей з нуля до їх точного налаштування для конкретних програм.

Вимоги до масової розмітки даних стають суворішими.

“Зараз недостатньо, щоб хтось просто говорив цією мовою, — каже Мічеллі. — Недостатньо бути його носієм. Потрібно мати дуже широкий словниковий запас і абсолютне знання мови”.

Джерела: Rest of World, jobs coatue, startup jobs

Більше новин та актуальних матеріалів Investory News у нашому каналі в Telegram

Юлія Мельницька

16 Жовтня 2023

до новин