Українська

Для створення агентів штучного інтелекту з надлюдськими можливостями, потрібен надлюдський «зворотний зв’язок» для їх навчання. Володимир Бандура

Для створення агентів штучного інтелекту з надлюдськими можливостями, потрібен надлюдський «зворотний зв’язок» для їх навчання. Володимир Бандура

Опис

Для створення агентів штучного інтелекту з надлюдськими можливостями, потрібен надлюдський «зворотний зв’язок» для їх навчання.

Це не цитата з фантастичного трилеру, це свіжа стаття дослідників з команди Фейсбук (Мета), кину посилання в коментар.

undefined

Дуже цікава, і вже зараз дуже практична робота. Завдяки якій вони покращили результати своїх моделей штучного інтелекту в певних задачах в рази.

Бо взагалі явно чи неявно виникає питання. А звідки власне цей суперінтелект про який всі говорять візьметься? Як ми можемо створити/навчити щось розумніше ніж ми? Чи не виглядає це як спроба Мюнхгаузена, витягнути себе рукою за волосся з болота? 

Ця важлива робота якраз і дає цілком логічну відповідь – візьметься звідти звідки і наш власне – із самостійної взаємодії із зовнішнім середовищем та «розмірковуванням» над результатами цієї взаємодії та тим, як її покращити. Із підходу/архітектури, коли штучний інтелект сам оцінює і «нагороджує» себе за більш ефективні рішення. 

Такий підхід усуває обмеження, які виникають в поточній парадигмі навчання штучного інтелекту людьми. Оскільки навчання людьми є довгим, дорогим, складним, вносить суб’єктивну неефективність та так звану «упередженість» (biases), які легко виявити, але складно усунути. Ну і ставить очевидну певну «стелю» в тому наскільки сильний інтелект Ви можете створити в принципі. Вище голови як то кажуть не скочиш. 

Більше того, практично всі моделі на зараз проходять разові «тренування» на певний момент в часі і з певними даними для тренування. Але ці моделі ШІ не покращуються в звичайному використанні. Тобто ChatGPT не стає розумнішим кожен день, вирішуючи мільйони задач користувачів, а от було б дуже корисно, щоб він з цього кожен день навчався і ставав розумнішим. 

Так от дослідники використали новий підхід. Коли модель (їх LLAMA70b), сама генерувала рішення і сама оцінювала ці рішення і вибирала найкращі, а потім цей досвід включала в свої тренувальні дані. І показали що і її здатність пропонувати рішення і здатність їх оцінювати і «нагороджувати» себе, суттєво покращилась в ході такого навчання. 

За три кола таких покращень вони вийшли з ЛЛАМою в певних задачах на рівень ГПТ4, а ГПТ4 разів в 20 більша модель. І показали кращі результати, ніж Клод 2 (модель від Antropic) і Gemini Pro (Google). А це для відносно невеликої ЛЛАМи 2 як для боксера з масою 60 кг виграти у важковаговика. 

Кажуть в реальних умовах напевно кількість таких циклів покращень покаже певне насичення. Тобто модель вже не буде ставати кращою з якогось моменту, але практично вони це насичення в їх експериментах вони поки не побачили. 

Цікавий підхід і думаю якраз найбільш перспективний і потенційно швидкий.

Володимир Бандура