OpenAI представили цього тижня революційну і найкращу свою модель. Володимир Бандура

Опис

OpenAI представили цього тижня революційну і найкращу свою модель. В черговий раз перевернули ринок і додали зовсім нових вимірів до можливостей своїх моделей. І викликів конкурентам.

Акуратненько в понеділок, так щоб підсунути товсту гарненьку свиню Гуглу, який робив свою найбільш важливу конференцію для девелоперів у вівторок. І маю сказати вдалося їм це на всі 100%.

В жодному ринку не буває так, що вийшов, наприклад, новий Мерседес. З кращим дизайном. Кращою функціональністю. Швидший, економічніший, більш потужний, більш розумний. З унікальними фішками, на зразок преміального кінотеатру в салоні. І при цьому вдвічі дешевший, ніж попередній, який був без цих всіх наворотів.

Але саме це запропонували OpenAI. І саме так відбувається розвиток ШІ.

Для початку, скажемо про очікувані речі.

Модель відчутно розумніша, і показує значно кращі результати в широкому спектрі тестів.

Модель значно швидша. В рази.

Модель значно більш ефективна, виглядає що є суттєво більш компактною. Тобто вимагає менше ресурсів, настільки менше, що вперше OpenAI запропонує її всім користувачам безкоштовно.

Для девелоперів ціну на модель знизили вдвічі.

Власне для бомбічного релізу і цих пунктів було б достатньо, але це тільки початок.

Тепер про унікальні, підривні речі.

Модель є мультимодальною, тобто вона може не тільки читати текст, але і чути, бачити, говорити, розуміти емоції з картинок, з відео та з тону голоса. Ви скажете, як казав Кучма, «та це вже було». Але ні.

Вона не використовує зовнішні модулі, інші моделі (на зразок Whisper), щоб, наприклад, чути чи говорити. Ці здібності є частиною архітектури нової моделі. І це змінює все.

Думаю не складно побачити різницю між тим, коли глухому його товариш пише текстом що йому сказали, глухий у відповідь пише текст, товариш говорить своїм голосом. І тим, коли людина чує і говорить сама. По-перше, тоді така людина відповідає значно швидше. По-друге, вона може і почути дуже тонкі емоції, а також і відповісти з тонкими емоціями граючи тоном свого голосу.

Саме такою є зміна в архітектурі моделі GPT4o.

В результаті, нова модель здатна вести діалог в реальному часі. Так як це робить звичайна людина. Із затримками до відповіді близько півсекунди – що є абсолютно звичним і комфортним спілкуванням.

Одне це перевертає весь ринок. Бо тепер можна робити асистентів, які будуть знати сотні чи тисячі сторінок тексту Ваших знань (весь каталог ваших продуктів, скільки би тисяч їх не було), і консультувати заміняючи цілі колцентри. Власне для мене майбутнє колцентрів з працівниками людьми вже під великим питанням.

Але це ще далеко не все.

Нова модель прекрасно розуміє емоції з тону голоса людей, які з нею спілкуються. І, … майстерно також відтворює ці емоції коли відповідає сама. На рівні «прокачаної» людини, що пройшла курси акторської майстерності та виступає. Може навіть співати різними голосами.

Виглядає настільки бомбічно, що багато хто написав з експертів, що ось тепер нарешті фільм «Вона», який десять років назад був далекою фантастикою, втілений тепер в реальність.

Дивлюсь за відгуками девелоперів, у багатьох вже аж ручки чешуться створити різних «подружок», «компаньйонів», «віртуальних коханих» і т.д. Те про що ми говорили з Oleg Khomiak Юрий Романенко, дуже швидко стає реальністю.

Але і навіть до цього є ще супер крута нова функціональність.

Ця нова модель за представленими демонстраціями, прекрасно розуміє відео в реальному часі. Тобто ви з нею можете говорити як з товаришем/подругою по скайпу, зуму і т.д.

І це власне вражає найбільше. Тому що відео є дуже «важким» і його обробка вимагає дуже багато ресурсів. Завантажте для прикладу якийсь ролик в конкурента від Гугл, Gemini Pro 1.5. – невеликий відео ролик може тільки 5-10 хвилин завантажуватися для обробки. І кожне питання про відео потім може займати хвилини, щоб модель дала відповідь.

GPT4o не тільки відповідає в реальному часі і розуміє тонкі нюанси ситуацій (наприклад, який вигляд людини доречний чи не доречний певній ситуації – допомагає як стиліст в одному з демо). Але і пам’ятає, що відбувалося.

В одному з демо, Грег, президент OpenAI обговорював якісь речі з моделлю, через свій телефон, з включеним відео. В цей час до нього підійшла колега і поставила йому в кадрі «рожки». GPT4o в цей час вирішувала інші задачі і говорила зовсім про інше.

Грег потім її запитує, а нічого дивного не відбулося? І модель каже, що так, приходила якась дивна баришня і ставила тобі рожки, що виглядало дуже кумедно чи мило.

Тобто модель не тільки сприйняла цю сцену відповідаючи на інше питання. Але і пам’ятала її, і змогла потім відповісти на питання що до неї відноситься. І це звичайно виглядає дуже круто.

До речі, суттєвий контраст «легкості» з якою представили ці бомбічні можливості OpenAI та конференції Гугла. У Гугла власне теж класна конференція, але виглядала в цьому контексті більше як класичні партійні збори чи корпоративні.

Ось такі справи.

Якось до речі Альтман казав, що вони не хочуть представляти ніяких функцій, які викликають надмірний інтерес чи «залежність» як до прикладу, соц мережі. Але виглядає що від цього відходять. Бо складно уявити функціональність яка більше відходить від цієї ідеї.

І маю також відзначити, що «економіка уваги», побудована на дефіциті уваги людей, яку ми тільки встигли придумати, може розвалитися з таким розвитком ШІ. Бо у ШІ якраз буде можливість і приділити увагу кожному. І будучи агентом людей, приділити увагу значно більшому обсягу їх справ і зробити їх значно краще. Як думаєте?

Володимир Бандура

Автор сторінки

Memoryon-007

Про нас Умови використання Політика конфіденційності Політика щодо Cookies Договір публічної оферти