10 грудня 2024
Дивився на днях інтерв'ю Еріка Шмідта (бувший СЕО Google, мільярдер, інвестор), який зараз фокусується на штучному інтелекті. І він в шоці від китайців.
Каже, я думав, що США випереджають їх на 2-3 роки, але вже ні.
Я писав, що у вересні OpenAI представили нове покоління моделей - моделі, які розмірковують (reasoning models, o1 серія). Дуже сильні моделі з принципово новою архітектурою, які можуть розглядати різні варіанти вирішення задачі, і вибирати найкращі. Що дозволяє їм вже вирішувати складні технічні задачі рівня кандидата наук.
І от китайці буквально менше ніж за три місяці представили вже декілька аналогів. Ще навіть Google не представив таку модель, хоча за чутками над нею працює.
При чому, якщо в минулому році я питав, що відбувається, китайці постійно анонсують якісь супер моделі, але їх ніде не можна протестувати.
То ці нові моделі вже доступні до тестування, при чому їх використовувати можна безкоштовно в обсягах більших, ніж о1 з платною підпискою (50 запитів у китайців за день, 50 запитів в платній підписці OpenAI за тиждень).
А найближчим часом вони взагалі обіцяють їх зробити відкритими для всіх і доступними для скачування.
Найбільш цікавою, як на мене, є модель DeepSeek r1 lite.
Я її тестував і мені сподобалось.
У цих reasoning моделей є цікава особливість - вони показують свій ланцюжок думок, як вони розмірковують над задачею, які варіанти і кроки розглядають.
То от у моделі о1 від OpenAI це є, але воно представлено досить умовно, вони більше наче хотіли заховати, що модель робить, ніж реально представити.
А от у китайців Ви бачите детальний ланцюжок думок, цікаво виглядає. І навіть практично цінно - і для розуміння які кроки правильні модель зробила, чи де можливо і допустила помилку.
І навіть для самоосвіти - її звіт дуже детальний, відповідно можна швидко подивитись як вирішувати певний новий клас задач, якщо її рішення правильне.
Так от цікавий момент.
Я писав, що американці зараз захищаються досить жорсткими обмеженнями на поставку передових чіпів в Китай.
Так от це має і певний цікавий зворотний ефект.
Так у американських розробників значно потужніші чіпи і доступні їм обчислювальні кластери.
Але таке враження, що це змушує китайців бути більш ощадливими та креативними. Відповідно, вони створюють все більш сильні середніх розмірів моделі. Які кидають виклик за важливими метриками американським великим моделям.
І в першу чергу цей виклик це за рівнем вирішення математичних задач та задач з написання програмного коду. Можете подивитись порівняльні тести. Або і зробити самі.
Я от дав їй задачу побудувати скрипт, щоб кластеризувати і представити візуалізацію вмісту моєї векторної бази для одного з проектів з 3072 мірного в 3 мірний простір, і вона запропонувала цілком коректний підхід, хоча і для фіналу доробив вже без неї. Але мені сподобалось. І рішення і як вона над ним думала і як цей ланцюжок думок представила.
Якщо такого рівня модель китайці насправді представлять доступною для скачування і локального використання це буде дуже цікавий хід.
Це ж серйозна свинюшка OpenAI - по суті вони дадуть можливість безкоштовно (з відповідним дорогим залізом) використовувати аналог найбільш дорогої моделі від OpenAI.
Не у всіх тестах китайці кращі, треба відмітити, але за тестами, які представили, в математиці і в написанні коду так. Зараз їх модель стала найкращою. Знову таки - це їх тестування за стандартними тестами, але це варто перевірити.
Маю сказати, в цьому є навіть певна іронія. Демократичні американці в особі OpenAI, Anthropic, Google та інших всіляко намагаються заховати, що вони роблять і як нові результати досягають. А тоталітарні китайці представляють свої моделі open source.
Що думаєте?
Володимир Бандура