Прорив відбудеться саме в ці дві-три роки! Співзасновник компанії 面壁智能 Лі Дахай: нове покоління напрямків взаємодії людини і машини вже має перші ознаки світла

robot
Генерація анотацій у процесі

Коли штучний інтелект починає виходити з екрана у реальний світ, людсько-машинний взаємодія переживає етап оновлення.

Незалежно від того, чи це мобільний телефон, автомобіль, чи швидко впроваджувані роботи та носимі пристрої, традиційний покроковий режим взаємодії, заснований на питанні та відповіді, поступово виявляє проблеми з затримкою відповіді, розривом у сприйнятті, перервою у контексті тощо. Вроджені недоліки такого способу взаємодії стають ключовим бар’єром для входу AI у фізичний світ.

2 лютого співзасновник і CEO компанії 面壁智能 (FaceWall AI) Лі Дахай у інтерв’ю для ЗМІ, включаючи журналіста «每日经济新闻», заявив, що вже з’явилися перші ознаки нового напрямку людсько-машинної взаємодії, але справжній прорив не станеться за один раз, а поступово відбуватиметься разом із постійним покращенням можливостей хмарних та локальних моделей. У цьому процесі питання, чи зможе мультимодальна модель стати втіленим мозком, що з’єднує цифровий інтелект із фізичним світом, стає центральним для галузі.

Зображення: FaceWall AI

Мультимодальність — це не просто накладання функцій, а зміна парадигми взаємодії

Зі входом AI у фізичний світ, коли він керує роботами або носимими пристроями, традиційний режим людсько-машинної взаємодії починає демонструвати свої недоліки.

Професор кафедри обчислювальної техніки Тяньцзінського університету, співзасновник і головний науковий співробітник FaceWall AI Лю Чжиюань вважає, що для людини слух, мова та зір — це багатоканальні паралельні процеси, люди можуть говорити, слухати та дивитися одночасно, і ці процеси не заважають один одному. Але на рівні людсько-машинної взаємодії більшість моделей раніше не мали такої здатності: «Якщо ти починаєш говорити, ти вже не можеш дивитися, виникають різні проблеми.»

Недоліки такого способу взаємодії обмежують глибину проникнення AI у сферу тілесного інтелекту. Лю Чжиюань вважає, що людяність і природність у взаємодії — це ключовий крок для того, щоб роботи та інтелектуальні пристрої стали більш схожими на людину. «Ця (мультимодальна модель) і наближення до того, щоб наші майбутні роботи та інтелектуальні пристрої могли природно взаємодіяти, — можливо, ближче, ніж здається.»

Згідно з цим, тілесний інтелект — це не окрема галузь, а сценарій застосування, що вимагає більш високих стандартів взаємодії моделей. Лю Чжиюань підкреслює, що у сценаріях тілесного інтелекту та інтелектуальних пристроїв потрібні схожі моделі, щоб вони могли краще служити людству. Він вважає, що швидка ітерація можливостей тілесного інтелекту не так далеко: «Якщо говорити про час, то, мабуть, це ще два-три роки.»

На рівні галузі поєднання локальних моделей і апаратного забезпечення AI стає реальним і складним завданням.

З погляду Лі Дахая, з появою великих компаній і входженням інтелектуальних агентів у мобільні пристрої, вже видно перші ознаки нової форми людсько-машинної взаємодії, але це не означає, що точка перелому вже настала. Він вважає, що цей прорив не станеться одразу: «Ми будемо постійно досліджувати цей напрямок, і він буде супроводжуватися постійним покращенням хмарних і локальних моделей.»

Навіть у широко обговорюваному сценарії мобільних пристроїв технології все ще мають очевидні обмеження. Лі Дахай зазначає, що, наприклад, смартфон Doubao базується на одній із найкращих моделей у галузі, але його здатність виконувати складні завдання людства ще не досягла ідеального рівня.

Лі Дахай додатково аналізує, що з одного боку, чисті хмарні рішення важко обійти без проблем конфіденційності; з іншого — споживання ресурсів локальних пристроїв ускладнює реалізацію мультимодальних можливостей на смартфонах. Він прямо каже, що чим більше модальностей, тим більше ресурсів потрібно, і це визначає різницю у швидкості розвитку різних типів пристроїв.

Зараз взаємодія на смартфонах здебільшого базується на голосі та сенсорних екранах, і модальності обмежені. Лі Дахай пояснює, що, наприклад, у смартфона Doubao головний прорив — це можливість інтелектуального агента керувати пристроєм так само, як людина, виконуючи складні завдання, що вирішує проблему людської здатності до виведення. Наступним важливим напрямком розвитку є зміна способів введення.

«Зараз синхронізація контексту між смартфоном і людиною залежить від активних дій користувача на екрані. Якщо у майбутньому смартфони зможуть безпосередньо слухати та дивитися реальний світ, вони зможуть краще синхронізуватися з власником і ділитися контекстом.» Лі Дахай вважає, що це — ключовий крок до справжнього інтелектуального агента, але він також стикнеться з подвійними викликами — енергоспоживання та захисту приватності, що вимагає високих стандартів у дизайні продуктів.

На відміну від цього, у сценаріях автомобілів і роботів, через більш сприятливі ресурси, Лі Дахай вважає, що саме ці сфери мають найбільший потенціал для застосування мультимодальних моделей. У галузі тілесного інтелекту він вважає, що основний бар’єр — це не сама модель, а мозок. Як тільки досягне прорив у можливостях моделей, з’явиться шанс на прорив, схожий на «ChatGPT-час».

Галузь швидко стане свідком вибуху професійних можливостей моделей і взаємодії

З цієї точки зору, FaceWall AI не зосереджена на окремих продуктах або апаратних формах, а на здатності постійно створювати високоякісні моделі.

У сфері AI закони масштабування (Scaling Law) були визнані як незмінний принцип, але дискусії щодо їхнього можливого завершення тривають. FaceWall AI запропонувала інший підхід — Закон щільності (Densing Law), згідно з яким життєвий цикл великих моделей дуже короткий, і їхня здатність збільшується приблизно вдвічі кожні 100 днів. Це означає, що важливо не просто створити відмінну модель, а мати здатність постійно розвивати нові.

FaceWall AI позиціонує себе як «фотолітографічний апарат для великих моделей». Лі Дахай пояснює, що цей «фотолітограф» — це постійне тренування моделей з високою щільністю можливостей.

Лю Чжиюань додає, що логіка закону щільності схожа з галуззю мікросхем: майбутній тренд великих моделей — зменшення розмірів і підвищення щільності. Це дозволить знизити вартість моделей і зробити їх більш ймовірними для роботи на пристроях, що ближче до користувача.

Лі Дахай підкреслює, що комерціалізація локальних моделей — це частина перевірки можливостей і циклу даних. Простий продаж моделей через комерційний шлях для розгортання на мільярдах пристроїв може бути складним; більш реалістичний шлях — через екосистему і розробників, що спільно просувають цей процес.

Щодо конкуренції з великими компаніями, Лі Дахай вважає, що можливості для стартапів не зникли через появу гігантів. AI залишається галузевою можливістю, і виклик для стартапів — обрати, чи захоплювати невелику частку дуже широкого ринку, чи боротися за лідерство на менших ринках. «Я вірю, що у всіх ще є багато простору для розвитку.»

Щодо майбутніх технологічних трендів, Лю Чжиюань називає два головних напрямки: по-перше, постійне зростання інтелектуальних можливостей; по-друге, ефективне використання інтелекту. Він вважає, що протягом одного-двох років галузь швидко стане свідком посилення професійних можливостей моделей і їхньої здатності до взаємодії з світом. «(Модель) як інтелектуальний агент матиме більш сильну здатність до самостійного навчання — це дуже важливий тренд на найближчі один-два роки. Коли вона здобуде здатність до самостійного дослідження, навчання і зростання, наступним кроком стане колективна робота кількох агентів.»

Лю Чжиюань зазначає, що у найближчі п’ять-десять років світ увійде у епоху мережі та високої взаємодії між кількома агентами, з’явиться колективний інтелект.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$0.1Холдери:1
    0.00%
  • Рин. кап.:$2.45KХолдери:1
    0.00%
  • Рин. кап.:$2.45KХолдери:1
    0.00%
  • Рин. кап.:$2.46KХолдери:1
    0.00%
  • Рин. кап.:$2.46KХолдери:1
    0.00%
  • Закріпити