Прорыв произойдет в эти две-три года! Соучредитель FaceWall AI Ли Дахай: новый виток взаимодействия человека и машины уже на горизонте

robot
Генерация тезисов в процессе

Когда искусственный интеллект начинает выходить за рамки экрана и переходить в реальный мир, взаимодействие человек-машина переживает этап обновления.

Независимо от того, идет ли речь о мобильных телефонах, автомобилях или о роботах и носимых устройствах, которые уже активно внедряются, традиционный пошаговый режим взаимодействия, основанный на вопросах и ответах, постепенно проявляет такие проблемы, как задержки в ответах, разрыв восприятия, прерывание контекста и другие. Внутренние недостатки этого способа взаимодействия становятся ключевым узким местом для внедрения AI в физический мир.

2 февраля соучредитель и CEO компании 面壁智能 Ли Дахай в интервью СМИ, включая журналистов «每日经济新闻», заявил, что появилась надежда на новую эру человеко-машинного взаимодействия, однако настоящий прорыв не произойдет мгновенно, а будет постепенным, сопровождаясь постоянным улучшением возможностей облачных и локальных моделей. В этом процессе вопрос о том, сможет ли мультимодальная модель стать воплощенным мозгом, соединяющим цифровой интеллект и физический мир, становится центральным для отрасли.

Источник изображения: 面壁智能

Мультимодальность — это не просто совмещение функций, а изменение парадигмы взаимодействия

По мере того, как AI начинает проникать в физический мир и управлять роботами или носимыми устройствами, традиционные модели взаимодействия человек-машина начинают показывать свои ограничения.

Профессор кафедры вычислительной техники Тяньцзиньского университета, соучредитель и главный ученый 面壁智能 Лю Чжиюань считает, что для человека слушание, речь и зрение — это многоканальные процессы, которые могут происходить одновременно, не мешая друг другу. Человек может говорить, продолжая слушать и смотреть, и эти процессы не конфликтуют. Однако в рамках взаимодействия человек-машина большинство существующих моделей не способны к такому многозадачному восприятию: «Как только ты начинаешь говорить, ты уже не можешь одновременно смотреть, возникают разные проблемы.»

Недостатки этого подхода ограничивают возможность AI развиваться в сторону телесного интеллекта. По мнению Лю Чжиюаня, человекоподобное, максимально естественное взаимодействие — это ключ к тому, чтобы роботы и умные устройства стали более похожими на человека. «Это (мультимодальная модель) и приближает нас к тому, чтобы будущие роботы и умные устройства могли взаимодействовать так же естественно, как люди.»

Исходя из этого, телесный интеллект — это не отдельная ветвь, а сценарий применения, требующий более высоких требований к моделям взаимодействия. Лю Чжиюань подчеркивает, что в сценариях с телесным и умным терминалом нужны аналогичные модели, чтобы обеспечить их более эффективное обслуживание человека. Он считает, что быстрый прогресс в развитии телесного интеллекта в плане возможностей — это не так далеко: «Если говорить о сроках, то, по моим оценкам, это примерно два-три года.»

На уровне отрасли объединение локальных моделей и аппаратного обеспечения AI становится реальной и сложной задачей.

По мнению Ли Дахая, с выходом крупных компаний на рынок и внедрением интеллектуальных систем в мобильные устройства, появилась надежда на новую форму человеко-машинного взаимодействия, однако это не означает, что точка перелома уже достигнута. Он считает, что этот прорыв не произойдет за один раз: «Все будут продолжать исследовать это направление, и оно будет развиваться вместе с постоянным улучшением облачных и локальных моделей.»

Даже в широко обсуждаемом сценарии использования мобильных устройств технология все еще сталкивается с очевидными ограничениями. Ли Дахай отмечает, что, например, смартфон Doubao основан на одной из лучших моделей в отрасли, однако его способность выполнять сложные задачи у человека пока не достигла полностью желаемого уровня.

Дальнейший анализ Ли Дахая показывает, что с одной стороны, полностью облачные решения сложно обойти проблему конфиденциальности, а с другой — ресурсы локальных устройств, такие как вычислительная мощность, требуют времени для реализации мультимодальных возможностей на смартфонах. Он прямо говорит, что чем больше модальностей, тем больше ресурсов требуется, что влияет на темпы развития различных устройств.

В настоящее время взаимодействие с мобильными устройствами в основном основано на голосе и сенсорных управляемых элементах, что ограничивает мультимодальность. Ли Дахай приводит пример смартфона Doubao: его ключевое достижение — возможность делать так, чтобы умный агент мог управлять телефоном так же, как человек, выполняя сложные задачи, что решает проблему вывода информации так же, как человек. Следующее важное направление развития — это изменение способов ввода.

«В настоящее время синхронизация контекста между телефоном и человеком зависит от активных действий на экране. Если в будущем смартфон сможет напрямую слушать и видеть реальный мир, он сможет лучше синхронизироваться с владельцем и делиться контекстом.» Ли Дахай считает, что это — ключ к превращению смартфона в полноценного интеллектуального агента, однако это также сопряжено с двойными вызовами — энергопотреблением и защитой конфиденциальности, что предъявляет более высокие требования к дизайну продукта.

В отличие от этого, сценарии с автомобилями и роботами, благодаря более щедрым ресурсам, Ли Дахай считает, что именно там мультимодальные модели имеют больший потенциал. В области телесного интеллекта он полагает, что текущие узкие места связаны не с самим концептом, а с «мозгом». Как только произойдут прорывы в возможностях моделей, телесный интеллект, скорее всего, переживет такой же «момент ChatGPT» — скачок вперед.

Отрасль быстро станет свидетелем взрывного роста профессиональных возможностей моделей и их взаимодействия

Исходя из этого, 面壁智能 не сосредоточена на конкретных продуктах или аппаратных формах, а на способности постоянно создавать высококачественные модели.

В области AI закон масштабирования (Scaling Law) долгое время считался непреложным правилом, однако дискуссии о его возможных ограничениях не прекращаются. 面壁智能 предложила другой взгляд — Закон плотности (Densing Law), согласно которому срок актуальности больших моделей очень короткий, а их способность увеличивается примерно вдвое каждые 100 дней. Это означает, что важнее не создание одного отличного модели, а способность постоянно развивать новые модели высокого качества.

面壁智能 позиционирует себя как «фотолитографический станок для создания больших моделей». Ли Дахай объясняет, что этот станок — это постоянное обучение более мощных и емких моделей.

Лю Чжиюань добавляет, что логика закона плотности схожа с индустрией чипов: в будущем большие модели станут все меньшими по размеру и более плотными. Это позволит значительно снизить стоимость моделей и сделать их более вероятными для запуска на устройствах, расположенных ближе к пользователю.

Ли Дахай подчеркивает, что коммерциализация локальных моделей — это часть проверки возможностей и формирования «цифрового двигателя». Простая продажа моделей через коммерческий канал и их развертывание на сотнях миллиардов устройств — задача сложная. Более реалистичный путь — развитие экосистемы и сотрудничество с разработчиками.

Что касается конкуренции с крупными компаниями, Ли Дахай считает, что возможности стартапов не исчезли из-за появления крупных игроков. AI по-прежнему остается отраслевой возможностью, и вызов для стартапов — выбрать, занимать ли нишу в очень широком сегменте или сосредоточиться на меньшем рынке, чтобы стать лидером. «Я верю, что у всех еще есть большой простор для проявления.»

Что касается будущих технологических трендов, Лю Чжиюань выделяет два основных направления: постоянное усиление интеллектуальных возможностей и повышение эффективности использования интеллекта. Он считает, что в ближайшие один-два года отрасль быстро станет свидетелем усиления профессиональных возможностей моделей и их взаимодействия с миром. «(Модель), как интеллектуальный агент, приобретает более сильные способности к автономному обучению — это очень важный тренд на ближайшие один-два года. Когда она приобретет способность к самостоятельному исследованию и обучению, следующий шаг — это кооперация множества интеллектуальных агентов.»

Лю Чжиюань отмечает, что в течение следующих пяти-десяти лет мир обязательно войдет в эпоху взаимосвязанных, высококоординированных мультиагентных систем, и появится коллективный интеллект.

(Источник: 每日经济新闻)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить