La percée est dans ces deux ou trois ans ! Li Dahai, co-fondateur de Bianbi Intelligent : une nouvelle génération d'interaction homme-machine a déjà montré le bout de son nez

CryptocurrencySniper · 2026-02-04T19:25:21+00:00

L'intelligence artificielle stimule une transformation majeure de l'interaction homme-machine, le mode d'interaction traditionnel basé sur des tours de parole présentant des problèmes tels que la réponse tardive. Les modèles multimodaux devraient améliorer la capacité d'interaction, permettant aux robots et aux terminaux intelligents de communiquer avec les humains de manière plus naturelle. Li Dahai et Liu Zhiyuan de Zhimian Intelligence soulignent que l'avenir de l'intelligence incarnée réside dans l'amélioration continue des capacités des modèles, les défis auxquels l'industrie est confrontée comprenant la confidentialité et les besoins en puissance de calcul. L'avenir sera témoin d'un développement rapide des capacités des modèles et de l'interaction, favorisant la collaboration entre multiples intelligences artificielles.

CryptocurrencySniper

2026-02-04 19:25:21

Création du résumé en cours

Lorsque l’intelligence artificielle commence à passer de l’écran au monde réel, l’interaction homme-machine connaît une étape de mise à niveau.

Que ce soit pour le téléphone portable, la voiture, ou pour les robots et appareils portables en cours de déploiement, l’interaction par tours de questions-réponses, qui était au cœur du passé, commence à révéler ses limites : réponse lente, perception fragmentée, interruption du contexte, etc. Ces défauts inhérents à cette méthode d’interaction deviennent un obstacle clé pour l’IA dans l’entrée dans le monde physique.

Le 2 février, Li Dahai, co-fondateur et CEO de Mianbi Intelligence, a déclaré lors d’une interview avec des médias dont le journaliste de 《每日经济新闻》 que la nouvelle génération d’interaction homme-machine avait déjà montré des signes d’émergence, mais que la véritable transition ne se ferait pas du jour au lendemain. Elle se produirait progressivement avec l’amélioration continue des capacités des modèles dans le cloud et sur le terminal. Dans ce processus, la question centrale pour l’industrie est de savoir si le modèle multimodal pourra devenir le cerveau incarné reliant l’intelligence numérique au monde physique.

Source de l’image : Mianbi Intelligence

Le multimodal n’est pas une simple superposition de fonctionnalités, mais un changement de paradigme d’interaction

Avec l’entrée de l’IA dans le monde physique, lorsqu’elle pilote des robots ou des appareils portables, les modes traditionnels d’interaction homme-machine commencent à montrer leurs limites.

Liu Zhiyuan, professeur titulaire à l’Université Tsinghua, co-fondateur et scientifique en chef de Mianbi Intelligence, pense que pour l’humain, écouter, parler et voir sont des processus parallèles. On peut continuer à écouter et regarder tout en parlant, ces processus ne se bloquent pas mutuellement. Mais au niveau de l’interaction homme-machine, la plupart des modèles précédents ont du mal à avoir cette capacité : « Dès que vous commencez à parler, vous ne pouvez plus voir, il y a des problèmes de ce genre. »

Les défauts de cette méthode d’interaction limitent la profondeur de l’incarnation de l’IA. Selon Liu Zhiyuan, une capacité d’interaction humanisée et hautement naturelle est une étape clé pour rendre les robots et terminaux intelligents plus semblables à l’humain. « (Le modèle multimodal) nous rapproche de la possibilité que nos robots et terminaux intelligents futurs puissent interagir naturellement comme des humains. »

Selon cette évaluation, l’intelligence incarnée n’est pas une branche indépendante, mais un scénario d’application qui exige des capacités d’interaction de modèles plus avancées. Liu Zhiyuan insiste sur le fait que dans des scénarios tels que l’incarnation ou les terminaux intelligents, des modèles similaires sont également nécessaires pour mieux servir l’humanité. Il estime que la rapide évolution des capacités de l’intelligence incarnée pourrait ne pas être si éloignée : « Si je devais estimer, ce serait probablement dans deux ou trois ans. »

Au niveau industriel, la combinaison des modèles côté terminal et du matériel IA devient une problématique concrète et complexe.

Selon Li Dahai, avec l’entrée de grandes entreprises et l’arrivée d’agents intelligents dans des terminaux comme les smartphones, la nouvelle forme d’interaction homme-machine commence à apparaître, mais cela ne signifie pas que le point de basculement est déjà atteint. Il pense que cette transition ne sera pas instantanée : « Tout le monde explorera continuellement cette voie, cela doit s’accompagner d’une amélioration continue des modèles dans le cloud et sur le terminal. »

Même dans le contexte actuel très discuté des smartphones, la technologie elle-même présente encore des contraintes évidentes. Li Dahai explique que, par exemple, le téléphone Doubao repose sur l’un des meilleurs modèles du secteur, mais sa capacité à réaliser des tâches complexes pour l’humain n’atteint pas encore un état idéal utilisable.

Li Dahai analyse plus en détail : d’une part, une solution purement cloud ne peut pas éviter les problèmes de confidentialité ; d’autre part, la consommation de ressources du côté terminal, comme la puissance de calcul, ralentit la mise en œuvre des capacités multimodales sur smartphone. Il affirme que plus il y a de modalités, plus la consommation de ressources est grande, ce qui détermine le rythme différent selon les terminaux.

Actuellement, l’interaction sur smartphone repose principalement sur la voix et le tactile, avec une modalité relativement limitée. Li Dahai donne l’exemple du smartphone Doubao, dont la percée principale consiste à permettre à l’agent intelligent d’opérer le téléphone comme un humain, pour réaliser des tâches complexes à la place de l’utilisateur, ce qui revient à résoudre le problème de la sortie de type humain. La prochaine étape importante sera la transformation des modes d’entrée.

« Actuellement, la synchronisation du contexte entre le téléphone et l’humain dépend d’une opération active sur l’écran. Si à l’avenir, le téléphone pouvait écouter et voir le monde réel directement, il pourrait mieux synchroniser et partager le contexte avec son propriétaire. » Li Dahai pense que c’est une étape clé vers un véritable agent intelligent, mais cela impliquera aussi de relever des défis liés à la consommation d’énergie et à la protection de la vie privée, ce qui exigera des exigences plus élevées en matière de conception de produits.

En revanche, dans des scénarios comme la voiture ou le robot, où les ressources sont plus abondantes, Li Dahai considère que ces domaines offrent un potentiel plus important pour les modèles multimodaux. Dans le domaine de l’incarnation intelligente, il pense que le principal obstacle n’est pas la plateforme elle-même, mais le cerveau. Lorsqu’une avancée significative sera réalisée dans les capacités des modèles, l’incarnation intelligente pourrait connaître une transition similaire à celle de « ChatGPT ».

L’industrie assistera rapidement à une explosion des capacités professionnelles et d’interaction des modèles

Selon cette vision, Mianbi Intelligence ne se concentre pas sur un produit ou une forme matérielle spécifique, mais sur la capacité à produire continuellement des modèles de haute qualité.

Dans le domaine de l’IA, la loi de l’échelle (Scaling Law) a longtemps été considérée comme une règle d’or, mais la controverse sur sa limite n’a jamais cessé. Mianbi Intelligence a proposé une autre perspective : la loi de la densité (Densing Law), selon laquelle la durée de vie utile d’un grand modèle est très courte, et sa densité de capacités double environ tous les 100 jours. Cela signifie que l’enjeu n’est pas seulement de développer un modèle excellent, mais de disposer d’une capacité continue à en développer de nouveaux.

Mianbi Intelligence se voit comme « la lithographie pour la fabrication de grands modèles ». Li Dahai explique que cette lithographie consiste à entraîner continuellement des modèles de capacité plus élevée.

Liu Zhiyuan ajoute que la logique de la densité est similaire à celle de l’industrie des puces : la tendance pour les grands modèles est de devenir de plus en plus petits et d’une densité plus élevée. Cela permet de réduire au maximum le coût des modèles tout en utilisant des tailles plus petites pour qu’ils puissent fonctionner plus facilement sur des terminaux proches de l’utilisateur.

Li Dahai insiste sur le fait que la commercialisation des modèles côté terminal fait partie intégrante de la validation des capacités et de la dynamique de données. Se limiter à une vente de modèles via des voies commerciales pourrait être difficile pour atteindre l’objectif de déployer des modèles sur des centaines de millions d’appareils. Une voie plus réaliste consiste à promouvoir ce processus via l’écosystème et les développeurs.

Concernant la compétition avec les grandes entreprises, Li Dahai pense que les opportunités pour les startups ne disparaissent pas avec l’entrée des grands acteurs. L’IA reste une opportunité à l’échelle industrielle, et le défi pour les startups est de choisir entre occuper une petite part dans un secteur très vaste ou tenter de dominer un marché plus restreint. « Je crois qu’il y a encore beaucoup d’espace pour que tout le monde puisse jouer. »

Pour les tendances technologiques futures, Liu Zhiyuan évoque deux grandes lignes directrices : d’une part, le renforcement continu des capacités intelligentes ; d’autre part, une utilisation toujours plus efficace de l’intelligence. Il pense que dans un à deux ans, l’industrie assistera à une montée en puissance des capacités professionnelles des modèles et à une explosion de leur capacité à interagir avec le monde. « (Les modèles) en tant qu’agents intelligents, acquièrent une capacité d’apprentissage autonome plus forte, ce qui sera une tendance très importante dans un à deux ans. Lorsqu’ils auront la capacité d’explorer et d’apprendre de manière autonome, la prochaine étape sera la collaboration entre plusieurs intelligences. »

Liu Zhiyuan indique qu’au cours des cinq à dix prochaines années, le monde entrera dans une ère d’interconnexion et de collaboration étroite entre plusieurs intelligences, avec l’émergence d’une intelligence collective.

(Source : Daily Economic News)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.