O avanço acontecerá nestes dois ou três anos! Co-fundador da Bibei Intelligent, Li Dahai: uma nova geração de interação homem-máquina já mostra sinais de esperança

robot
Geração de resumo em curso

Quando a inteligência artificial começa a passar da tela para o mundo real, a interação homem-máquina está a passar por um momento de atualização.

Quer seja no telemóvel, no automóvel ou nos robôs e dispositivos vestíveis que estão a acelerar a sua implementação, a interação por turnos, centrada em perguntas e respostas, está a revelar problemas como resposta lenta, perceção fragmentada e interrupções de contexto. As limitações inerentes a este método de interação estão a tornar-se um obstáculo crítico para a entrada da IA no mundo físico.

No dia 2 de fevereiro, Li Dahai, cofundador e CEO da FaceWall Intelligence, afirmou numa entrevista a meios de comunicação, incluindo o “Daily Economic News”, que já surgiu uma luz no caminho para uma nova geração de interação homem-máquina, mas que a verdadeira transição não acontecerá de um dia para o outro, ocorrendo gradualmente à medida que as capacidades dos modelos na nuvem e na extremidade continuam a melhorar. Nesse processo, a questão central é se os modelos multimodais podem tornar-se o cérebro corporificado que conecta a inteligência digital ao mundo físico.

Fonte da imagem: FaceWall Intelligence

Multimodalidade não é sobre sobreposição de funcionalidades, mas uma mudança no paradigma de interação

À medida que a IA começa a entrar no mundo físico, ao impulsionar robôs ou dispositivos vestíveis, os métodos tradicionais de interação homem-máquina começam a mostrar suas limitações.

O professor titular do Departamento de Computação da Universidade de Tsinghua, cofundador e cientista-chefe da FaceWall Intelligence, Liu Zhiyuan, acredita que, para os humanos, ouvir, falar e ver são canais paralelos que podem ocorrer simultaneamente. As pessoas podem falar enquanto continuam a ouvir e a ver, sem que esses processos se prejudiquem mutuamente. Contudo, na interação homem-máquina, a maioria dos modelos anteriores tinha dificuldades em suportar essa capacidade, pois “uma vez que começas a falar, não consegues ver, e há vários problemas associados.”

Estas limitações na interação restringem a profundidade com que a IA pode evoluir para uma inteligência corporificada. Para Liu Zhiyuan, a capacidade de interação altamente natural e humanizada é um passo fundamental para tornar robôs e terminais inteligentes mais semelhantes às pessoas. “Este (modelo multimodal) e fazer com que os nossos robôs e terminais inteligentes possam interagir naturalmente como humanos estão mais próximos.”

De acordo com esta avaliação, a inteligência corporificada não é uma área independente, mas uma aplicação que exige capacidades de interação mais avançadas. Liu Zhiyuan enfatiza que, em cenários como a corporação e os terminais inteligentes, também são necessários modelos semelhantes para que possam servir melhor a humanidade. Ele prevê que a rápida evolução das capacidades da inteligência corporificada pode não estar assim tão longe. “Se fosse para estimar quanto tempo, diria que talvez sejam apenas mais dois ou três anos.”

No setor industrial, a combinação de modelos na extremidade com hardware de IA está a tornar-se um desafio real e complexo.

Para Li Dahai, com a entrada de grandes empresas e a chegada de agentes inteligentes aos terminais como os telemóveis, já se vislumbra uma nova forma de interação homem-máquina, embora isso não signifique que o ponto de viragem já tenha chegado. Ele acredita que essa transição não será feita de uma só vez, mas que continuará a ser explorada, acompanhando a evolução contínua dos modelos na nuvem e na extremidade.

Mesmo nos cenários de telemóveis atualmente amplamente discutidos, a tecnologia ainda apresenta limitações evidentes. Li Dahai explica que, por exemplo, o telemóvel Doubao baseia-se em um dos melhores modelos do setor, mas a sua taxa de sucesso na realização de tarefas complexas ainda não atingiu um estado ideal de usabilidade.

Li Dahai analisa ainda que, por um lado, soluções puramente na nuvem enfrentam dificuldades com questões de privacidade; por outro, o consumo de recursos de processamento na extremidade, como a potência, faz com que a implementação de capacidades multimodais em telemóveis exija mais tempo. Ele afirma que quanto mais modos houver, maior será o consumo de recursos, o que determina diferenças no ritmo de desenvolvimento entre os diversos tipos de terminais.

Atualmente, a interação nos telemóveis baseia-se principalmente em voz e toque, com modos relativamente limitados. Li Dahai exemplifica com o telemóvel Doubao, cujo avanço principal é permitir que o agente inteligente opere o telemóvel como uma pessoa, realizando tarefas complexas em nome do utilizador, resolvendo assim o problema de saída de comandos como uma pessoa. O próximo passo importante será a transformação na forma de entrada.

“Atualmente, a sincronização do contexto entre o telemóvel e a pessoa depende de ações ativas no ecrã. Se no futuro os telemóveis puderem ouvir e ver o mundo real diretamente, poderão sincronizar e partilhar o contexto com o utilizador de forma mais eficiente.” Li Dahai considera que este é um passo crucial para que os telemóveis se tornem agentes verdadeiramente inteligentes, embora também enfrentem desafios duplos de consumo de energia e privacidade, elevando as exigências no design do produto.

Em comparação, cenários como automóveis e robôs, devido às condições de recursos mais favoráveis, são considerados por Li Dahai como os destinos mais promissores para a implementação de modelos multimodais. No domínio da inteligência corporificada, ele acredita que o principal obstáculo não está na tecnologia em si, mas no cérebro, e que, assim que houver avanços significativos na capacidade dos modelos, a inteligência corporificada poderá experimentar uma transição semelhante ao “momento ChatGPT”.

A indústria testemunhará rapidamente uma explosão nas capacidades especializadas dos modelos e na interação

Segundo esta visão, a FaceWall Intelligence não se concentra em um produto ou hardware específico, mas sim na sua capacidade de continuar a produzir modelos de alta qualidade.

No setor de IA, a Lei da Escala (Scaling Law) era considerada uma regra de ferro, mas debates sobre se ela atingirá limites nunca cessaram. A FaceWall Intelligence propôs uma nova perspetiva: a Lei da Densidade (Densing Law), que afirma que a longevidade de um grande modelo é muito curta, com a capacidade a duplicar aproximadamente a cada 100 dias. Isso significa que o mais importante não é apenas desenvolver um modelo excelente, mas possuir a capacidade de continuar a criar modelos de alta qualidade de forma sustentada.

A FaceWall Intelligence define-se como uma “ferramenta de litografia para grandes modelos”. Li Dahai explica que essa ferramenta refere-se ao treino contínuo de modelos de maior capacidade e densidade.

Liu Zhiyuan acrescenta que a lógica da Lei da Densidade é semelhante à do setor de chips: a tendência futura dos grandes modelos é diminuir cada vez mais o seu tamanho e aumentar a sua densidade. Assim, é possível reduzir ao máximo os custos do modelo, ao mesmo tempo que se utiliza um tamanho menor para facilitar a sua execução em terminais mais próximos do utilizador.

Li Dahai enfatiza que a comercialização de modelos na extremidade faz parte do processo de validação de capacidades e do ciclo de dados. Vender modelos apenas através de caminhos comerciais pode ser difícil para alcançar o objetivo de implantar em centenas de milhões de dispositivos; uma abordagem mais realista é promover esse processo através do ecossistema e dos desenvolvedores.

Quanto à competição com grandes empresas, Li Dahai acredita que as oportunidades para startups não desapareceram com a entrada de grandes empresas. A IA continua a ser uma oportunidade de nível industrial, e o desafio para as startups é decidir se devem conquistar uma pequena fatia de um setor muito amplo ou tentar liderar um mercado mais restrito. “Acredito que ainda há muito espaço para todos explorarem.”

Para as tendências tecnológicas futuras, Liu Zhiyuan aponta duas linhas principais: o aumento contínuo das capacidades inteligentes e a utilização eficiente da inteligência. Ele acredita que, nos próximos um ou dois anos, a indústria testemunhará rapidamente uma intensificação das capacidades dos modelos e uma explosão na sua capacidade de interação com o mundo. “Ele (o modelo) como agente inteligente, terá uma maior capacidade de aprendizagem autónoma, o que será uma tendência de desenvolvimento muito importante nos próximos um ou dois anos. Quando adquirir a capacidade de explorar e aprender de forma autónoma, o próximo grande avanço será a colaboração entre múltiplos agentes inteligentes.”

Liu Zhiyuan afirma que, nos próximos cinco a dez anos, o mundo entrará numa fase de interconexão e colaboração intensas entre múltiplos agentes inteligentes, com o surgimento de inteligência de grupo.

(Origem da notícia: Daily Economic News)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar