IA reconfigurando el navegador: oportunidades y desafíos de la tercera guerra de los navegadores

La era del navegador AI ha llegado: oportunidades y desafíos de la tercera guerra de los navegadores

La tercera guerra de los navegadores se está desarrollando en silencio. Desde Netscape y el IE de Microsoft en los años 90, hasta el espíritu de código abierto de Firefox y Chrome de Google, la lucha entre navegadores ha sido una manifestación concentrada del control de la plataforma y el cambio de paradigmas tecnológicos. Chrome ha logrado obtener la posición de dominio gracias a su velocidad de actualización y su interconexión ecológica, mientras que Google ha formado un círculo cerrado de entrada a la información a través de la estructura de "duopolio" entre la búsqueda y el navegador.

Pero hoy, este patrón está siendo sacudido. El auge de los modelos de lenguaje grandes (LLM) ha llevado a que cada vez más usuarios completen tareas en la página de resultados de búsqueda con "cero clics", disminuyendo así el comportamiento tradicional de hacer clic en páginas web. Al mismo tiempo, los rumores sobre la posible sustitución del motor de búsqueda predeterminado en Safari por parte de Apple amenazan aún más la base de ganancias de Alphabet, y el mercado ha comenzado a mostrar inquietud por la "ortodoxia de la búsqueda".

El navegador también se enfrenta a una reconfiguración de su rol. No solo es una herramienta para mostrar páginas web, sino que también es un contenedor que reúne diversas capacidades como la entrada de datos, el comportamiento del usuario y la identidad privada. Aunque el Agente de IA es poderoso, para completar interacciones complejas en la página, invocar datos de identidad locales y controlar elementos de la página web, aún se necesita aprovechar los límites de confianza y el sandbox funcional del navegador. El navegador está pasando de ser una interfaz humana a convertirse en una plataforma de llamadas del sistema para Agentes.

Lo que realmente podría romper el actual mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: no se trata de la presentación de información, sino de la invocación de tareas. El navegador del futuro debe ser diseñado para el Agente de IA - no solo capaz de leer, sino también de escribir y ejecutar. Proyectos como Browser Use están intentando semantizar la estructura de la página, convirtiendo la interfaz visual en texto estructurado que puede ser invocado por LLM, logrando una asignación de página a instrucciones y reduciendo enormemente el costo de interacción.

Los proyectos principales en el mercado han comenzado a experimentar: Perplexity construye el navegador nativo Comet, utilizando IA para reemplazar los resultados de búsqueda tradicionales; Brave combina la protección de la privacidad con el razonamiento local, mejorando la búsqueda y las funciones de bloqueo con LLM; mientras que proyectos nativos de Crypto como Donut apuntan a una nueva entrada para la interacción entre IA y activos en cadena. La característica común de estos proyectos es: intentan reconstruir la entrada del navegador, en lugar de embellecer su capa de salida.

Para los emprendedores, las oportunidades se encuentran en la relación triangular entre la entrada, la estructura y el agente. El navegador, como la interfaz que invoca el mundo para el futuro de los agentes, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y de confianza, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO( Optimización de Motor de Agentes), desde el tráfico de páginas hasta la invocación de cadenas de tareas, la forma del producto y el pensamiento de diseño están siendo reconfigurados. La tercera guerra de los navegadores tiene lugar en la "entrada" y no en la "exhibición"; lo que decide la victoria ya no es quién atrae la atención del usuario, sino quién gana la confianza del agente y obtiene el acceso a la invocación.

Breve historia del desarrollo de los navegadores

A principios de la década de 1990, cuando Internet aún no formaba parte de la vida cotidiana, Netscape Navigator apareció como un barco de vela que abría un nuevo continente, permitiendo a millones de usuarios acceder al mundo digital. Este navegador no fue el primero, pero sí el primero que realmente se dirigió al público en general y dio forma a la experiencia de Internet. En ese momento, las personas podían navegar por la web de manera tan fácil a través de una interfaz gráfica, como si de repente todo el mundo se volviera accesible.

Sin embargo, el esplendor suele ser efímero. Microsoft pronto se dio cuenta de la importancia de los navegadores y decidió forzar la inclusión de Internet Explorer en el sistema operativo Windows, convirtiéndolo en el navegador predeterminado. Esta estrategia se considera un "golpe mortal de plataforma", que desmanteló directamente la posición dominante de Netscape en el mercado. Muchos usuarios no eligieron IE de manera activa, sino que lo aceptaron porque era el predeterminado del sistema. IE, aprovechando la capacidad de distribución de Windows, rápidamente se convirtió en el líder de la industria, mientras que Netscape cayó en una senda de declive.

En medio de la adversidad, los ingenieros de Netscape eligieron un camino radical e idealista: hicieron pública la fuente del navegador, haciendo un llamado a la comunidad de código abierto. Esta decisión, como un "sacrificio macedonio" en el mundo tecnológico, presagiaba el final de una era y el surgimiento de nuevas fuerzas. Este código se convirtió más tarde en la base del proyecto del navegador Mozilla, que fue nombrado originalmente como Phoenix(, lo que significa resurrección del fénix ), pero debido a problemas de marca, pasó por varios cambios de nombre, hasta que finalmente se llamó Firefox.

Firefox no es una simple copia de Netscape; ha logrado múltiples avances en la experiencia del usuario, el ecosistema de complementos, la seguridad, entre otros aspectos. Su nacimiento simboliza la victoria del espíritu de código abierto y también inyecta nueva vitalidad a toda la industria. Algunos describen a Firefox como el "heredero espiritual" de Netscape, así como el Imperio Otomano heredó el resplandor de Bizancio. Esta metáfora, aunque exagerada, tiene mucho significado.

Pero años antes del lanzamiento oficial de Firefox, Microsoft ya había lanzado seis versiones de IE, aprovechando la ventaja del tiempo y la estrategia de empaquetado del sistema, lo que hizo que Firefox comenzara en una posición de desventaja, lo que significa que esta competencia no era una competencia justa en igualdad de condiciones desde el principio.

Al mismo tiempo, otro jugador temprano también está apareciendo silenciosamente. En 1994, se lanzó el navegador Opera, que proviene de Noruega y al principio era solo un proyecto experimental. Pero a partir de la versión 7.0 en 2003, introdujo su motor Presto desarrollado internamente, siendo el primero en soportar CSS, diseño adaptable, control por voz y codificación Unicode, entre otras tecnologías de vanguardia. Aunque el número de usuarios es limitado, tecnológicamente siempre ha estado a la vanguardia de la industria, convirtiéndose en "el favorito de los geeks".

Ese mismo año, Apple lanzó el navegador Safari. Este fue un giro significativo. En ese momento, Microsoft había invertido 150 millones de dólares en Apple, que estaba al borde de la quiebra, para mantener la apariencia de competencia y evitar una revisión antimonopolio. Aunque el motor de búsqueda predeterminado de Safari desde su creación es Google, esta historia de enredos con Microsoft simboliza la relación compleja y sutil entre los gigantes de Internet: cooperación y competencia, siempre van de la mano.

En 2007, IE7 se lanzó junto con Windows Vista, pero la respuesta del mercado fue mediocre. En cambio, Firefox, gracias a un ritmo de actualizaciones más rápido, un mecanismo de extensiones más amigable y su atractivo natural para los desarrolladores, vio cómo su cuota de mercado aumentaba gradualmente hasta aproximadamente el 20%. El dominio de IE se estaba debilitando, y la dirección del viento estaba cambiando.

Google tiene un enfoque diferente. Aunque comenzó a gestar su propio navegador en 2001, tardó seis años en convencer al CEO Eric Schmidt para aprobar el proyecto. Chrome se lanzó en 2008, construido sobre el proyecto de código abierto Chromium y el motor WebKit utilizado por Safari. Se le apodó como un navegador "pesado", pero gracias a la profunda habilidad de Google en publicidad y construcción de marca, rápidamente se elevó.

La clave del éxito de Chrome no son sus funciones, sino la frecuencia de sus actualizaciones, ( cada seis semanas, ) y una experiencia unificada en todas las plataformas. En noviembre de 2011, Chrome superó por primera vez a Firefox, alcanzando una cuota de mercado del 27%; seis meses después, volvió a superar a IE, completando la transición de desafiante a dominante.

Al mismo tiempo, el internet móvil en China también está formando su propio ecosistema. Un navegador se volvió popular rápidamente a principios de la década de 2010, especialmente en mercados emergentes como India, Indonesia y China, ganándose la preferencia de los usuarios de dispositivos de gama baja gracias a su diseño ligero y características como la compresión de datos para ahorrar tráfico. En 2015, su participación en el mercado global de navegadores móviles superó el 17%, alcanzando en India hasta el 46%. Pero esta victoria no fue duradera. A medida que el gobierno indio fortaleció la revisión de seguridad de las aplicaciones chinas, el navegador se vio obligado a salir de un mercado clave, perdiendo gradualmente su antiguo esplendor.

A medida que entramos en la década de 2020, la posición dominante de Chrome ya está establecida, con una cuota de mercado global estable en alrededor del 65%. Es notable que, aunque el motor de búsqueda de Google y el navegador Chrome pertenecen a Alphabet, desde el punto de vista del mercado son dos sistemas hegemónicos independientes: el primero controla aproximadamente el noventa por ciento de las entradas de búsqueda a nivel global, mientras que el segundo tiene el control de la "primera ventana" a través de la cual la mayoría de los usuarios acceden a la web.

Para mantener esta doble estructura de monopolio, Google no escatima en gastos. En 2022, Alphabet pagó alrededor de 20 mil millones de dólares a Apple solo para que Google mantuviera su posición como el motor de búsqueda predeterminado en Safari. Algunos análisis indican que este gasto equivale al 36% de los ingresos por anuncios de búsqueda que Google obtiene del tráfico de Safari. En otras palabras, Google está pagando una "cuota de protección" por su muralla defensiva.

Pero la dirección del viento ha cambiado una vez más. Con el surgimiento de los modelos de lenguaje a gran escala (LLM), la búsqueda tradicional ha comenzado a ser impactada. En 2024, la cuota de mercado de búsqueda de Google cayó del 93% al 89%; aunque sigue dominando, las fisuras ya son evidentes. Más disruptiva aún es la rumorología sobre que Apple podría lanzar su propio motor de búsqueda de IA: si Safari cambia su búsqueda predeterminada a su propio ecosistema, no solo reescribirá el paisaje ecológico, sino que también podría sacudir el pilar de ganancias de Alphabet. La reacción del mercado fue rápida; las acciones de Alphabet cayeron de 170 dólares a 140 dólares, reflejando no solo el pánico de los inversores, sino también una profunda inquietud sobre el futuro de la era de búsqueda.

Desde Navigator hasta Chrome, desde el ideal del código abierto hasta la comercialización de la publicidad, desde navegadores ligeros hasta asistentes de búsqueda con IA, la lucha por los navegadores siempre ha sido una guerra sobre tecnología, plataformas, contenido y control. El campo de batalla se desplaza constantemente, pero la esencia nunca ha cambiado: quien controla la entrada, define el futuro.

Arquitectura obsoleta de los navegadores modernos

Hablando de la arquitectura del navegador, la clásica arquitectura tradicional es la siguiente:

Cliente - Entrada del front-end

Consulta el Google Front End más cercano a través de HTTPS, completa la descifrado TLS, muestreo QoS y enrutamiento geográfico. Si se detecta tráfico anómalo (DDoS, el raspado automático ) puede ser limitado o desafiado en esta capa.

Consulta de comprensión

El frontend necesita entender el significado de las palabras que el usuario escribe, hay tres pasos: corrección ortográfica neuronal, corregir "recpie" a "recipe"; expansión de sinónimos, expandir "how to fix bike" a "repair bicycle". Análisis de intenciones, determinar si la consulta es de información, navegación o intención de transacción, y asignar solicitudes Vertical.

Recuperación de candidatos

La tecnología de consulta utilizada por Google se llama: índice invertido. En un índice directo, simplemente se puede indexar un archivo dado un ID. Sin embargo, los usuarios no pueden conocer el número del contenido que desean entre miles de millones de archivos, por lo que se utiliza un índice invertido muy tradicional, que permite buscar qué archivos tienen las palabras clave correspondientes a través del contenido. A continuación, Google adopta el índice de vectores para procesar la búsqueda semántica, es decir, buscar contenidos que sean semánticamente similares a la consulta. Convierte textos, imágenes y otros contenidos en vectores de alta dimensión (embedding), y realiza búsquedas basadas en la similitud entre estos vectores. Por ejemplo, incluso si un usuario busca "cómo hacer masa de pizza", el motor de búsqueda puede devolver resultados relacionados con "guía de elaboración de masa de pizza", porque son semánticamente similares. Después de pasar por el índice invertido y el índice de vectores, se filtran aproximadamente cien mil páginas web.

Ordenación múltiple

El sistema suele filtrar páginas candidatas de cientos de miles a aproximadamente 1000, a través de miles de características ligeras como BM25, TF-IDF, puntuación de calidad de página, formando un conjunto de candidatos preliminares. Estos sistemas se conocen comúnmente como motores de recomendación. Dependen de una gran cantidad de características generadas por diversas entidades, incluyendo el comportamiento del usuario, las propiedades de la página, la intención de búsqueda y las señales contextuales. Por ejemplo, Google integra la historia del usuario, la retroalimentación del comportamiento de otros usuarios, la semántica de la página, el significado de la consulta, entre otros, y también considera factores contextuales, como el período del día (, el día específico de la semana ) y eventos externos como noticias en tiempo real.

Aprendizaje profundo para la clasificación principal

En la etapa de búsqueda preliminar, Google utiliza tecnologías como RankBrain y Neural Matching para entender la semántica de las consultas y filtrar resultados preliminarmente relevantes de un vasto número de documentos. RankBrain es un sistema de aprendizaje automático que Google introdujo en 2015, diseñado para comprender mejor el significado de las consultas de los usuarios, especialmente aquellas que aparecen por primera vez. Convierte las consultas y documentos en representaciones vectoriales y calcula la similitud entre ellos para encontrar los resultados más relevantes. Por ejemplo, para la consulta "cómo hacer masa de pizza", incluso si no hay palabras clave que coincidan exactamente en el documento, RankBrain puede identificar contenido relacionado con "base de pizza" o "preparación de masa".

Neural Matching es otra tecnología que Google lanzó en 2018, diseñada para comprender más a fondo la relación semántica entre consultas y documentos. Utiliza modelos de redes neuronales para capturar las relaciones difusas entre las palabras, ayudando a Google a emparejar mejor las consultas con el contenido de las páginas web. Por ejemplo, para la consulta "¿por qué el ventilador de mi computadora portátil hace mucho ruido?", Neural Matching puede entender que el usuario podría estar buscando información sobre la solución de problemas relacionados con el sobrecalentamiento, la acumulación de polvo o el alto uso de CPU, incluso si estas palabras no aparecen directamente en la consulta.

Reordenamiento profundo: Aplicación del modelo BERT

Después de realizar una selección preliminar de documentos relevantes, Google utiliza el modelo BERT(Representaciones de Codificadores Bidireccionales de Transformadores) para procesar estos documentos.

AGENT1.52%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
LiquidationWatchervip
· hace3h
Chrome también va a estar condenado
Ver originalesResponder0
MoonRocketmanvip
· 07-28 23:07
El rumbo del mercado ha cambiado.
Ver originalesResponder0
DaoTherapyvip
· 07-28 23:05
La disrupción de la base ya está en camino
Ver originalesResponder0
GateUser-75ee51e7vip
· 07-28 22:59
La competición dimensional ha comenzado
Ver originalesResponder0
NftMetaversePaintervip
· 07-28 22:54
Cambio de paradigma en camino Web3
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)