La fórmula detrás del buscador de Google, el secreto mejor guardado de la compañía

Infobae entrevistó a Pandu Nayak, integrante del equipo que trabaja en la calidad del algoritmo. ¿Cómo se filtra la información en la web?

Compartir
Compartir articulo
Así se veía el logo original del buscador
Así se veía el logo original del buscador

(Mountain View, enviada especial) ¿Qué determina la importancia de una página para Google? ¿Por qué algunos sitios llegan al primer puesto y otros quedan más relegados? Son varias las cuestiones que entran en juego, y si bien se conoce algo sobre el funcionamiento de los algoritmos detrás del buscador, hay gran parte que permanece en secreto.

El sistema PageRank, que se publicó en 1998, comprende varios criterios que le permiten al buscador asignar importancia o relevancia de una página. Con el tiempo se implementaron algunos cambios que fueron modificando la forma en que funciona la fórmula mágica detrás del buscador.

Infobae entrevistó a Pandu Nayak, integrante del equipo de Calidad del Buscador de Google, en las oficinas centrales de la empresa en Mountain View, para hablar del gran tesoro escondido detrás de este sistema que organiza la información en la web.

Pandu Nayak es parte del equipo de Calidad del buscador de Google
Pandu Nayak es parte del equipo de Calidad del buscador de Google

—¿Cómo fue el recorrido del buscador y la empresa en estos 20 años?

—En estos 20 años muchas cosas cambiaron y otras se mantuvieron. Lo que no cambió, y que es la base de lo que es Google, es la misión esencial del buscador: organizar la información del mundo y hacerla accesible y útil . Esa misión es lo que nos guía cada día, el tipo de información y lo que significa organizarla cambió, pero la misión esencial no se modificó. El segundo punto que no cambió, que es central en todo lo que hacemos y que es algo que Sergey y Larry mencionaron desde el comienzo es el foco en el usuario.

—¿Pero se han hecho cambios?

—En el buscador hacemos miles de cambios cada año y lo mejoramos constantemente, pero el motivo detrás de cada cambio es lograr que el buscador sea mejor para el usuario. Eso significa que no hay otros factores que guían los cambios que hacemos en el buscador. No hay un monitoreo directo, el servicio de Ads (publicidad) no es parte de ese proceso, no se pueden comprar los resultados del buscador, nada de eso ocurre. Claro que somos una compañía y queremos hacer dinero y esa es la tarea del equipo de publicidad pero hay una pared entre el equipo del buscador y el de publicidad; y cuando hacemos cambios en el buscador no sabemos qué está haciendo el equipo de publicidad. Nuestro foco está en generar un buen impacto en el usuario.

Google cumplió 20 años
Google cumplió 20 años

—¿Qué cambió entonces en el buscador?

—Cuando empezamos la web era pequeña, había millones de páginas pero era pequeña. Estaba el buscador Yahoo!, antes que Google y la web era tan pequeña que solo era un directorio. No se podía navegar ni ir a los sitios, era pequeña. En los inicios se construyó un índice que se mantenía fijo todo el mes o sea que si se creaban páginas en ese mes no aparecían en ese índice hasta el mes siguiente. La web se ha vuelto más grande, con trillones de páginas, y el índice se ha creado, pero no tenemos toda la web, tenemos una gran parte. El índice es miles de millones de páginas más. El tamaño ha crecido muchísimo, pero el índice se actualiza con más frecuencia. Entre que una página o sitio se crea y aparece en nuestro índice pasan apenas segundos. Podemos darles a nuestros usuarios el contenido más nuevo. Todo esto requiere grandes avances en la infraestructura.Otro gran cambio es de tecnología, la comprensión del texto. Al final del día, el buscador tiene que ver con entender el lenguaje. El lenguaje de las preguntas, de los documentos. La comprensión de texto está en el centro del asunto.

—¿Cómo es eso?

—Al comienzo, el entendimiento de la lengua era bastante directo, simple. La corrección de la escritura de palabras fue una de las grandes innovaciones. A lo largo de los años nos ocupamos en entender sinónimos, comprender palabras en contexto. Construimos la tecnología alrededor de sinónimos, para decenas de idiomas en todo el mundo. Durante los años hubo muchos otros avances, sobre todo de la mano de machine learning y deep learning, que son tecnologías que prometen más avances en la comprensión del lenguaje. El tercer tipo de cambio fue el tipo de contenido. Antes el buscador era sobre links en la web y sobre los años hemos agregado cada vez más contenido como las imágenes, videos, búsquedas locales, innovaciones para modelar no solo palabras sino personas, lugares. Todas estas innovaciones han derivado a una gran variedad de diferentes tipos de contenidos disponibles en el buscador. Y luego están todos los idiomas.

—¿Cómo cambió el Proyecto Búho (Owl Project) el algoritmo de búsqueda?

—Se viene realizando hace poco menos de un año y medio. Nos alertaron que para algunas preguntas estábamos mostrando algunos resultados desafortunados. Se nos indicó que para la pregunta: ¿existió el Holocausto? se mostraba, arriba de todo, una página que negaba el Holocausto. Y eso claramente no coincide con lo que queremos hacer. Lo que queremos hacer, y esto es un principio que el buscador ha tenido desde el comienzo, y una de las cosas que nunca cambió es dar resultados que relevantes para la consulta del usuario. Google luego hizo un cambio en ese sentido: no solo queremos darte resultados relevantes, sino darte resultados de una fuente fiable, siempre que sea posible. Y para hacer eso introdujeron el algoritmo de PageRank. No siempre es posible conseguir páginas relevantes de fuentes fiables y no siempre es deseable. Si uno tiene un iPhone y quiere repararlo, entonces se va a Google a buscar y alguien en un foro dice "hay que hacer esto y aquello" y uno lo prueba, funciona y puede no preocuparse por saber si la información viene de una fuente autorizada. Pero hay otros casos donde los resultados de fuentes fiables o autorizados es importante: imagina que vas al doctor y dice que tienes diabetes o un problema cardíaco, entonces uno va a Google y hace la búsqueda y ahí no se busca la información de un foro sino de fuentes autorizadas. Hay mucha áreas, como las consultas médicas o dudas financieras, donde la autoridad es muy importante.

Cuando se escribe una consulta en Google, debajo de los primeros resultados destacados aparece la palabra “comentarios” si se presiona allí aparece un formulario para dar feedback sobre el resultado obtenido. Esto es parte de los cambios que llegaron con el Proyecto Búho
Cuando se escribe una consulta en Google, debajo de los primeros resultados destacados aparece la palabra “comentarios” si se presiona allí aparece un formulario para dar feedback sobre el resultado obtenido. Esto es parte de los cambios que llegaron con el Proyecto Búho

—¿La idea es que hay una mezcla de los dos conceptos a la hora de filtrar la información?

—Sí, hay una mezcla entre fuente autorizadas y relevancia. En algunos casos hay que fortalecer el hecho de que se trate una fuente autorizada. Así que volviendo al proyecto Búho descubrimos que no estábamos tratando las consultas sobre noticia como cuestiones de salud o fianzas donde el hecho de que una fuente sea autorizada o fiable es súper importante, y lo que descubrimos es que teníamos que hacer un cambio así que cambiamos para enfatizar la autoridad de la fuente mucho más.

—En el marco del Proyecto Búho los usuarios pueden seguir expresando su opinión sobre los resultados de las búsquedas. ¿Eso funciona?

—Sí, se puede mandar feedback. Hay mecanismos para mencionar si hay hechos que se consideran incorrectos o inadecuado. También se puede dar feedback cuando hay algo bueno, pero nadie lo hace, a la gente le sale mejor quejarse.

—¿Y cuánto mejoró los resultados de búsqueda este sistema de feedback?

—Muchísimo. Igual hay que mencionar que cuando este problema del buscador se nos mencionó, en términos de tráfico fue algo menor: afectó un 10% del tráfico. Pero igual entendimos que no fue un problema menor en lo que se refiere al problema en sí, por eso hubo tanta gente que se focalizó en solucionarlo. Y no creemos que hayamos solucionado todos nuestros problemas, porque la escala de preguntas aumentó muchísimo: recibimos miles de millones de consultas todos los días. Y lo increíble es que el 15% de ellas son consulta que no habíamos visto antes. Entonces hay tanta información nueva todo el tiempo que no se puede decir que se han resuelto todos los problemas, de hecho no lo hicimos, pero hicimos un gran progreso en mantenernos firmes a nuestros valores centrales.

—¿Cuales son los principios más importantes que se tienen en cuenta para el funcionamiento del buscador?

—Tenemos principios guía para evaluar los cambios que se van a hacer al algoritmo. Así que cada vez que queremos hacer un cambio tenemos que verificar que sea un buen cambio, y para eso hacemos un experimento con los calificadores donde se pone una pregunta, y en un lado ponemos el experimento y en el otro lo que esté en producción sin decirles cuál es cuál y les preguntamos cuál es el mejor resultado siguiendo estas guías de evaluación donde se tiene en cuenta si un resultado es relevante y de una fuente autorizada. Entonces siguiendo esa guía, de más de 160 páginas, los calificadores aprenden a ver qué criterios se tienen en cuenta para considerar si una fuente es autorizada, y cómo calificarlas. Las nociones para considerar si una fuente es autorizada es si la página trata de engañar al usuario o no, si es creíble, si tiene experiencia en tal o cual tema, etc. Hay varios criterios que deben ser interpretados por los calificadores para que decidan si un contenido es relevante y viene una fuente fiable. Son 10 mil calificadores y están en todo el mundo. Queremos que estén en todo el mundo porque queremos que también tengan en cuenta el aspecto cultural del lugar donde viven, porque en cada región o país se tienen diferentes visiones o consideraciones y queremos que eso se refleje, queremos que los calificadores reflejen a los usuarios. Los calificadores evalúan el algoritmo pero no manipulan directamente lo que aparece en el buscador.

—¿Cómo funciona el algoritmo en sí? ¿Quiénes conocen ese secreto?

—Hay gente de nuestro equipo, del buscador, que están más familiarizados con cómo funciona el algoritmo, pero fuera del equipo que trabaja en el buscador, ese dato no se comparte.

Larry Page y Sergey Brin, creadores de Google
Larry Page y Sergey Brin, creadores de Google

—¿Y por qué no se comparte esa información?

—Hay varias razones. Una de ellas es que es un secreto comercial para la compañía, pero para mí es la razón menos importante. Desde mi punto de vista, quizás la compañía piense distinto, es que mucha gente tiene muchos motivos para querer figurar primero en el buscador. Desde que se sabe que el buscador es una herramienta muy útil para que la gente encuentre información, mucha gente ha querido alterar los resultados, el índice, para poder tener un lugar más destacado. Si les dejamos hacer eso, entonces vamos a hacer que el buscador no sea útil. Si no combatimos el spam entonces el buscado no tendría sentido. La gente que quiere llenarlo de spam no quiere crear páginas con contenido relevante y fiable, quieren atacar el algoritmo, quieren saber cómo funciona. Uno de los aspectos que usamos, y se sabe, es tener en cuenta el título de la página, y las palabras que aparecen en el cuerpo. El que sabe esto va a escribir la misma palabra del título como por ejemplo "hipoteca", en todo el cuerpo del texto, y tenemos que evitar eso. Google dijo que usaba los links que referencian páginas entre sí, entonces hay una industria de gente que quiere ganarle al sistema creando links artificiales, comprando o intercambiando links entre ellos, generan granjas de links y ponen links en los blogs. Son todos juegos, entonces la señal del link, que antes era muy confiable ahora ya no lo es. Porque originariamente la idea era que si el link de una página estaba en varios sitios eso era un indicio de que la página era confiable, pero ahora se pueden hacer estas técnicas para que una página parezca buena cuando no lo es. Entonce estos son los riesgos que se corren. Cuanto más abierto sea el algoritmo, mayores son los riesgos que se corren. El algoritmo puede ser atacado no solo por intereses comerciales sino por otros intereses para manipular elecciones, por ejemplo. Entonces tenemos que ser muy cuidadosos.

MÁS SOBRE ESTE TEMA: