Cómo Google BERT vs. Los algoritmos de Smith funcionan juntos: descripción general de Semalt




Google ha publicado recientemente un artículo de investigación sobre su nuevo algoritmo de PNL SMITH. Este documento iluminó a muchos profesionales de SEO sobre los cambios que justificarían aumentos o caídas en el ranking SERP. Sin embargo, nuestra preocupación aquí es ¿cómo se compara este nuevo algoritmo SMITH con BERT?

En el documento publicado por Google, afirmaron que SMITH supera a BERT en la comprensión de consultas de búsqueda largas y documentos largos. Lo que hace que SMITH sea tan interesante es que puede entender pasajes dentro de un documento similar a lo que hace BERT con palabras y oraciones. Esta característica mejorada de SMITH le permite comprender documentos más largos con facilidad.

Pero antes de continuar, debemos informarle que a partir de este momento, SMITH no está disponible en los algoritmos de Google. Pero si nuestras especulaciones son correctas, se lanzará junto con la indexación de pasajes, o lo precederá. Si realmente está interesado en aprender cómo clasificar en SEP, el aprendizaje automático inevitablemente iría lado a lado con este interés.

Entonces, volviendo al tema, ¿BERT está a punto de ser reemplazado? ¿No funcionarán mejor la mayoría de los documentos en la web que son amplios, sólidos y, por lo tanto, durante más tiempo con SMITH?

Vayamos más lejos y veamos qué hemos concluido. SMITH puede realizar tanto el trabajo de leer documentos robustos como delgados. Piense en ello como una bazuca. Puede causar grandes daños ya que también puede abrir puertas.

Para empezar, ¿por qué BERT o SMITH?

La verdadera pregunta aquí es por qué un motor de búsqueda requerirá el procesamiento de aprendizaje natural para proporcionar resultados de búsqueda. La respuesta es simple. Los motores de búsqueda requieren PNL en su transición desde que los motores de búsqueda comprenden cadenas o palabras clave a cosas o páginas web.

Donde Google no tiene una idea, qué más puede haber en la página además de las palabras clave o si el contenido que se indexa tiene sentido en relación con la consulta de búsqueda. Gracias a la PNL, Google puede comprender el contexto de los caracteres escritos en su consulta de búsqueda.
Gracias a la PNL, Google puede distinguir las intenciones de un usuario cuando dice "ribera" y "cuenta bancaria". También puede entender declaraciones como "Caroline se reunió con sus amigos para tomar una copa, tomar una cerveza, una cerveza, una cerveza ..." como antinaturales.

Como expertos en SEO, debemos decir que la comprensión de las consultas de búsqueda ha recorrido un largo camino. Best cree que fue excesivamente difícil encontrar los artículos adecuados en Internet en el pasado.

Entendiendo BERT

BERT funciona actualmente como el mejor modelo de PNL que tenemos para muchas, si no la mayoría, de las aplicaciones, especialmente cuando se trata de comprender estructuras de lenguaje complejas. Muchos consideran el primer carácter bidireccional como el mayor avance en este algoritmo. En lugar de tener un algoritmo que lee de izquierda a derecha, BERT también puede comprender las palabras en relación con su contexto. De esta manera, no daría resultados para las palabras individuales incluidas en la consulta, sino que indexaría las páginas web en función del significado colectivo de las palabras en la consulta de búsqueda.

Aquí hay un ejemplo para facilitar su comprensión:

UN CAMIÓN TIENE LUZ.

Si interpretara esa afirmación de izquierda a derecha, al llegar a la palabra "luz", clasificaría el camión como algo con luz. Eso es porque el camión llegó antes del semáforo en el comunicado.

Pero si queremos clasificar las cosas en camiones, podemos dejar de lado "luz" porque no lo encontramos antes de "camión".

Es difícil considerar la declaración en una sola dirección.

Además, BERT también tiene otro beneficio secreto de ser tan notable y permite el procesamiento del lenguaje de manera efectiva con un menor costo de recursos en comparación con los modelos anteriores. De hecho, ese es un factor importante a considerar cuando uno quiere aplicarlo a toda la web.

La aplicación de tokens es otra evolución más que ha acompañado a BERT. Hay 30,000 tokens en BERT, y cada uno de ellos representa una palabra común con un par de tokens adicionales para caracteres y fragmentos en caso de que exista una palabra fuera de los 30,000.

A través de su capacidad para procesar tokens y transformadores, BERT entendió el contenido, lo que también le dio la capacidad de comprender las oraciones de manera adecuada.

Entonces, si decimos, "la señorita fue a la orilla. Más tarde se sentó en la orilla del río y miró cómo fluía el río".

BERT asignará valores diferentes a esas oraciones porque se refieren a dos cosas diferentes.

Entendiendo a SMITH

Luego viene SMITH, un algoritmo con mejores recursos y números para procesar documentos más grandes. BERT usa alrededor de 256 tokens por documento, y cuando supera este umbral, el costo de computación se vuelve demasiado alto para una función óptima. Por el contrario, SMITH puede manejar hasta 2248 tokens por documento. Eso es aproximadamente 8 veces la cantidad de tokens que usa BERT.

Para comprender por qué aumentan los costos de computación en un solo modelo de PNL, primero debemos considerar lo que se necesita para comprender una oración y un párrafo. Cuando se trata de una oración, solo hay que comprender un concepto general. Hay menos palabras relacionadas entre sí, por lo tanto, hay menos conexiones entre las palabras y las ideas que guardan en la memoria.

Al convertir oraciones en párrafos, la conexión entre estas palabras se multiplica enormemente. Procesos 8X el texto requerirán muchas más veces en velocidad y capacidad de optimización de memoria usando el mismo modelo. Aquí es donde SMITH hace toda la diferencia básicamente al procesar por lotes y realizar una gran cantidad de procesamiento fuera de línea. Curiosamente, SMITH todavía depende de BERT para funcionar correctamente.

Aquí hay una descripción de cómo SMITH toma un documento en su núcleo:
  1. Primero divide el documento en tamaños de agrupación que son más fáciles de administrar.
  2. Luego procesa cada bloque de oraciones individualmente.
  3. Luego, un transformador aprende una representación contextual de cada bloque, después de lo cual los convierte en una representación de documento.

¿Cómo funciona SMITH?

Para entrenar el modelo SMITH, aprendemos de BERT de dos maneras:

Para entrenar BERT, se saca una palabra de una oración y se le proporcionarán opciones alternativas

El BERT, que está mejor capacitado, es el que tendrá más éxito en elegir la opción correcta entre las alternativas proporcionadas. Por ejemplo, si BERT recibe la oración:

El feliz marrón ------ saltó la valla de estacas.
  • Opción uno: tomates.
  • Opción dos: perro.
Cuanto mejor capacitado esté el BERT, mayores serán sus posibilidades de elegir la opción correcta, que es la opción dos.

Este método de entrenamiento también se aplica en SMITH.

SMITH está capacitado para documentos grandes

Cuanto mejor entrenado esté SMITH, mayores serán sus posibilidades de reconocer oraciones omitidas. Es la misma idea con BERT pero con una aplicación diferente. Esta parte es particularmente interesante porque pinta un mundo con contenidos generados por Google reunidos en páginas de resultados de motores de búsqueda amuralladas. Por supuesto, los usuarios pueden irse, pero no lo harán porque Google puede juntar contenido de formato corto y largo de todas las mejores fuentes en su página de resultados.

Si tiene dudas de que esto suceda, debe saber que ya ha comenzado y, aunque aún no lo han dominado, es un comienzo.

¿Es SMITH mejor que BERT?

Con todo lo que ha leído, es completamente natural suponer que SMITH es mejor y, en muchas tareas, realmente es mejor. Pero considere cómo usa Internet por un momento; ¿Qué preguntas ingresa regularmente en las consultas de búsqueda?
  • "¿Cuál es el pronóstico del tiempo para hoy?"
  • "Cómo llegar a un restaurante".
Responder a estas consultas de búsqueda generalmente requiere contenido breve, a menudo con datos limitados y sencillos. SMITH está más involucrado en la comprensión de documentos más largos y complejos y consultas de búsqueda largas y complejas.

Esto incluirá juntar varios documentos y temas para crear sus respuestas. Determina cómo se puede desglosar el contenido, lo que permite a Google saber qué es lo correcto para mostrar. Ayudará a Google a comprender cómo se relacionan las páginas de contenido entre sí y proporciona una escala en la que los enlaces pueden valorarse, entre otros beneficios.

Dicho esto, concluimos diciendo que tanto BERT como SMITH son importantes, y ambos cumplen su propósito único.

Conclusión

Si bien SMITH es la bazuca, la necesitamos para pintar una imagen clara de cómo son las cosas colectivamente. En recursos, cuesta más porque hace un trabajo más grande, pero cuesta mucho menos que BERT cuando se hace el mismo trabajo.

BERT ayuda a SMITH a comprender mejor las consultas breves y los pequeños fragmentos de contenido. Esto es, sin embargo, hasta que Google desarrolle otro algoritmo de PNL que reemplace a ambos, y luego nos moveremos y nos pondremos al día con otro avance en SEO.

Interesado en SEO? Consulte nuestros otros artículos sobre el Blog de Semalt.