Modelo LSA (Latent Semantic Analysis)

El Análisis Semántico Latente (LSA) es una teoría y un método para extraer y representar el significado del contexto de uso de las palabras a partir de cómputos estadísticos aplicados a un corpus grande de textos. Como HAL, el LSA es un modelo espacial de alta dimensión de representación del significado. La idea subyacente es que si se dispone de la totalidad de la información sobre todos los contextos en los que una palabra aparece y no aparece, esta información proporciona un sistema de restricciones mutuas que determina en gran medida la semejanza entre los significados de las palabras y de las oraciones.

Los conceptos en el LSA son representados por vectores en un espacio de aproximadamente 300 dimensiones. Las semejanzas entre los significados de los conceptos son representadas por cosenos de ángulos entre vectores. El LSA se diferencia de otros abordajes estadísticos en dos sentidos significativos. Primero, las aplicaciones del análisis LSA usan como datos de entrada no sólo las co-ocurrencias de palabras, sino los patrones detallados de ocurrencias de palabras en una cantidad muy grande de contextos, tales como oraciones o párrafos, tratados como conjuntos unitarios. En segundo lugar, el método del LSA, si bien postula la opción necesaria de dimensionalidad en la cual todas las relaciones locales de palabra-contexto se representan conjuntamente, asume que es posible reducir la dimensionalidad de los datos desde el número de contextos iniciales a uno mucho más pequeño de casos.

La entrada al LSA es una matriz en la cual las filas representan tipos de acontecimientos y las columnas representan los contextos en los cuales los tipos de acontecimientos ocurren. En muchas aplicaciones, las filas corresponden a tipos de palabras y las columnas corresponden a muestras de texto (por ejemplo, párrafos) en las cuales las palabras aparecen. Cada celda en la matriz contiene el número de veces que un tipo particular de palabra aparece en un contexto particular.

Los modelos LSA se han aplicado a un variado conjunto de problemas, por ejemplo, se han usado para crear un sistema tutorial inteligente que ayuda a los estudiantes a aprender manteniendo una conversación en lenguaje natural (Jackson & Graesser, 2006). También se han usado en un modelo del conocimiento de palabras después de un entrenamiento. Cada problema consistió en una palabra objetivo tomada del  TOEFL y cuatro opciones de respuesta entre las cuales había que elegir la que fuese más semejante al significado del objetivo. Otra aplicación del modelo simuló la adquisición de vocabulario en niños escolares. El modelo adquirió vocabulario a la misma razón que los escolares de séptimo grado, aproximadamente 10 palabras por día. Un logro importante en este análisis fue que el aprendizaje de vocabulario por vía del LSA se apoya fuertemente en el aprendizaje indirecto. El efecto directo estimado de leer una muestra de texto (por ejemplo, un párrafo) en el conocimiento de las palabras en una muestra se incrementó en aproximadamente 0,05 palabras del vocabulario total, mientras que el efecto indirecto de leer una muestra de texto en las palabras no contenidas en una muestra se incrementó en aproximadamente 0,15 palabras del vocabulario total. Estos hallazgos ayudan a explicar, según Landauer y Dumais (1997), por qué la gente puede tener más conocimiento que el que parece estar presente en la información a la cual se ha expuesto.

Los modelos de semántica computacional se constituyen representando los conceptos como vectores en espacios n-dimensionales. Trabajan sobre grandes volúmenes de bases de información electrónicamente soportadas. No pretenden simular el sistema cognitivo humano.


* Le recomendamos realizar la Segunda evaluación