La digitalización masiva de libros, unida a técnicas cada vez más complejas de análisis de datos, permite realizar estudios de todo tipo, como por ejemplo la densidad de vocabulario de un texto.
El investigador Zack Booth Simpson realizó en el año 2000 un estudio, basándose en manuales digitalizados por el Proyecto Gutenberg: en cada libro contó el número total de palabras y la cantidad de palabras diferentes, es decir, el ‘tamaño’ de su vocabulario. Por supuesto, los textos más voluminosos contenían mayor número de palabras, pero ¿mayor variedad de ellas? La medida relevante de la riqueza del vocabulario es su densidad, es decir, el cociente del número de palabras diferentes entre el número total de ellas.
¿Y cuál resultó ser el libro más rico en vocabulario? Moby Dick de Herman Melville: con 17.227 palabras diferentes para un total de 211.763 –el cociente es 0,0813–; esto significa que Melville introduce una nueva palabra ¡en casi todas las líneas!
Este gráfico –extraído y adaptado del blog ‘Science Étonnante’– resume algunos datos del estudio de Zack Booth Simpson:
El libro menos rico en vocabulario es La Biblia: 12.867 palabras diferentes para 790.126 totales –el cociente es 0,0163–: posee una densidad cinco veces menor que Moby Dick.
Más recientemente, el lingüista Matthew Jockers ha estudiado una base de datos de 3.600 libros digitalizados, para los que ha calculado cerca de 500 características diferentes basadas en el vocabulario, la puntuación, los temas tratados, etc. Todas estas propiedades definen coordenadas para cada libro, y es posible calcular ‘la distancia’ entre dos libros en este espacio de dimensión tan grande.
La anterior imagen muestra una representación de cómo funciona esta distancia entre libros: si dos puntos están cerca, los libros que representan se parecen en muchos de los aspectos estudiados. En el pequeño grupo destacado en la esquina superior izquierda se sitúa Moby Dick y los pocos libros que le son próximos.
Pues me ha sorprendido este estudio. Voy a tener que darle otra lectura a este libro para volver a empaparme de sus descripciones minuciosas. Curioso también el dato de la Biblia.