Si te refieres a como obtener los datos de los pdf, o de los títulos. Osea, cuando haces una búsqueda y él te devuelve los resultados indicando que es un pdf, es muy sencillo.
Como sabrás, google utiliza linux y una caché, y en linux la potencia de los comandos es impresionante tanto, que al php por ejemplo (u cualquier otro sistema de script para web como perl por ejemplo) pueden realizar una ejecución a la shell y ejecutar aplicaciones como "file" que devuelve la información de un fichero, o de "pdftotext" que convierte un archivo pdf a texto y ser devueltos a una variable a través de una simple pipe (o tubería), o un volcado directo a la variable (o guardando el resultado en un simple fichero y luego leyendo el contenido de dicho fichero)
Yo una vez programé algo parecido como lo que hace google, pero no era un buscador basado en un spider, simplemente, en una página se tenian unos archivos en pdf y había un buscador. Simplemente cree una base de datos donde guardaban todo el texto de los pdf, así cuando se realizaran búsquedas simplemente buscaba en la base de datos a que fichero en pdf correspondía (algo parecido hace google).
En php simplemente ejecutaba
shell_exec("pdftotext archivo.pdf archivo.txt");
acto seguido tenía el pdf convertido a texto, que es lo que me interesaba almacenar en la base de datos.
Por cierto, si a pdftotext le pasas la opción --htmlmeta te genera un fichero html:
pdftotext --htmlmeta archivo.pdf archivo.htm
Que curiosamente, muestra el mismo formato que google cuando muestra los pdf en html .
Y para obtener el tipo de pdf, simplemente con ejecutar
file archivo.pdf
te devuelve el tipo:
ejemplo un archivo pdf mio me devuelve "PDF document, version 1.5"
Espero que te haya respondido la duda, aunque de todas formas, la posibilidad que sea así como lo hace google, es una suposición. Quizás tengan otras herramientas con la cual parseen mejor los pdf, o hayan generado alguna librería específica para php que realice la lectura de los pdf, pero vamos, que así seguro que se entiende la idea