Como me has preguntado por MP lo pongo aquí también que me parece interesante por si alguien busca algo sobre Nutch y sale esta página..
Toda la información de Nutch la tienes en la web de Nutch, en el apartado Documentación.
http://lucene.apache.org/nutch/index.html
Tienes una BREVE descripción en la wikipedia:
http://es.wikipedia.org/wiki/Nutch
Tienes en la pagina principal de Nutch (Welcome to Nutch) una wiki:
http://wiki.apache.org/nutch/
Un FAQ que suele ser interesante leerlo:
http://wiki.apache.org/nutch/FAQ
Nutch no deja de ser un motor de busqueda de software libre, utiliza Lucene (recuperador de información) que también es software libre.
El trabajo en si es muy interesante realizarlo por uno mismo para enterarse bien de como funcionan estas cosas, google funciona de una forma muy parecida, básicamente todos los buscadores, los pasos importantes y por los que google se ha llevado al mercado es por realizar un ranking decente y hacerlo en un tiempo record.
La principal orientación que te puedo dar ( ya que no soy ningun guru ), es que :
Nutch es un motor de busqueda
· Utiliza arañas (Crawlers) para obtener información
· Utiliza Lucene para a partir de esos Documentos (texto html) con campos de texto (Documents y fields para Lucene) extraiga la información IMPORTANTE. (Es lo que hace Lucene).
· Utiliza unos metodos de Indexación / Cacheado ( se lo guarda vamos), para poder acceder a ello rapidamente y además tener la información relevante.
· Posteriormente genera el Ranking
Existen muchos metodos / formas, y aqui es donde esta la miga , al ser software libre (nutch) el metodo es conocido y por lo tanto no está sesgado a determinadas empresas que paguen a un buscador privado ( google ) para que salgan los primeros. Si te fijas en google si pagas sales por delante del primer resultado cuando tiene algo que ver, aunque luego salga en la página 8 del ranking normal.
Aqui te digo presentaciones que han hecho en clase que me parecen interesantes para tu trabajo
JADE - Agentes, agentes moviles
Persitencia de objetos : JPA con sus implementaciones ( hibernate, toplink, openlink, etc..)
Bases de Datos: Espaciales, Moviles, Distribuidas, Orientadas a objetos, Deductivas, etc..
Sistemas de interpretación del lenguaje natural ( Dypar )
Otros temas:
Lo que esta muy de moda ahora del Cloud, es algo así como que tu utilizas algo, sin saber donde esta, ya sea almacenamiento, procesamiento, etc.. y que se adapta a lo que necesitas. ( Pagando claro)
La web 3.0 y todo el aspecto de la semantica, aqui es un meter mierda a todo y aciertas, lo unico que hay es todo de investigación y hacer un trabajo de esto puede llevar a confusiones.