Bienvenidos a la primera competición de machine learning que organizamos en esta, nuestra comunidad. En esta primera entrega haremos uso del censo de ardillas de Central Park en NYC, pero una nube de neutrinos ha alterado nuestro disco duro y algunos colores del pelaje de las ardillas son una incógnita. Es posible predecir estos valores desconocidos a través de los datos completos con los que contamos?
Fecha limite de entrega es el viernes 6 de mayo
Link a la competición
Link al hilo general de Machine Learning
https://www.mediavida.com/foro/dev/comunidad-machine-learning-deep-learning-685637
Reglas de la competición
La competición está hosteada en Kaggle puesto que tienen un sistema para organizar competiciones, yo he dado el csv con las respuestas correctas y cuando entregueis vuestras respuestas os dará vuestra nota. A partir de ahi podreis ver vuestra posición en el ranking con otros participantes y saber qué puntuación batir para intentar mejorar vuestra precisión en sucesivos intentos.
Podéis entregar las respuestas en formato csv obtenido de la manera que querais, tanto con python, como con R como si lo rellenais a mano, pero Kaggle tiene su propia plataforma para subir vuestro código y que podamos ver el procedimiento de cada uno. No es necesario enseñar el código de esta manera pero si recomendable, teniendo en cuenta que estamos aqui para aprender cosas. Para hacer vuestro código en Kaggle id a la pestaña de Code desde el link a la competición y empezar un New Notebook
Todo método de predicción es válido; Deep learning, decision trees, SVMs... Puedes probarlos todos tambien!
La información de los datasets es información pública que está disponible a falta de una búsqueda en google. He intentado camuflarlo un poco pero con un poco de ingeniería inversa es posible hacer trampas y sacar la solución 100% correcta. Las soluciones con precisión de 100% serán desechadas puesto que no importa lo bueno que sea tu modelo, nunca debería tener una precisión perfecta.
Evaluación de las respuestas
Las respuestas se evaluarán en fracción de la precisión categórica. I.e. predecir todas las respuestas correctas será puntuado con un 1.00000, todas las respuestas incorrectas con un 0.00000. La respuesta de ejemplo que asume que todas las ardillas tienen pelaje negro obtiene una precisión de 0.03703
Los valores válidos de pelaje son
Black
,
Gray
y
Cinnamon
Se podran entregar hasta 5 respuestas por dia durante 2 semanas
Archivos
- train.csv - el dataset de entrenamiento
- test.csv - el dataset de test
- sample_submission.csv - un ejemplo de una respuesta con el formato adecuado
Columnas
- ID: Identificador único
- X: Coordenada este-oeste
- Y: Coordenada norte-sur
- Hectare: Hectárea del parque
- Shift: Turno del grupo de avistamiento
- Date: Fecha
- Hectare Squirrel Number: Número de ardilla avistada en la hectárea
- Age: Adulta o cría
- Location: Lugar
- Above Ground Sighter Measurement: Pies de altura en caso de estar en un punto elevado
- Specific Location: Localización específica
Valores binarios de actividad: - Running:
- Chasing:
- Climbing:
- Eating:
- Foraging:
- Other Activities:
- Kuks
- Quaas
- Moans
- Tail flags:
- Tail twitches:
- Approaches:
- Indifferent:
- Runs from:
- Other Interactions:
- Fur Color: Target de prediciión. Color principal del pelaje
Buena suerte!