#10 Discrepo.
Eso que has descrito, es la realidad en las empresas que no están, o están empezando a trabajar con una cultura orientada a datos. Empresas maduras a nivel de datos, el Data Scientist no hace NADA de lo que has citado. Quizá, si me apuras, programar un poquito de código R/Python (con el que se mueva mejor, yo me decanto por R).
Si no estas en un área de BI puro, vas a programar para normalizar el dato, programar para integrar el dato, y programar para mostrar el dato en de uno a n dashboards. Normalmente los conocimientos de estadística/matemáticas van más en el último paso, y como ya digo, normalmente no es algo muy avanzado, cualquiera puede hacerlo.
En la empresa en la que trabajo, hay un equipo especifico para la extracción de datos, ya sean datos in-house (tracks, push de nuestro back end, apis externas, apis internas, etc), los transforma con etl's dependiendo del source, y nos los deja bien frescos en la BBDD. Hablo del manejo de cerca de 20-30GB de datos nuevos procesados en las BBDD al dia aproximadamente, con tablas de más de 1 billón (americano) de rows. (Sí, hacer un select * from table, literalmente, si no le pones un timeout, o matas la máquina, o matas la ram de tu ordenador)
En el equipo de Data Science, leemos esos datos para hacer los análisis, modelos de predicción, análisis de series temporales, clasificadores, etc...
Si es una empresa digitalizada, como las que he citado antes, Finanzas, Seguros, Banca, Gaming, donde las decisiones se basan en los datos que se generan y procesan, el Data Scientist programa lo justo y necesario. Se le paga por el valor de su trabajo y lo que aporta, no por el picar mas o menos código.
Ahora bien, si me dices que es una empresa de 20-30 trabajadores, la cosa cambia, porque el "Data Scientist", directamente es un One-Man-Army.
Yo te hablo de empresas de 300+ trabajadores, con un equipo/departamento de Datos/Analytics de 30 personas o más.
Que es 'analizando los datos'? Pensar?
Te daré un ejemplo de un dia cualquiera de un Data Scientist/Analyst (aunque este ejemplo, es mas para analyst que scientist, pero en el fondo, uno es el paso previo al otro)
Pongamos que hipotéticamente eres un Data Analyst/Scientist en tu puesto de trabajo, y se te acerca tu manager, product manager, VP of Marketing, o quien sea. Y te dice "Los datos de ingresos de este mes, son más bajos. Que ha pasado?"
Puedes hacer tres cosas:
Opción 1
"Pues que han bajado" -> Easy, te despide xD
Opción 2
Miras los dashboard, miras los datos del mes y ves claramente que hay una tendencia que baja" -> Comentas que ha habido una tendencia a la baja. Obviamente él lo sabe, y con cara de asombro te dirá que lo sabe, y que mires porque.
Opción 3
Ves esos datos, y antes de decirle nada, miras la fuente de los datos (da igual si la has hecho tu u otra persona). Lo primero que miras, es que el proceso (en este caso una query SQL, por ejemplo) funciona correctamente, para asegurarnos que no hay errores. Obviamente, si no hay errores y baja, harás una exploración de datos pasados, compararas periodos temporales, para saber si hay estacionalidad o no. Si la hay, puede ser un factor, pero no puedes quedarte en eso, porque del mismo modo que dices que lo es, yo te digo que no. Y no tienes mas argumentos que defiendan tu postura. Por lo que lo que harás ahora, será mirar que cambios se han hecho en tu producto (aplicación, inversión de marketing, etc...). Si hay errores de versión, en el caso de una app, errores de login, en el caso de un juego, caídas de retención. Errores en la pasarela de compras... etc...
En el fondo, lo que harás será investigar, y buscar métricas que puestas en conjunto todas ellas, te expliquen lo que ha pasado. Sin embargo, si tu solo presentas eso, haces un report. No haces un análisis. Un análisis, requiere de un pensamiento critico, hypothesis testing, o lo que viene siendo el plantear una serie de hipótesis y validarlas o refutarlas. Cuando mediante esto, has conseguido entender lo que ha pasado realmente, tu tienes los datos. Y las queries. Pero tienes que transformar el análisis técnico, datos, en información accionable, de tal manera que alguien que NO sepa NADA de código, estadística o matemáticas, entienda a la perfección que ha pasado, y mediante las recomendaciones que le has dado, tome una decisión. Una presentación, suele ser lo ideal. Y allí prepárate, porque como decía Hexan antes, te preguntaran cosas que ellos consideran magia, cajas negras, cuando en el fondo, es un trabajo mental y asociativo en base a datos objetivos.
Con esto, te puedes hacer una ligera idea de que es un "análisis". Y como puedes ver, es algo más que simplemente "Pensar" haha
Sobre los tiempos de un análisis o un problema, generalmente (para un buen análisis)
Parte 1 - Definir problema, objetivos, que se pretende contestar o conseguir, y qué hipótesis planteas para llegar a eso. 15%
Parte 2 - Programar para conseguir los datos . 25%
Parte 3 - Analizar los datos obtenidos y validar/refutar hipótesis. 25%
Parte 4 - Estructurar la información accionable, conclusiones, recomendaciones, y next-steps de modo que hasta un niño de 10 años lo comprenda 35%
1, 2 y 3 son iterativos, ya que conforme avanzas, vas descubriendo cosas que amplían o reducen el "scope" del problema, o lo complican, y tienes que tomar decisiones de si quieres acotar el problema, o bien su totalidad (incrementando el tiempo que te llevara hacerlo, y por lo general, los costes)
Welcome to the red pill of the Data Science (embedded en empresa, la versión de consultoría ni idea).
PS. No he detallado nada puramente de la rama pura de DS (machine learning, modelado, clustering, predicción, etc...) ya que da para tochos aun mas grandes xD
Sorry por el tochopost