Les data scientists passent trop de temps à nettoyer et organiser les données
Bien que recherchés -et difficiles à trouver- les postes de data scientists recrutés parmi les profils les plus avancés passent beaucoup de temps à nettoyer et organiser les données qu’à affiner des algorithmes et faire des analyses. Selon une étude de CrowdFlower, ces profils passent la moitié de leur temps à préparer les données pour l’analyse -c’est le cas pour 60% des répondants.
«Finalement, l’un des collaborateurs que vous avez eu le plus de mal à recruter se retrouve à passer le plus clair de son temps à nettoyer les données, explique Lukas Biewald, co-fondateur et CEO de CrowdFlower. C’est un énorme gâchis pour les entreprises».
Une situation non seulement aberrante, mais dangereuse dans le sens où 83% des répondants constatent de réelles difficultés de recrutement. Les compétences les plus recherchées portent sur SQL, Hadoop, Python, Java, R, Hive, MapReduce, NoSQL, Pig et SAS. Viennent ensuite les connaissances en apprentissage machine, ce que plus de la moitié des répondants à l’enquête ont souligné.