Python reste le langage le plus utilisé pour la data science, suivi de SQL

Spread the love
Python reste le langage le plus utilisé pour la data science, suivi de SQL

Les professionnels de la data science et du machine learning ont stimulé l’adoption du langage de programmation Python, mais la data science et le machine learning manquent encore d’outils clés dans les entreprises et ont encore de la marge avant de devenir essentiels à la prise de décision, selon Anaconda, le fabricant de la distribution Anaconda Python pour la data science.

Python pourrait bientôt devenir le langage de programmation le plus populaire, se disputant la première place avec JavaScript, Java et C, selon le classement des langages consulté. Mais si l’adoption de Python est en plein essor, les domaines qui en sont à l’origine – la data science et le machine learning – n’en sont qu’à leurs débuts.

La plupart des personnes interrogées (63 %) ont déclaré qu’elles utilisaient fréquemment ou toujours Python, tandis que 71 % des éducateurs ont déclaré qu’ils enseignaient le machine learning et la data science avec Python, qui est devenu populaire en raison de sa facilité d’utilisation et de sa courbe d’apprentissage aisée. Un pourcentage impressionnant de 88 % des étudiants ont déclaré qu’ils apprenaient Python pour se préparer à entrer dans le domaine de la data sciene et du ML.

Compte tenu de l’audience d’Anaconda, il n’est pas surprenant que Python soit de loin le langage le plus utilisé. Il était suivi de SQL, R, JavaScript, HTML/CSS, Java, Bash/Shell, C/C++, C-, Typescript, PHP, Rust, Julia et Go.

publicité

Investissements en baisse

Plus d’un tiers (37 %) des 4 299 professionnels, étudiants et universitaires spécialisés dans la data science qui ont répondu à l’enquête en ligne d’Anaconda entre avril et mai ont déclaré que leur entreprise avait diminué les investissements dans ce domaine, tandis que 26 % les ont augmentés et 24 % ont déclaré qu’ils étaient restés stables. L’impact de la pandémie sur les investissements dans les outils et technologies de data science n’est pas clair.

Pourtant, 39 % des répondants ont déclaré que “beaucoup” de leurs décisions liées au business s’appuient sur la data science, tandis que 35 % ont déclaré que seules certaines de leurs décisions étaient basées sur les informations fournies par leur équipe.

Un quart des personnes interrogées ont déclaré qu’elles ne disposaient pas des ressources nécessaires à une analyse efficace, tandis qu’un autre quart a déclaré que les décideurs de leur organisation avaient du mal à maîtriser les données, et que 11 % ont déclaré qu’eux-mêmes ou leur équipe ne pouvaient pas démontrer l’impact sur l’entreprise.

L’impact des biais dans les données et les modèles

Seuls 36 % ont décrit les décideurs de leur organisation comme étant “très compétents en matière de données” et comprenant réellement la visualisation des données et les modèles. Un peu plus de la moitié (52 %) ont déclaré que les décideurs étaient “plutôt compétents en matière de données”.

Anaconda a demandé aux personnes interrogées de nommer toutes les compétences qui, selon elles, font actuellement défaut à leur organisation. La principale compétence manquante était la “gestion du big data” (38 %), tandis que 26 % ont déclaré que leur organisation manquait de mathématiques avancées et qu’un quart a cité la “connaissance des affaires”.

Les autres compétences fréquemment citées comme manquantes sont le deep learning (27 %), les compétences en communication (22 %), la visualisation des données (22 %), le machine learning (21 %), le langage Python (20 %), ainsi que les probabilités et les statistiques (19 %).

Le principal problème auquel la plupart des spécialistes de la data science estiment qu’il faut s’attaquer dans le domaine de l’intelligence artificielle et du machine learning est “l’impact social des biais dans les données et les modèles” (31 %), suivi de “l’impact sur la vie privée”. Ces deux enjeux ont été mis en évidence par l’adoption de l’IA et de la reconnaissance faciale dans les systèmes de surveillance publique. Le président de Microsoft, Brad Smith, a appelé le gouvernement à réglementer la reconnaissance faciale en raison des biais que cette technologie peut causer.

Parmi les autres préoccupations majeures figurent les pertes d’emplois dues à l’automatisation (19 %), la guerre de l’information avancée (15 %) et le manque de diversité et d’inclusion dans la profession (10 %).

Assurer l’explicabilité des modèles ML

Seuls 10 % des répondants ont déclaré que leur organisation avait mis en œuvre une solution pour garantir l’équité et atténuer les préjugés, mais Anaconda a constaté que 30 % d’entre eux prévoyaient de mettre en œuvre une mesure au cours de l’année prochaine.

L’explicabilité et l’interprétabilité des modèles ML constituent une autre lacune importante. Quelque 31 % des répondants ont déclaré que leur organisation n’avait pas de plan pour assurer l’explicabilité et l’interprétabilité, mais 41 % ont déclaré que des plans étaient en place pour mettre en œuvre certaines mesures dans les 12 prochains mois ou qu’ils avaient déjà pris une mesure.

La plupart des répondants (65%) ont déclaré que leur employeur les encourageait à contribuer à des projets open-source, mais 18% des répondants ont déclaré que le soutien de l’employeur pour l’open-source a diminué en raison de la crise de la Covid-19 ou d’autres facteurs.

Quelque 41 % ont déclaré que les bogues de sécurité dans les logiciels open source étaient le principal obstacle empêchant leur organisation d’utiliser des logiciels open source. Python et un grand nombre de ses paquets/bibliothèques populaires de data science et de machine learning, tels que NumPy et TensorFlow, sont des projets open source.

Il est intéressant de noter qu’un quart des personnes interrogées ont déclaré qu’elles ne sécurisaient pas leur pipeline de logiciels open source, tandis que 20 % ne savaient pas quelles mesures leur organisation prenait pour garantir la gestion des vulnérabilités. Anaconda fournit un service d’entreprise pour aider les organisations à bloquer ou à inclure des paquets qui répondent aux normes de l’entreprise. Il dispose également d’une bibliothèque gérée de 7 500 paquets open-source pour Python.

Source : ZDNet.com

Leave a Reply