|
|
5 juin · Numéro #52 · Consulter en ligne
Newsletter Veille Data est une sélection bimensuelle des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez toutes les deux semaines une dizaine de liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée un samedi sur deux.
|
|
Hello les datavores ! Le temps file et nous voici déjà en juin ! Cette semaine, vous découvrirez entre autres : un MOOC des créateurs de scikit-learn à ne pas manquer, un nouvel outil pour faire du Machine Learning sur Redshift et des articles intéressants sur le rôle d'un Chief Data Officer en 2021 et sur la stratégie de PyTorch qui rattrape son retard sur Tensorflow dans des contextes d'industrialisation. See you next week!
|
|
|
Amazon Redshift ML est désormais disponible
💡 Amazon a dévoilé RedShift ML, une plateforme qui permet la création de modèles de ML directement dans un cluster RedShift. Il est désormais ultra simple d'utiliser SQL pour créer des modèles de Machine Learning et faire des prédictions à partir de données variées.
|
AgentPy : Modélisation à base d'agents en Python
🐍 AgentPy est une bibliothèque open source pour le développement et l'analyse de modèles basés sur des agents en Python. Le framework intègre la conception de modèles, des simulations interactives, des expériences numériques et de l'analyse de données à l'intérieur d'un unique environnement, et est optimisé pour le calcul interactif de type notebooks avec IPython et Jupyter.
|
Itérer sur les lignes DataFrame pandas
⏭️ Comment itérer sur les lignes d'un DataFrame pandas est l'une des questions les plus votées avec la balise pandas sur Stack Overflow et la réponse est le bloc de code le plus copié de l'ensemble du site ! C'est assez dingue et de toute évidence, de nombreuses personnes souhaitent parcourir les lignes d'un DataFrame. Mais doit-on le faire ou existe-t-il de meilleures options ?
|
Un meilleur JSON dans Postgres avec
PostgreSQL 14
🐘 PostgreSQL 14 introduit des changements qui facilitent plus que jamais l'utilisation de JSONB. JSONB compresse les données et ne préserve pas les espaces, contrairement à JSON. Il est également livré avec une meilleure capacité d'indexation. Des exemples de ces nouvelles fonctionnalités sont disponibles dans l'article.
|
Un MOOC scikit-learn par ses créateurs !
🇫🇷 C'est français et c'est un des plus grands succès de l'écosystème Machine Learning : scikit-learn est aujourd'hui le troisième outil libre le plus utilisé au monde dans le domaine ! Du 18 mai au 14 juillet, ses créateurs et développeurs proposent leur propre MOOC, entièrement gratuit, pour apprendre à construire des modèles prédictifs et pour bien saisir les avantages et limites du machine learning. Il y a des MOOCs bien plus poussés mais c'est une initiative à saluer et à partager si vous avez des amis qui souhaitent démarrer dans cet univers.
|
|
Un MOOC pour bien se préparer à trouver un job en ML
💼 Superbe contenu qui sort un peu de l'ordinaire car l'auteur axe sa petite formation (100% gratuite avec rien à vendre derrière) sur la vraie valeur qu'un Data Scientist peut apporter en entreprise et ce qu'il doit montrer en entretien (pour la grande majorité des rôles). Il insiste ici sur le mindset, l'approche métier / projet et d'autres sujets connexes plutôt que sur les tous derniers algos de Deep Learning.
|
Détection de fraude : des graphes relationnels pour détecter des collusions
🚕 Uber a publié un article de blog détaillé sur son utilisation des méthodes d'apprentissage des graphes relationnels pour détecter les utilisateurs qui commettent des fraudes sur la plateforme.
|
Un modèle de Machine Learning pour monitorer et évaluer un autre modèle de Machine Learning ?
👀 Peut-on entraîner un modèle de Machine Learning pour prédire les erreurs d'un modèle principal ? Cela semble raisonnable car, un modèle de Machine Learning faisant des erreurs, il suffirait de prendre ces erreurs et de former un autre modèle pour prédire les faux pas du premier. Les auteures explorent cette idée et en tirent la conclusion que ce n'est peut-être pas la meilleure des options. Très intéressant !
|
Un concurrent chinois à OpenAI
🇨🇳 Un lab chinois défie Google et OpenAI avec un modèle de 1,75 billion de paramètres ! Le modèle est entraîné sur des superordinateurs chinois et possède donc 10 fois plus de paramètres que GPT-3. Son petit nom à retenir en attendant d'en savoir plus est Wudao. Les chercheurs du lab ont mis sur GitHub un nouveau système de Deep Learning appelé FastMoE qu'ils utilisent (entre autres) pour parvenir à ces résultats.
|
|
🤑👇 🤑
|
Les revenus de Nvidia explosent grâce à l'IA
🤖 La croissance des revenus de Nvidia a été tout simplement folle au cours des dernières années. Le marché à la croissance la plus rapide est leur activité de centre de données servant tous les workloads de Machine Learning.
|
Sortie de PyTorch Enterprise sur Microsoft Azure
🔥 PyTorch et TensorFlow sont de loin les deux frameworks les plus dominants pour la R&D en Deep Learning. Alors que les chercheurs adorent le modèle de programmation flexible de PyTorch, TensorFlow domine encore les déploiements dans le monde réel. C'est principalement dû aux fonctionnalités tournées vers les entreprises construites par TensorFlow au fil des années et au soutien massif de Google. PyTorch avait un gros retard là-dessus qu'il commence à bien rattraper ! En effet, cette semaine, un grand pas dans cette direction a été fait avec l'annonce du programme PyTorch Enterprise Support via un partenariat entre Microsoft et Facebook. Dans le cadre de ce programme, Microsoft a annoncé la sortie de PyTorch Enterprise sur Microsoft Azure, qui offre la fonctionnalité de niveau entreprise aux utilisateurs de PyTorch en mettant en avant les capacités de vente, d'assistance et d'infrastructure du géant de Redmond. TensorFlow voit ainsi son principal concurrent se rapprocher à vitesse grand V !
|
Le quotidien d'un Chief Data Officer moderne
👨💼Ce court article offre un aperçu de l'univers des Chief Data Officers et de la façon dont ils ne sont souvent pas bien préparés pour réussir au sein de leurs organisations.
|
|
💼 😸 💼
|
Avez-vous aimé ce numéro ?
|
|
|
|
Pour vous désabonner, cliquez ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|