|
|
|
18 septembre · Numéro #61 · Consulter en ligne
Newsletter Veille Data est une sélection bimensuelle des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez toutes les deux semaines une dizaine de liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée un samedi sur deux.
|
|
Hello les datavores ! C'est moi ou l'on parle un peu moins d'IA “magique” en ce moment ? Que ce soit pour tous nous mettre chômage, pour mener de grandes révolutions industrielles (voiture autonome, robot à tout faire, etc.) ou pour prendre le contrôle à base d'IA forte… Un retour à la réalité ? Ci-dessous ma petite selection hebdo, avec un peu de tout, comme d'habitude. Bonne lecture !
|
|
|
Pandas : 25 fonctions méconnues
🐼Pandas est si vaste qu'il vous permet d'exécuter quasiment toutes les manipulations tabulaires auxquelles vous pouvez penser. Malheureusement, de nombreuses fonctionnalités élégantes qui résolvent des cas peu communs passent à la trappe devant les fonctions les plus fréquemment utilisées. Cet article vise à redécouvrir ces fonctionnalités et à vous montrer que Pandas est bien plus capable que vous ne l'auriez jamais imaginé ! Découvrez ainsi : ExcelWriter, factorize, explode, squeeze, T, mask, idxmax, clip…
|
The Machine & Deep Learning Compendium
🔖 Superbe réalisation d'Ori que ce livre-résumé des grands principes de notre Data Science bien aimée, auquel chacun peut mettre son grain de sel via le GItHub associé. Il comprend environ 500 sujets, qui contiennent divers résumés, liens et articles sur de multiples techniques et applications. Il référence la majorité des algos du domaine : machine learning, statistics, feature selection, and engineering techniques, deep-learning, NLP, audio, deep & classic vision, time-series, anomaly detection, graphs, experiment management…
|
Python : River
🏞️River est un package Python pour l'apprentissage automatique sur des données en streaming. Les modèles traitent une observation à la fois et peuvent être mis à jour à la volée. Il s'agit d'une bibliothèque à usage général qui gère la régression, la classification et l'apprentissage non supervisé. À suivre !
|
Tuto : Suivre vos finances personnelles à l'aide de Python
🤑Petit projet sympa qui permet par la même occasion de découvrir Beancount et Fava ! L'auteur de l'article décrit comment suivre vos finances personnelles à l'aide d'un workflow axé sur la confidentialité des données, 100% auto-hébergé et utilisant uniquement l'écosystème Python.
|
|
GlueSQL, une bibliothèque SQL tout en un
📚GlueSQL est une bibliothèque SQL qui comprend à la fois un parseur, une couche d'exécution et un stockage optionnel. Elle peut être utilisé pour créer des bases de données SQL ou en tant que base de données SQL embarquée à l'aide du moteur de stockage par défaut. Un exemple d'utilisation : Transformez Google Sheets en base de données SQL (utilise Google Sheets comme stockage).
|
Les meilleurs pratiques sur Kubernetes
🥇Ce repo contient un guide très complet sur les bonnes pratiques Kubernetes. Il couvre de nombreux thèmes : la sécurité, l'optimisation des coûts, l'évolutivité, les ressources, l'arrêt… Il vise à faciliter la courbe d'apprentissage et à préparer la conception d'environnements stables, fiables et fonctionnels.
|
Klara : génération automatique de cas de test pour Python et bibliothèque d'analyse statique
🧑🏫 Klara est un outil d'analyse statique pour générer automatiquement des cas de test, basé sur le solveur SMT (z3), avec un puissant système d'inférence de dernier niveau. Klara prend un fichier Python en entrée et génère le fichier de test correspondant au format pytest. De nombreux exemples sont disponibles dans ce repo.
|
|
Pourquoi un Data Scientist ne devrait pas avoir besoin de connaître Kubernetes
🦸Point de vue intéressant qui contraste avec plusieurs partages précédents… On parle de plus en plus de Full Stack Data Scientist ou de MLE, mais cette nouvelle organisation et vision de la chaîne Data ne fait pas l'unanimité et ne correspond pas à tous les cas de figure. Bien qu'il puisse être utile d'avoir des Data Scientists très complets, de meilleurs outils aideraient déjà à s'assurer que le temps des Data Scientists “classiques” est bien utilisé. Dans cet article, Chip Huyen explore l'évolution des attentes des rôles en Data Science, les outils actuels qui leur permettent de gagner en productivité et ce qui manque encore pour aller bien plus loin.
|
Introduction à la démarche bayésienne dans un contexte de Marketing Mix Modeling
🧑🎓Le Marketing Mix Modeling ou MMM est un type d'analyse qui permet d'optimiser la manière dont les investissements marketing sont dépensés sur plusieurs canaux. La régression linéaire est couramment utilisée pour démarrer mais ici, Michael Kaminsky introduit une approche utilisant la chaîne de Markov Monte Carlo (MCMC), qui peut être plus puissante et flexible que la régression linéaire. Article un peu niche mais de nombreuses entreprises françaises s'intéressent de plus en plus à ces sujets de MMM.
|
|
😹
|
Avez-vous aimé ce numéro ?
|
|
|
|
Pour vous désabonner, cliquez ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|
|
|
|