|
|
10 avril · Numéro #46 · Consulter en ligne
Newsletter Veille Data est une sélection bimensuelle des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez toutes les deux semaines une dizaine de liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée un samedi sur deux.
|
|
Hello les datavores ! J'espère que tout va bien pour vous. De mon côté petite crève avec ces différences de température (🥵😰🤧🤒). Rien de méchant mais cela m'a mis en retard dans mon horaire habituel d'envoi, les lèves tôt ont déjà dû prendre leur café ! Trêve de bavardages ! Bonne lecture et à bientôt,
|
|
|
Nouveau dataset pour réduire certains biais de vos projets de Computer Vision
🤔Facebook vient de publier un dataset de 10 téraoctets de données comprenant des vidéos enregistrées par plus de 3000 américains payés pour cela, à qui on a demandé d'auto-déclarer leur âge et leur sexe pour les tags. Facebook a indiqué avoir publié l'ensemble de données dans le cadre de son “engagement continu à améliorer l'équité et la responsabilité des systèmes d'IA”… Drôle de voir ce projet sortir la même semaine que le rapport soulignant que Facebook n'embauche que très peu d'employés noirs parce qu'ils ne correspondent pas au “culture fit” de la structure (tout en répondant à toutes les qualifications)…
|
Guide complet du Transfer Learning (Keras)
↔️ Très bonne ressource si vous souhaitez vous mettre au Transfer Learning, cette technique relativement nouvelle qui fonctionne dans les tâches de classification d'images et de traitement du langage naturel. Dans cet article, l'auteur nous plonge dans :
- ce qu'est l'apprentissage par transfert,
- son implémentation (via Keras),
- des exemples de transfer learning pour la classification d'images,
- des exemples de transfer learning pour du NLP.
|
R : Package pour vos données date-time
⌚Clock est un nouveau package R qui fournit un ensemble complet d'outils pour travailler avec des données de type date-time. Il comprend tout un tas d'utilitaires de parsing, de formatage, d'arrondi et de nouveaux types de données qui aident à gérer les fuseaux horaires.
|
CyberBattleSim : Simulateur de cyberattaque
🛡️CyberBattleSim a pour objectif d'assister les chercheurs en sécurité à comprendre les cyberattaques. Il aide notamment à identifier les mouvements latéraux possibles en fonction d'un scénario initial, par exemple prendre possession d'une partie d'une infrastructure réseau en exploitant les différentes vulnérabilités dispersées sur le réseau. Disponible dès maintenant sur Github et développé par Microsoft, il est codé en Python et s'appuie sur une interface Open AI Gym pour entrainer des agents automatisés avec des algorithmes d'apprentissage par renforcement.
|
Panorama des 'ML Experiment Tracking Tools'
⚗️Il existe de nombreux outils de suivi des expériences de Machine Learning en fonction des workflows de Data Science. Ce guide vous donnera les clés pour comparer les différentes alternatives et faire un choix éclairé. Les auteurs mettent en évidence les outils de tracking les plus populaires, présentent avantages et inconvénients de ces derniers et fournissent un tableau récapitulatif très utile.
|
|
Data Monitoring à l'échelle avec SQL et du ML
👀Dans cette dernière partie d'une longue série sur la Data Observability, Barr Moses et Ryan Kearns détaillent la création de moniteurs d'observabilité de la qualité des données de production en utilisant du SQL et quelques pincettes de Machine Learning.
|
Monitoring d'Airflow grâce à Prometheus, StatsD et Grafana
👁️Superbe article pour les utilisateurs d'Airflow ! Les auteurs donnent de très bons exemples de monitoring à mettre en place avec Prometheus, Grafana et StatsD.
|
|
L'armée française teste les robots de Boston Dynamics en mode combat
🤖🐕Le compte Twitter de l’école militaire de Saint-Cyr a dévoilé un essai de grande ampleur mené par des élèves de l’EMIA (École militaire interarmes). Durant deux jours, ces derniers ont simulé des opérations de combat aux côté des fameux robots Spot de Boston Dynamics. C'est la première fois qu'un tel engin est déployé dans le militaire en France.
|
Data Analyst spécialisé dans la prolongation de contrats de footballers, une nouvelle niche ?
⚽💸Kevin De Bruyne a prolongé son contrat à Man City jusqu'en 2025 et pour un montant de 83 millions de livres sans son agent mais en utilisant des Data Analysts ! De Bruyne a recruté ces derniers pour qu'ils évaluent son influence à City ainsi que la capacité de l'équipe à réussir dans les années à venir, en fonction de l'âge et des qualités de l'équipe actuelle avec ou sans lui. L'article donne quelques détails sur cette histoire sympathique (mes excuses pour le site très people du Mirror).
|
Bonnes pratiques sur la construction d'un Data Warehouse
👷La reproductibilité et la maintenabilité sont des caractéristiques souvent négligées lors de la création de pipelines d'entrepôt de données. Vous rencontrerez plusieurs problèmes si vous négligez ces caractéristiques comme des difficultés à reprocesser des données historiques ou pour ajouter de nouvelles règles dans votre pipeline. Les auteurs partagent leur retour d'expérience pour éviter d'en arriver là grâce à une bonne planification.
|
|
😜
|
Avez-vous aimé ce numéro ?
|
|
|
|
Pour vous désabonner, cliquez ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|