|
|
2 octobre · Numéro #62 · Consulter en ligne
Newsletter Veille Data est une sélection bimensuelle des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez toutes les deux semaines une dizaine de liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée un samedi sur deux.
|
|
Hello les datavores ! Voici ma newsletter hebdo, juste à temps pour le café du déjeuner. Je dis newsletter hebdo, mais je dois admettre que je n'ai pas autant de temps que souhaité à m'y consacrer (déménagement et mariage en préparation ; en plus de mon activité principale). J'ai donc pris la décision de passer au format bimensuel jusqu'à la fin de l'année au moins. Rassurés-vous, vous ne manquerez aucune nouveauté importante du marché de la Data ! J'espère que vous ne m'en voudrez pas. 😬 Bonne lecture et à dans deux semaines.
|
|
|
👇
|
Data Science pour Débutant
🧑🏫 Azure Cloud Advocates de Microsoft vient de sortir un programme introductif à la Data Science totalement gratuit et open source accessible à tous sans pré-requis particulier. Chaque leçon comprend des quiz avant et après la leçon, un devoir et sa solution. Cela permet d'apprendre tout en réalisant des petits projets tout du long. À envoyer à vos amis curieux du domaine !
|
Astuces et Bonnes Pratiques de Software Design pour Data Scientists
🚀Entre écrire un modèle en quelques dizaines de lignes de Python, R ou MATLAB et créer une application avec plusieurs milliers de lignes réparties sur des dizaines de modules ou de packages, il y a un monde ! Malheureusement, ce monde est rarement enseigné dans les formations orientées Data. Cet article décrit une douzaine de conseils qui peuvent aider les Data Scientists à concevoir de grands programmes. Ces conseils sont tirés de sources réputées, de l'expérience personnelle de l'auteur et de discussions avec les créateurs de bibliothèques et d'applications les plus utilisées. Une jolie mine d'or !
|
Meilleures Pratiques pour les Systèmes de Recommandation
📖Comme son nom l'indique, ce repo GitHub contient exemples et bonnes pratiques pour la création de systèmes de recommandation, fournis sous forme de notebooks Jupyter. Les exemples détaillent les cinq tâches clés :
- Préparation des données
- Modélisation
- Évaluation
- Sélection et optimisation du modèle
- Passage en production
|
30+ notebooks pour apprendre le Machine Learning
⭐Voici un référentiel complet contenant plus de 30 notebooks sur la programmation Python, la manipulation de données, l'analyse de données, la visualisation de données, le nettoyage de données, le machine learning, la vision par ordinateur et le traitement du langage naturel. Bref, tout y passe ! Mis en ligne il y a moins d'une semaine, il possède déjà plus de 1500 stars sur GitHub !
|
L'application de bureau JupyterLab est disponible !
🤓JupyterLab dispose désormais d'une application de bureau autonome ! JupyterLab App est une application autonome, multiplateforme et prête à être utilisée qui regroupe un environnement Python avec plusieurs bibliothèques populaires.
|
Merlion : Un Framework de Machine Learning
pour les Series Temporelles
⏱️Merlion est une nouvelle bibliothèque Python pour l'intelligence des séries chronologiques qui prend en charge une grande variété de tâches d'apprentissage, y compris la prévision et la détection d'anomalies. Elle fournit un framework end-to-end et vise à être une solution unique pour le développement rapide de modèles de séries chronologiques.
|
Liste des meilleurs outils de labeling !
📋Superbe collection d'outils d'étiquetage open source couvrant une variété de types de données, y compris le texte, les images, l'audio, les séries chronologiques et la vidéo.
|
|
gRPC pour Data Engineers
👏Il y a plusieurs types de Data Engineers, et comme souvent chacun semble avoir sa définition. Certains se concentrent sur l'ETL de manière générale et l'entreposage de données. Ils déplacent les données et les transforment à l'aide d'une myriade d'outils. L'autre type travaille davantage sur l'infrastructure au niveau inférieur, en fournissant les outils et services que d'autres utilisent pour faire circuler et transférer ces données. Pour ces derniers, une méthode de communication client-serveur (comme REST et OpenAPI), gagne en popularité : gRPC. Cet article vous dit tout à ce sujet !
|
Métriques de Data Quality (KPIs) pour vos
Data Warehouses
🧹Cet article s'adresse principalement aux experts de la Data qui souhaitent améliorer la qualité des données dans leurs bases de données et entrepôts de données, mais également aux professionnels dont le travail a un impact sur la qualité des données ou affectés par une mauvaise qualité des données (développeurs, commerciaux…). L'objectif est de donner un cadre pour réfléchir aux métriques de qualité des données et un processus pour identifier les métriques que votre équipe doit utiliser. À la fin de cet article, vous devriez avoir une idée des métriques que vous devez suivre pour améliorer la qualité de vos données.
|
|
La première règle du Machine Learning : ne pas partir sur du Machine Learning !
🛑Le Machine Learning est très à la mode en ce moment, mais pour de nombreuses raisons ce n'est généralement pas la meilleure chose à faire pour commencer. Voici pourquoi et quoi faire à la place.
|
La BI est-elle morte ?
⚰️Article intéressant sur l'état de la BI aujourd'hui. Le terme a clairement perdu de son attrait, remplacé dans ce qui fait le buzz par la Data Engineering, l'Analytics et le Machine Learning. Mais est-ce seulement une question sémantique ? Ou les outils ont-ils tellement évolué que la BI n'existe plus aujourd'hui ?
|
2021 Data Salary Survey – O’Reilly
💸 Le dernier rapport sur les salaires d'O'Reilly dévoile les réponses à l'enquête de plus de 3000 professionnels de la Data sur les salaires, la stabilité de l'emploi, les industries, et le développement de carrière. Toujours aussi passionnant (mais très US-centric), il donne des informations sur les tendances salariales et les facteurs clés, tels que la formation, les certifications, les compétences techniques qui font la différence, etc.
|
Les meilleures entreprises dans lesquelles travailler en tant que Data Scientist (aux USA)
🥇Même si vous ne projetez pas d'aller bosser chez l'oncle Sam, cet article pose de bonnes questions et donne un éclairage intéressant. Qu'est-ce qui constitue un bon environnement de travail pour un Data Scientist ? Est-ce que les critères évoluent tout au long d'une carrière ? À lire dans la continuité du rapport d'O’Reilly.
|
|
📦📦📦
|
Avez-vous aimé ce numéro ?
|
|
|
|
Pour vous désabonner, cliquez ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|