|
|
6 février · Numéro #37 · Consulter en ligne
Newsletter Veille Data est une sélection hebdomadaire des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez chaque semaine entre 5 et 10 liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée tous les samedis.
|
|
Hello les datavores ! J'espère que vous allez bien. Cela ne fait qu'un mois de passé en 2021 et ma liste de contenu “à lire plus tard” est déjà bien imposante… Cet univers ne cessera jamais de me fasciner mais la vitesse d'innovation donne parfois le tournis. Bon, j'arrête de vous partager mes états d'âmes et vous laisse avec ma sélection de la semaine. 😊 Très bon week-end !
|
|
|
Applied-ML : Les meilleures pratiques de mise en production de modèles de Machine Learning
📚 Incroyable ce repo GitHub ! Il contient une liste très exhaustive des meilleures pratiques d'entreprises tech sur la mise en production de modèles de Machine Learning. Le tout est classé par catégorie : régression, prévision, recommandation, classification, etc. À mettre en favoris !
|
Mise à jour de 'Papers With Code'
🤯 Ce merveilleux site contient désormais plus de 3 000 datasets de Machine Learning. Les créateurs ont ajouté tout un tas de filtres afin de trouver le contenu le plus pertinent pour répondre à votre besoin (langue, sujet, benchmarks, etc.).
|
👇
|
Python : data-describe, un outil pratique pour l'analyse exploratoire de données
👁️🗨️ data-describe est une boîte à outils Python pour l'analyse exploratoire des données. Elle vise à accélérer l'exploration et l'analyse des données en fournissant des widgets perfectionnés d'analyse de manière automatique. Utile !
|
StyleGAN2-ADA adapté sur PyTorch
🖼️ C'est tout nouveau ! Nvidia vient de publier son implémentation de StyleGAN2-ADA en PyTorch ! Si vous êtes plutôt TensorFlow, cette dernière est ici. On n'arrête pas le progrès sur le traitement d'images nouvelle génération.
|
|
Python : SQL linter, pour auto-formatter vos requêtes SQL
🧹 SQLFluff est un linter extensible et modulaire conçu pour vous aider à écrire du bon code SQL et à détecter les erreurs avant de requêter votre base de données. SQLFluff peut également corriger automatiquement la plupart des erreurs de formatage.
|
BudgetML : Faites des économies de temps et d'argent sur vos déploiements de modèles
🚀 BudgetML a été créé pour fournir un moyen simple, rapide et peu onéreux de mettre en production un modèle. L'utiliser est vraiment un jeu d'enfants et tient sur 10 lignes de code maximum. Cet outil n'est pas orienté production mais permet de faire fonctionner un serveur aussi rapidement que possible avec les coûts les plus bas possibles. Les auteurs estiment en effet que :
- Cloud functions are limited in memory and cost a lot at scale.
- Kubernetes clusters are an overkill for one single model.
- Deploying from scratch involves learning too many different concepts like SSL certificate generation, Docker, REST, Uvicorn/Gunicorn, backend servers etc., that are simply not within the scope of a typical data scientist.
|
Python : Comment rapidement déployer vos scripts en application Flask
🚀 Dans ce tutoriel, vous apprendrez à passer d'un script Python local à une application Web Flask entièrement déployée que vous pouvez partager avec le monde entier.
|
|
Data For Good
👏 Data for good lance son nouvel appel à projets à impact ! Vous êtes une association ? Une ONG ? Une institution ? Une startup à mission ? Vous travaillez sur une problématique à fort impact social et/ou environnemental. Vous avez besoin de compétences tech (Data, IA, UX) pour accélérer un projet ou une idée ? Vous avez jusqu'au 15 février pour postuler afin de participer à la 9ème saison de cette belle initiative.
|
|
Comment réduire le coût d'étiquetage de vos données ?
🤑 Cresta est une startup spécialisée dans la création d'outils pour l'assistance commerciale grâce à une fine compréhension des besoins clients (via IA / chatbot). Dans cet article, ils partagent l'évolution de leur pipeline de classification au fil du temps et comment ils sont parvenus à réduire les coûts d'étiquetage d'un facteur 10, tout en améliorant constamment leurs critères de précision. On y parle, entre autres, de Deep Transfer Learning !
|
Quelles avancées majeures dans les applications de la Data en 2021 ?
🔮 Baidu Research, la branche recherche du “Google chinois”, vient de publier ses prévisions des 10 grandes tendances technologiques associées à l'IA/au Machine Learning en 2021. La liste est assez variée. À lire !
|
|
Nothing to see here!
|
Avez-vous aimé ce numéro ?
|
|
|
|
Si vous ne voulez plus recevoir les prochaines mises à jour, vous pouvez vous désabonner ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|