|
|
9 janvier · Numéro #33 · Consulter en ligne
Newsletter Veille Data est une sélection hebdomadaire des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez chaque semaine entre 5 et 10 liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée tous les samedis.
|
|
Hello les datavores ! J'espère que vous avez passé de bonnes fêtes et que vous vous êtes bien ressourcés. Je vous souhaite tous mes meilleurs voeux pour 2021, après une année 2020 hors normes. Comme tous les samedis, je reprends les bonnes habitudes de vous retrouver avec les nouveautés Data de ces derniers jours. Bonne lecture ! Bon courage pour la reprise et à bientôt,
|
|
|
NumPy : Un guide illustré
🐍 Ce guide illustré de NumPy est un excellent moyen d'apprendre NumPy ou de réviser son utilisation. Il couvre toutes les bases et plus encore, avec de magnifiques illustrations des différents concepts.
|
JupyterLab 3.0 est sorti !
👨🔬 Nouvelle version majeure de JupyterLab, la 3.0 apporte de nombreuses fonctionnalités qui faciliteront la vie : un débogueur visuel (enfin !), une table des matières pour les notebooks, plusieurs langues d'affichage et un système de gestion des extensions amélioré.
|
The Pile
📚 The Pile est un ensemble de datasets de 885 Go composé de 22 jeux de données textuelles. Il contient notamment 100 Go de livres, papiers médicaux et code, ainsi que 50 Go de publications arxiv et documents juridiques, 8 Go de code, également 4 Go de hackernews et 300 Go d'autres textes Internet. Les modèles entrainés grâce à The Pile obtiennent les meilleurs résultats comparé à d'autres jeux de données. Si vous avez des idées de projets autour du NLP, cela vous sera sans doute utile !
|
Python : Top 10 Python des bibliothèques sorties en 2020
🏅 Chaque année Tryolabs sort sa liste des meilleures bibliothèques Python. Cette année, on y trouve des outils pour de la visualisation en haute dimension, de la gestion de la configuration, du forecasting, des interfaces de ligne de commande, pour gagner en productivité, détecter des valeurs aberrantes, etc. À ne pas louper !
|
Les modèles Transformers, comment ça marche ?
🤔 Voici un guide sur les Transformers et leur utilisation dans la traduction automatique. Après avoir analysé tous les sous-composants un par un, les auteurs expliquent les principes derrière Encodeur et Décodeur et pourquoi les Transformers fonctionnent si bien. Un article tout à fait accessible à tout lecteur curieux du domaine !
|
NLP : HuggingFace v1.2
📰 Si vous avez aimé le lien précédent, vous devriez également apprécier ce qui suit pour mettre tout cela en pratique ! HuggingFace vient de sortir la 1.2 de sa bibliothèque de datasets bien connue des fans de NLP. Pour résumer les nouveautés :
- 611 ensembles de données texte qui peuvent être téléchargés et utilisable en une ligne de code Python,
- 467 langues disponibles dont 99 avec au moins 10 jeux de données,
- Amélioration du pre-processing lors de l'utilisation de très grands ensembles de données.
|
|
👇Dessine moi un fauteuil en forme d'avocat 👇
|
DALL·E : Créer des images à partir d'un texte
🖼️ Il y a quelques jours, OpenAI a présenté DALL-E, un système très innovant capable de générer des images à partir d’un simple texte. Contraction de l’artiste Salvador Dali et du robot de Pixar WALL-E, DALL-E est toujours basé sur GPT-3, son modèle de langage star qui avait déjà épaté sur la génération de texte. OpenAI s'attaque donc désormais aux images avec des résultats très impressionnants, ce qui pourra certainement faciliter la création de maquettes pour divers projets visuels et, à terme, révolutionner la création artistique.
|
Une IA comme présentatrice TV
📺 MBN, un réseau de télévision par câble sud-coréen, a dévoilé en fin d'année dernière le premier présentateur virtuel du pays, alimenté par l’intelligence artificielle. Il s'agit d'une république très réaliste de la présentatrice star de la chaîne. Le but est de permettre de reporter des “breaking news” à toute heure du jour et de la nuit, sans aucune interruption. Pensez-vous que TF1 aurait dû faire de même afin que Jean-Pierre Pernaut puisse éternellement présenter le JT de 13h ?
|
|
👇
|
Google Cloud Developer's Visual Notes
🚀 Si vous souhaitez monter en compétence sur Google Cloud, cette ressource est géniale ! L'auteur de ce GCPSketchnote partage les concepts de Google Cloud dans un format rapide et facile à apprendre. Vraiment très utile pour comprendre les différents outils disponible !
|
Le Machine learning passe au temps réel
🚅 Chip Huyen est reconnue dans l'écosystème Machine Learning pour sa vision fine des outils et des tendances du marché. Dans son dernier article, elle fait l'état des lieux de l'apprentissage automatique en temps réel : différents cas d'usages, solutions et défis. Suite à des entretiens avec une douzaine d'entreprises, elle conclut que “le machine learning passe en temps réel, que vous soyez prêt ou non”.
|
|
Merge sort version Simpsons 😆
|
Avez-vous aimé ce numéro ?
|
|
|
|
Si vous ne voulez plus recevoir les prochaines mises à jour, vous pouvez vous désabonner ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|