|
|
14 novembre · Numéro #27 · Consulter en ligne
Newsletter Veille Data est une sélection hebdomadaire des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez chaque semaine entre 5 et 10 liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée tous les samedis.
|
|
Hello les datavores ! J'ai constaté un gros pic de nouveaux abonnés cette semaine. Merci aux prêcheurs de la bonne parole. Ravi que ces partages vous intéressent ! Pour les petits nouveaux, je vous souhaite la bienvenue, vous pouvez retrouver l'ensemble des newsletters précédentes sur ce lien. Bonne lecture et à samedi prochain pour une nouvelle édition,
|
|
|
MooC MIT : Introduction au Machine Learning
🧑🏫 Le cours d'introduction au Machine Learning du MIT vient d'être mis à jour, est toujours gratuit, et est une bonne alternative à celui d'Andrew Ng. Il présente principes, algorithmes et applications du Machine Learning côté modélisation et prédiction. Il aborde les concepts de représentation, d'over-fitting, et de generalisation. Assez complet, il va de l'apprentissage supervisé à l'apprentissage par renforcement, avec des applications en computer vision et en séries temporelles. Parfait pour vous mettre au Machine Learning ou - au vu l'audience de la newsletter - pour faire découvrir la discipline à vos amis curieux !
|
R : Découvrez Pointblank
✅ Le package Pointblank sur R facilite la validation méthodique de vos données que ce soit sous forme de dataframes ou de tables de base de données. En plus des outils de validation, le package vous donne la possibilité de rester à jour avec les informations qui définissent vos tables. Parfait pour fiabiliser vos données en amont de vos modèles !
|
Python : Introduction à l'analyse de sentiments pour classer des critiques de films
🎟️Dans ce tuto, vous découvrirez l'analyse des sentiments et une manière de vous y mettre sur Python. L'auteur nous guide dans la création d'un classificateur d'analyse des sentiments avec spaCy, visant à prédire si une critique de film est positive ou négative. Sympa pour découvrir de manière ludique le sujet !
|
SQL : 5 erreurs à éviter
⚠️ Le fait que les requêtes SQL ne plantent pas rend l'analyse des données souvent plus difficile. Vous le savez certainement (ou le vivez au quotidien), les Data Scientists doivent consacrer un temps considérable à la validation des données car une requête SQL renvoie toujours quelque chose. Voici 5 erreurs à éviter lors de l'écriture de requêtes SQL.
|
|
'Data Quality at Airbnb. Rebuilding at Scale'
🏨Airbnb partage fréquemment des articles passionnants sur la manière dont la Data est stockée, traitée, modélisée, restituée et plus globalement dont la Data est centrale dans son organisation. Mais cette maturité n'est pas venue toute seule ! Airbnb a connu les challenges de croissance typiques de la plupart des startups. Cet article explore les défis liés aux données auxquels Airbnb a été confronté pendant son hypercroissance et les mesures prises pour les surmonter, jusqu'à avoir aujourd'hui parmi les meilleures pratiques en Data Engineering et Data Quality au monde.
|
Tout ce que vous devez savoir sur les plateformes de Data Discovery
🕵La Data Discovery, qu'est-ce que c'est que ce nouveau buzzword encore ? C'est plutôt simple en réalité. Ce sont des plates-formes ayant pour but de nous aider à trouver les données plus rapidement. Vous venez de rejoindre une nouvelle organisation en tant que Data Scientist ou Data Analyst. Vous avez naturellement besoin de données pour de l'analyse ou pour créer un système de Machine Learning. Comment trouveriez-vous les bonnes tables et colonnes à utiliser ? Comment évalueriez-vous rapidement leur adéquation avec votre besoin ? Et s'il y en avait d'autres de plus pertinentes ? 💡Les plateformes de Data Discover cataloguent les entités de données (les tables, les jobs d'ETL, les dashboards), les métadonnées (par exemple, ownership, lineage) et facilitent leur recherche. Ils aident à répondre “Où puis-je trouver les données ?” et d'autres questions de ce type. 👏Cet article compare les principales plateformes et donne un aperçu des problématiques auxquelles chacune répond et de leurs fonctionnalités clés. En plus des plateformes propriétaires, il couvre les solutions open-source telles que DataHub de LinkedIn, Amundsen de Lyft, Metacat de Netflix et Apache Atlas.
|
|
👇
|
Votre prochaine visio en pyjama ?
💡 Une startup japonaise vient de sortir un petit programme gratuit permettant de swapper votre visage façon deepfake sur n'importe quel autre corps ou background, en temps réel lors d'une visio ! Les résultats sont assez impressionnants (voir gif) et tout est processé en temps réel en local et reste sur vos PCs, donc pas de soucis de privacy a priori non plus. Pour l'instant ce n'est que sur Mac mais la version Windows arrive. 🙈 Plus besoin de quitter en panique son pyjama à deux minutes d'une conf call ! D'autres “corps” plutôt funs sont aussi disponibles : oeuvres d'art, personnages fantastiques…
|
|
Une nouvelle technique permet à l'IA d'apprendre avec pratiquement aucune donnée
Less than one-shot learning enseigne à un modèle à identifier plus d'objets que le nombre d'exemples sur lesquels il est entraîné. Très intrigant et à suivre de près !
|
Retour d'XP : Un an en tant que Data Scientist
Un membre de Reddit partage ici ses pensées et leçons un an après avoir décroché un job de Data Scientist. La discussion, en anglais, est très fructueuse. Voici ses points clés que j'approuve totalement :
- Le titre ‘Data Scientist’ n'a pas beaucoup de sens
- Posez plus de questions avant de coder
- Prototypez des choses simples, et demandez des feedbacks avant d'itérer
- Parlez aux experts du domaine
- Apprenez les bonnes pratiques de Software / Data Engineering
|
|
Projections sur le marché de l'IA en 2021 et au delà
🔮Selon une analyse de The Next Web, les perspectives globales du marché de l'IA sont positives pour 2021 (le contraire aurait été étonnant). Ils notent qu'alors que certains projets sont surévalués comme les robotaxis d'Elon Musk qui ne se sont pas encore concrétisés, le futur marché de l'IA est globalement positif d'un point de vue financier et commercial.
|
Python est désormais le deuxième langage de programmation le plus populaire
🐍Selon le dernier index de TIOBE, Python a dépassé Java pour devenir le deuxième langage de programmation le plus populaire au monde. D'autres classements comme que celui de Redmonk ont montré des résultats similaires au cours de l'été. Le classement de TIOBE compare les langages entre eux à partir du nombre de recherches effectuées sur les moteurs de recherche. Personnellement je ne trouve pas que ces classements ont un grand intérêt mais cela confirme en tout cas la vigueur du langage favori dans la Data.
|
|
🦸♀️🦹
|
Avez-vous aimé ce numéro ?
|
|
|
|
Si vous ne voulez plus recevoir les prochaines mises à jour, vous pouvez vous désabonner ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|