|
|
17 avril · Numéro #47 · Consulter en ligne
Newsletter Veille Data est une sélection bimensuelle des meilleurs articles traitant de l'univers fascinant de la Data.
Recevez toutes les deux semaines une dizaine de liens : tutoriels, repos GitHub, études de cas, industrialisation, infos business, etc.
Elle permet à tout passionné de rester à la pointe sur les usages des toutes dernières technologies Data.
Newsletter 100% gratuite publiée un samedi sur deux.
|
|
Hello les datavores ! J'espère que tout va bien pour vous. De mon côté je suis à nouveau d'aplomb ! Cette semaine on continue les découvertes avec, pour commencer, un petit projet vous permettant d'effacer sans frais le prénom de votre premier amour devenu erreur de jeunesse. On continuera par de très bonnes pratiques en Python (refactoring, création de packages) et les dernières nouveautés de PyCharm. On terminera par une jolie initiative française sur la qualité des données en open data. Bonne lecture et à bientôt,
|
|
|
👇
|
SkinDeep : Supprimer les tatouages de vos photos
🧽 Petit projet qui peut servir de base à un petit workshop pour décrypter le code ou reproduire la finalité de ce package. Si vous avez toujours rêvé de voir le corps ou le visage de votre artiste préféré sans son tatouage, c'est l'outil qu'il vous faut !
|
BI : Sortie d'Apache Superset 1.1.0
🚀 Apache Superset est une plateforme d'exploration de données très utile ! Issue d'un hackathon d'Airbnb, puis intégrée au sein de l'incubateur Apache, Superset est aujourd'hui un outil de BI mature pour l'entreprise. J'en avais déjà parlé mais petite piqure de rappel pour y jeter un oeil si ce n'est déjà fait, à l'occasion de la sortie de le 1.1.0 cette semaine.
|
Layout-Parser : Boîte à outils unifiée pour l'analyse d'images de documents basée sur du Deep Learning
📄 Ce package vous permet de comprendre la structuration / mise en page (layout) d'un document, peu importe sa provenance : pages numérisées, images web, documents historiques, etc. À ne pas manquer si vous êtes sur des projets de NLP et que la phase d'identification du texte n'est pas évidente.
|
Manipuler de grands datasets sans manquer de mémoire
🧑🏫 Bonne série d'articles qui montrent comment traiter des datasets de tailles plus importantes que la RAM, en Python. L'auteur couvre la plupart des techniques : structuration de code, data management, ce qu'on peut faire avec Pandas, NumPy, des requêtes de BDD, etc. Il existe aujourd'hui des outils clés en mains mais il est toujours intéressant de connaître les fondamentaux.
|
|
IDE : Sortie de PyCharm 2021.1
ℹ️ Des petits ajouts sympathiques pour la nouvelle version de l'IDE le plus populaire en Python. Les principales nouveautés de PyCharm 2021.1 incluent une nouvelle expérience de développement collaboratif, l'importation automatique pour la saisie des membres de module et une prise en charge améliorée du WSL. Cette vidéo reprend l'essentiel des nouveautés de cette première version de 2021.
|
Meilleures pratiques pour créer un package Python en 2021
📦 Superbe tutorial pour bien démarrer dans la création de packages en Python. C'est quand même un moyen plus classe et approprié de partager du code réutilisable avec vos collègues. 😇
|
MC^2 : Plateforme pour du ML chiffré
🔐 MC^2 est une plateforme permettant d'exécuter analyses et modèles de Machine Learning de manière sécurisée sur des données chiffrées. MC^2 permet également une collaboration sécurisée et aux utilisateurs d'externaliser leurs workloads de données confidentielles vers le cloud, tout en veillant à ce que les données ne soient jamais exposées en clair au cloud provider. Une initiative encore jeune, portée par le UC Berkeley RISE Lab, à suivre de près si vous avez ce genre de problématiques.
|
|
Data.gouv.fr : Le mois de la qualité des données
🇫🇷 Je partage une initiative étatique qui m'a l'air bienvenue. Il s'agit du premier article de la série du Printemps de la qualité des données de la part de data.gouv.fr. Celui-ci s'attarde sur la définition et les enjeux autour de la qualité des données et donne un compte rendu de plusieurs ateliers sur la qualité et l’interopérabilité des données qui ont été organisés en présence de membres d'Etalab et des usagers de data.gouv.fr dans le courant de 2020.
|
Podcast : Premiers pas sur du refactoring de code Python
🎧 Pour changer des lectures textuelles, voici du contenu pour vos oreilles : un podcast très sympathique pour apprendre de bons conseils avant de se lancer dans du refactoring de code. La plupart des podcasts de Real Python sont passionnants, donc n'hésitez pas à jeter un oeil aux 54 éditions précédentes ! 😝
|
Microsoft achète Nuance, la société de reconnaissance vocale, pour 19,7 milliards de $
💰 Peu connue dans le grand public, Nuance est une entreprise leader dans la reconnaissance vocale qui fut utilisée dans la création de Siri, l'assistant vocal d'Apple. Elle développe de nombreuses solutions dont Dragon, qui utilise du Deep Learning pour transcrire le discours d'une personne peu importe le bruit ambiant ou la voix de cette dernière. Aux État-Unis, cet outil est très utilisé pour retranscrire les visites chez le médecin ou les appels à des services clients divers et variés. 🗣️ L'acquisition pourrait permettre à Microsoft d'intégrer la reconnaissance vocale avancée dans Teams et Bing et de générer des transcriptions, selon Bloomberg. Il s'agit de la plus grosse dépense de Microsoft après LinkedIn.
|
Un PhD en ML nommé co-PDG de Waymo
🚖 Waymo, une des entreprises les plus en pointe sur les véhicules autonomes et spin-off de Google, vient de changer son organigramme et de nommer conjointement à sa tête un juriste ainsi qu'un PhD vétéran du Deep Learning. Cette combinaison se généralisera-t-elle pour diriger des sociétés dont le coeur de métier est l'IA ? L'avenir nous le dira !
|
|
🐍
|
Avez-vous aimé ce numéro ?
|
|
|
|
Pour vous désabonner, cliquez ici.
Si on vous a fait suivre cette lettre d'information et que vous l'aimez, vous pouvez vous y abonner ici.
|
|
|