Construisons de belles choses

Projets

Je peux parler de ce que je sais faire.
Ou je peux simplement tout te montrer..

Clinical text mining

J'ai compilé un ensemble de données à l'aide de l' API Reddit composé de descriptions de personnes réelles sur leurs maladies et leurs symptômes. Le résultat est un modèle NER que vous pouvez utiliser pour extraire des entités médicales du texte.

Clone le dépôtregarde le modèle en action, et lis plus sur ce projet..

Compétences et outils : Python, Rest API, SQL, Pandas, Spacy, Hugging face Transformers, Docker, Azure, data mining, et nettoyage de données.

Medical NER: extracting named entities with Spacy, Docker and Azure.

Smarter cities

Je me sers du traitement du langage naturel pour l'exploration de texte et pour extraire des informations utiles des données.

Pour Essencialia, j'utilise des techniques telles que le extraction d'entites (pour extraire les lieux à partir du texte) l'analyse de sentiment (pour rechercher les articles d'actualité sur les quartiers violents) et les techniques d'analyse syntaxique pour nettoyer et traiter le texte. 

Compétences et outils : Spacy, Python, Regex, scikit-learn, apprentissage automatique, traitement du langage naturel, Aruana et Atalaia (bibliothèques Python que j'ai créées pour le traitement du texte). 

Example of tagged text for Spacy

Data Mining

Réalisation de l'ensemble du processus ETL pour Essencialia.com. Je récupère quotidiennement des données non structurées sur des sites d'annonces de biens immobiliers en utilisant Selenium et Python pour la ville d'Aracaju (Brésil).

Data is preprocessed, cleaned and loaded into a Postgres database.

Skills & tools: Selenium, Python, Postgre, SQL, BeautifulSoup, Pandas, Statistics.

Essencialia.com - Printscreen

Computer Vision

Les ordinateurs peuvent voir. Et les conséquences et les opportunités sont énormes. En 2019, j'ai développé ce petit programme pour anonymiser les visages dans les vidéos en temps réel en pensant à la confidentialité des données.

En tant que scientifique des données, je chercherai toujours à atténuer les mauvaises conséquences de l'utilisation de l'IA. Cela signifie pas de drones assassins, pas d'assistants virtuels qui écoutent les conversations privées, et pas d'utilisation malveillante de l'IA.

L'éthique n'est pas un choix. C'est une responsabilité envers la société.

Compétences et outils : OpenCV, vision par ordinateur, détection des visages, confidentialité des données.

Data Visualization et Web Development

All the Real Estate findings are presented on Essencialia.com. I use a mix of Tableau embeddings and HTML to present the  information in a fun and interactive way. 

Data is analysed and transferred to a WordPress website using PHP. During the exploratory analysis step, I use Matplotlib, Pandas, SQL, et Python to explore data. 

Skills & Tools: Tableau, Data visualization, SQL, Pandas, Matplotlib, Python, WordPress, HTML, CSS, PHP, Javascript, Translatrepress, Elementor.

More projects

Blogging

Blogging is an essential part of communicating data and sharing knowledge. I blog and develop free content and tutorials to help other data scientists.

Development

Atalaia is a personal NLP library that I use to prototype. You can fork the latest public available version by clicking here.