Logo 2 Logo Lise 2 Logo Cedric

Proposition de stage : Master, Ingénieur.

Récupération et analyse de données sur les plateformes numériques du marché du travail

Extraction et analyse des profils utilisateurs et des offres d’emploi

Contexte et description du projet

Le projet ANR DIGINTER étudie l’impact des plateformes numériques sur la transformation du marché du travail. Il se place dans une perspective comparative entre la France et le Brésil et se concentre particulièrement sur deux secteurs : les soins à domicile et les technologies de l’information. Dans un premier temps, l’accent sera mis sur le secteur des soins à domicile.

Dans ce cadre, il est essentiel de disposer de données structurées issues de différentes plateformes de mise en relation entre demandeurs d’emploi et employeurs dans le domaine des soins à domicile.

On s’intéressera a des plateformes telles que Yoopies.fr, Care.com, Aladom.fr, et Odete.com.br…

Les données brutes devront ensuite être visualisées et analysées pour en dégager les caractéristiques pertinentes, sur lesquelles reposera l’analyse sociologique menée par l’équipe de recherche.

Sujet du stage

1. Collecte des données

Le premier volet du stage consistera à collecter des données à partir des plateformes d’intermédiation.

Pour ce faire, des méthodologies de crawling et de scraping seront mises en œuvre afin de recueillir un maximum d’informations sur chaque profil.

Il pourra également être nécessaire d’explorer les liens associés aux profils, comme ceux menant aux avis.

Les outils utilisés incluront :

Python (et ses bibliothèques : Beautiful Soup, Scrapy, Selenium, Puppeteer, etc.).
Outils en ligne de commande (comme curl, wget) pour des cas simples.
JavaScript si nécessaire pour interagir avec des pages dynamiques.

Une attention particulière sera portée à :

La gestion des complexités techniques des sites web et, éventuellement, au contournement des mesures anti-scraping.
La qualité des données collectées.
Le respect des aspects légaux et éthiques.

2. Analyse des données

Une fois les données collectées, une première analyse sera réalisée pour extraire des informations plus détaillées.

En effet, outre les données explicites issues des formulaires, les profils peuvent contenir des informations implicites ou liées nécessitant des analyses plus approfondies.

Les principales tâches incluront par exemple :

Depuis les textes libres de présentation : extraction d’entités nommées permettant d’inférer des informations (âge, origine, centre d’intérêts, compétences, situation familiale, horaires, etc.).
Depuis les textes des avis et commentaires : analyses de sentiment ou autres analyses sémantiques sur les commentaires laissés par les utilisateurs.
Depuis tout les textes, utilisation d’outils comme BERTopic pour identifier les thèmes principaux présents dans les textes.
Depuis les photos : identification de certaines caractéristiques grâce à des méthodes de vision par ordinateur: détection de visage, extraction de caractéristiques par des méthodes de vision et d’IA (CNN, forêts aléatoires ou SVN…)
Vérification de la cohérence des données collectées :
- Comparaison entre les informations issues des textes, des formulaires et des analyses d’images.

Enfin, des outils de visualisation de données seront mis en œuvre pour communiquer les résultats de manière claire et synthétique.

3. Interaction avec l’équipe de recherche

Les choix des analyses avancées seront faits en collaboration avec les sociologues du projet, en fonction des besoins exprimés et des premières données obtenues.

Compétences et technologies mobilisées

Programmation en Python (et éventuellement en JavaScript).
Connaissance des outils et bibliothèques de scraping (Beautiful Soup, Scrapy, Selenium, Puppeteer).
Techniques de traitement du langage naturel (spaCy, NLTK, transformers, Bert,…).
Notions de vision par ordinateur pour l’analyse d’images.
Outils de visualisation de données (Matplotlib, Seaborn, Plotly).

Travail bibliographique

En amont et parallèlement à l’implémentation et à l’analyse des données, on mènera une revue de littérature approfondie sur les techniques récentes de web scraping, d’extraction de données, et de traitement automatique du langage naturel (TALN) pour l’extraction d’informations et l’analyse sémantique. Ces recherches permettront de contextualiser les travaux pratiques et d’identifier les meilleures pratiques pour modéliser et analyser le marché du travail à travers le prisme des plateformes numériques.

Une liste bibliographique indicative et non exhaustive de travaux récents dans ces domaines est proposée en annexe.

Conditions du stage

Ce stage offre l’opportunité d’aborder des problématiques variées à la croisée des sciences informatiques, sociales et humaines, avec une forte composante d’innovation et de recherche appliquée. Le sujet précis pourra être adapté en fonction des intérêts, compétences et aspirations du stagiaire.

Le stage se déroulera sur une période de 5 à 6 mois, au sein des laboratoire Cedric et LISE du Cnam Paris, Co-encadré par Olivier Pons et Lea Lima .

Selon la réglementation, l’indemnité de stage est d’environ 600 euros par mois.

Pour candidater

Veuillez envoyer votre CV ainsi qu’une brève description expliquant pourquoi vous postulez à :

Olivier Pons (olivier.pons@lecnam.net) ET Léa Lima (lea.lima@lecnam.net)

Un entretien et/ou un test technique pourront vous être proposés.

Quelques pistes de reference récentes

Khder, M. A. (2021). Web scraping or web crawling: State of art, techniques, approaches and application. International Journal of Advances in Soft Computing & Its Applications, 13(3).
Ricca, F. (2024). Comparative Study of Selenium, Cypress, Puppeteer, and Playwright. In Quality of Information and Communications Technology: 17th International Conference on the Quality of Information and Communications Technology, QUATIC 2024, Pisa, Italy, September 11-13, 2024, Proceedings (Vol. 2178, p. 142). Springer Nature.
Bale, A. S., Ghorpade, N., Rohith, S., Kamalesh, S., Rohith, R., & Rohan, B. S. (2022, August). Web scraping approaches and their performance on modern websites. In 2022 3rd International Conference on Electronics and Sustainable Communication Systems (ICESC) (pp. 956-959). IEEE.
Akshay, B., Kumar, R. A., Ramyasri, T., & Arpitha, K. (2024). Personalized Job Opportunity Finder powered by Web Scraping. In MATEC Web of Conferences (Vol. 392, p. 01151). EDP Sciences.
Shubham B. Gulik, Akash R. Gharat, Jayesh L. Choudhary, Sujata Kolhe, “Scraping of Job Portal” 2021 IJARIIT | Volume 7 | Issue 3 - V7I3-1748 | ISSN: 2454-132X.
L.Gangadhara Reddy, Dr. P. Viswanath, “A Study on Web Scraping of Selected Job Portals” 2022 JETIR September 2022 , Volume 9 , Issue 9 | ISSN-2349-5162.
Kumar, A., Chauhan, K., & Grewal, J. K. Web Scraping Job Portals.
Navarro, D. F., Ijaz, K., Rezazadegan, D., Rahimi-Ardabili, H., Dras, M., Coiera, E., & Berkovsky, S. (2023).
Clinical named entity recognition and relation extraction using natural language processing of medical free text:
A systematic review. International Journal of Medical Informatics, 177, 105122.
Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., … & Wang, G. (2023). Gpt-ner: Named entity recognition via large language models. arXiv preprint arXiv:2304.10428.
Yu, J., Li, Z., Wang, J., & Xia, R. (2023, July). Grounded multimodal named entity recognition on social media. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 9141-9154).
Jehangir, B., Radhakrishnan, S., & Agarwal, R. (2023). A survey on Named Entity Recognition—datasets, tools, and methodologies. Natural Language Processing Journal, 3, 100017.
Košprdić, M., Prodanović, N., Ljajić, A., Bašaragin, B., & Milošević, N. (2023). Zero-and few-shot machine learning for named entity recognition in biomedical texts. In 4th Belgrade Bioinformatics Conference (Vol. 4, pp. 38-38). Belgrade: Institute of molecular genetics and genetic engineering.
Tu, M. (2024). Named entity recognition and emotional viewpoint monitoring in online news using artificial intelligence. PeerJ Computer Science, 10, e1715.
Berragan, C., Singleton, A., Calafiore, A., & Morley, J. (2023). Transformer based named entity recognition for place name extraction from unstructured text. International Journal of Geographical Information Science, 37(4), 747-766.
Richie, R., Ruiz, V. M., Han, S., Shi, L., & Tsui, F. (2023). Extracting social determinants of health events with transformer-based multitask, multilabel named entity recognition. Journal of the American Medical Informatics Association, 30(8), 1379-1388.
Ntylgeris, P. (2023). Unsupervised information extraction and linking to open data.
Tzimas, G., Zotos, N., Mourelatos, E., Giotopoulos, K. C., & Zervas, P. (2024). From Data to Insight: Transforming Online Job Postings into Labor-Market Intelligence. Information, 15(8), 496.
Green, T. A. F. (2023). Using NLP to resolve mismatches between jobseekers and positions in recruitment (Doctoral dissertation, University of Sheffield).
Ganga, V. S., Kranthi, S., Regalla, S. N. D., & Vissakodeti, L. L. (2024, April). Skill Extractor in Resumes using Machine Learning and Streamlit. In 2024 1st International Conference on Trends in Engineering Systems and Technologies (ICTEST) (pp. 1-5). IEEE.
Skrypnyk, R. (2024). The Role of Artificial Intelligence in the European Union Labor Market (Doctoral dissertation, Mykolo Romerio universitetas.).
Kim, S., Ahn, Y. Y., & Park, J. (2024, May). Labor Space: A Unifying Representation of the Labor Market via Large Language Models. In Proceedings of the ACM on Web Conference 2024 (pp. 2441-2451).
Anelli, G. (2023). But which skills?. Work Organisation, Labour & Globalisation, 17(2), 91-104.
Filippo, C., Vito, G., Irene, S., Simone, B., & Gualtiero, F. (2024). Future applications of generative large language models: A data-driven case study on ChatGPT. Technovation, 133, 103002.
Egger, R., & Yu, J. (2022). A topic modeling comparison between lda, nmf, top2vec, and bertopic to demystify twitter posts. Frontiers in sociology, 7, 886498.
de Groot, M., Aliannejadi, M., & Haas, M. R. (2022). Experiments on generalizability of BERTopic on multi-domain short text. arXiv preprint arXiv:2212.08459.
Wu, W., Ghazali, M., & Huspi, S. H. (2024). A Review of User Profiling Based on Social Networks. IEEE Access.