Le projet ANR DIGINTER étudie l’impact des plateformes numériques sur la transformation du marché du travail. Il se place dans une perspective comparative entre la France et le Brésil et se concentre particulièrement sur deux secteurs : les soins à domicile et les technologies de l’information. Dans un premier temps, l’accent sera mis sur le secteur des soins à domicile.
Dans ce cadre, il est essentiel de disposer de données structurées issues de différentes plateformes de mise en relation entre demandeurs d’emploi et employeurs dans le domaine des soins à domicile.
On s’intéressera a des plateformes telles que Yoopies.fr, Care.com, Aladom.fr, et Odete.com.br…
Les données brutes devront ensuite être visualisées et analysées pour en dégager les caractéristiques pertinentes, sur lesquelles reposera l’analyse sociologique menée par l’équipe de recherche.
Le premier volet du stage consistera à collecter des données à partir des plateformes d’intermédiation.
Pour ce faire, des méthodologies de crawling et de scraping seront mises en œuvre afin de recueillir un maximum d’informations sur chaque profil.
Il pourra également être nécessaire d’explorer les liens associés aux profils, comme ceux menant aux avis.
Les outils utilisés incluront :
curl
,
wget
) pour des cas simples.Une attention particulière sera portée à :
Une fois les données collectées, une première analyse sera réalisée pour extraire des informations plus détaillées.
En effet, outre les données explicites issues des formulaires, les profils peuvent contenir des informations implicites ou liées nécessitant des analyses plus approfondies.
Les principales tâches incluront par exemple :
Depuis les textes libres de présentation : extraction d’entités
nommées permettant d’inférer des informations (âge, origine, centre
d’intérêts, compétences, situation familiale, horaires, etc.).
Depuis les textes des avis et commentaires : analyses de
sentiment ou autres analyses sémantiques sur les commentaires laissés
par les utilisateurs.
Depuis tout les textes, utilisation d’outils comme BERTopic pour identifier les thèmes principaux présents dans les textes.
Depuis les photos : identification de certaines caractéristiques grâce à des méthodes de vision par ordinateur: détection de visage, extraction de caractéristiques par des méthodes de vision et d’IA (CNN, forêts aléatoires ou SVN…)
Vérification de la cohérence des données collectées :
Enfin, des outils de visualisation de données seront mis en œuvre pour communiquer les résultats de manière claire et synthétique.
Les choix des analyses avancées seront faits en collaboration avec les sociologues du projet, en fonction des besoins exprimés et des premières données obtenues.
En amont et parallèlement à l’implémentation et à l’analyse des données, on mènera une revue de littérature approfondie sur les techniques récentes de web scraping, d’extraction de données, et de traitement automatique du langage naturel (TALN) pour l’extraction d’informations et l’analyse sémantique. Ces recherches permettront de contextualiser les travaux pratiques et d’identifier les meilleures pratiques pour modéliser et analyser le marché du travail à travers le prisme des plateformes numériques.
Une liste bibliographique indicative et non exhaustive de travaux récents dans ces domaines est proposée en annexe.
Ce stage offre l’opportunité d’aborder des problématiques variées à la croisée des sciences informatiques, sociales et humaines, avec une forte composante d’innovation et de recherche appliquée. Le sujet précis pourra être adapté en fonction des intérêts, compétences et aspirations du stagiaire.
Le stage se déroulera sur une période de 5 à 6 mois, au sein des laboratoire Cedric et LISE du Cnam Paris, Co-encadré par Olivier Pons et Lea Lima .
Selon la réglementation, l’indemnité de stage est d’environ 600 euros par mois.
Veuillez envoyer votre CV ainsi qu’une brève description expliquant pourquoi vous postulez à :
Olivier Pons (olivier.pons@lecnam.net) ET Léa Lima (lea.lima@lecnam.net)
Un entretien et/ou un test technique pourront vous être proposés.
Khder, M. A. (2021). Web scraping or web crawling: State of art, techniques, approaches and application. International Journal of Advances in Soft Computing & Its Applications, 13(3).
Ricca, F. (2024). Comparative Study of Selenium, Cypress, Puppeteer, and Playwright. In Quality of Information and Communications Technology: 17th International Conference on the Quality of Information and Communications Technology, QUATIC 2024, Pisa, Italy, September 11-13, 2024, Proceedings (Vol. 2178, p. 142). Springer Nature.
Bale, A. S., Ghorpade, N., Rohith, S., Kamalesh, S., Rohith, R., & Rohan, B. S. (2022, August). Web scraping approaches and their performance on modern websites. In 2022 3rd International Conference on Electronics and Sustainable Communication Systems (ICESC) (pp. 956-959). IEEE.
Akshay, B., Kumar, R. A., Ramyasri, T., & Arpitha, K. (2024). Personalized Job Opportunity Finder powered by Web Scraping. In MATEC Web of Conferences (Vol. 392, p. 01151). EDP Sciences.
Shubham B. Gulik, Akash R. Gharat, Jayesh L. Choudhary, Sujata Kolhe, “Scraping of Job Portal” 2021 IJARIIT | Volume 7 | Issue 3 - V7I3-1748 | ISSN: 2454-132X.
L.Gangadhara Reddy, Dr. P. Viswanath, “A Study on Web Scraping of Selected Job Portals” 2022 JETIR September 2022 , Volume 9 , Issue 9 | ISSN-2349-5162.
Kumar, A., Chauhan, K., & Grewal, J. K. Web Scraping Job Portals.
Navarro, D. F., Ijaz, K., Rezazadegan, D., Rahimi-Ardabili, H., Dras, M., Coiera, E., & Berkovsky, S. (2023).
Clinical named entity recognition and relation extraction using natural language processing of medical free text:
A systematic review. International Journal of Medical Informatics, 177, 105122.
Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., … & Wang, G. (2023). Gpt-ner: Named entity recognition via large language models. arXiv preprint arXiv:2304.10428.
Yu, J., Li, Z., Wang, J., & Xia, R. (2023, July). Grounded multimodal named entity recognition on social media. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 9141-9154).
Jehangir, B., Radhakrishnan, S., & Agarwal, R. (2023). A survey on Named Entity Recognition—datasets, tools, and methodologies. Natural Language Processing Journal, 3, 100017.
Košprdić, M., Prodanović, N., Ljajić, A., Bašaragin, B., & Milošević, N. (2023). Zero-and few-shot machine learning for named entity recognition in biomedical texts. In 4th Belgrade Bioinformatics Conference (Vol. 4, pp. 38-38). Belgrade: Institute of molecular genetics and genetic engineering.
Tu, M. (2024). Named entity recognition and emotional viewpoint monitoring in online news using artificial intelligence. PeerJ Computer Science, 10, e1715.
Berragan, C., Singleton, A., Calafiore, A., & Morley, J. (2023). Transformer based named entity recognition for place name extraction from unstructured text. International Journal of Geographical Information Science, 37(4), 747-766.
Richie, R., Ruiz, V. M., Han, S., Shi, L., & Tsui, F. (2023). Extracting social determinants of health events with transformer-based multitask, multilabel named entity recognition. Journal of the American Medical Informatics Association, 30(8), 1379-1388.
Ntylgeris, P. (2023). Unsupervised information extraction and linking to open data.
Tzimas, G., Zotos, N., Mourelatos, E., Giotopoulos, K. C., & Zervas, P. (2024). From Data to Insight: Transforming Online Job Postings into Labor-Market Intelligence. Information, 15(8), 496.
Green, T. A. F. (2023). Using NLP to resolve mismatches between jobseekers and positions in recruitment (Doctoral dissertation, University of Sheffield).
Ganga, V. S., Kranthi, S., Regalla, S. N. D., & Vissakodeti, L. L. (2024, April). Skill Extractor in Resumes using Machine Learning and Streamlit. In 2024 1st International Conference on Trends in Engineering Systems and Technologies (ICTEST) (pp. 1-5). IEEE.
Skrypnyk, R. (2024). The Role of Artificial Intelligence in the European Union Labor Market (Doctoral dissertation, Mykolo Romerio universitetas.).
Kim, S., Ahn, Y. Y., & Park, J. (2024, May). Labor Space: A Unifying Representation of the Labor Market via Large Language Models. In Proceedings of the ACM on Web Conference 2024 (pp. 2441-2451).
Anelli, G. (2023). But which skills?. Work Organisation, Labour & Globalisation, 17(2), 91-104.
Filippo, C., Vito, G., Irene, S., Simone, B., & Gualtiero, F. (2024). Future applications of generative large language models: A data-driven case study on ChatGPT. Technovation, 133, 103002.
Egger, R., & Yu, J. (2022). A topic modeling comparison between lda, nmf, top2vec, and bertopic to demystify twitter posts. Frontiers in sociology, 7, 886498.
de Groot, M., Aliannejadi, M., & Haas, M. R. (2022). Experiments on generalizability of BERTopic on multi-domain short text. arXiv preprint arXiv:2212.08459.
Wu, W., Ghazali, M., & Huspi, S. H. (2024). A Review of User Profiling Based on Social Networks. IEEE Access.