{"paragraphs": [{"config": {"enabled": true, "editorHide": true}, "text": "%md\n\n<a id='chap-tpnlp'></a>", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><a id='chap-tpnlp'></a></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n# Travaux pratiques - Analyse de textes avec Spark NLP\n\nR\u00e9f\u00e9rences externes utiles :\n\n> - [John Snow Labs NLP](https://nlp.johnsnowlabs.com/)  \n- [Documentation Spark](https://spark.apache.org/docs/latest/)  \n- [Documentation API Spark en Scala](https://spark.apache.org/docs/latest/api/scala/org/apache/spark/index.html)  \n- [Documentation langage Scala](http://docs.scala-lang.org)  \n\n\n\nSpark NLP est une biblioth\u00e8que d\u00e9velopp\u00e9e pour Spark par la soci\u00e9t\u00e9 [John Snow Labs NLP](https://nlp.johnsnowlabs.com/) et permettant de r\u00e9aliser un assez grand nombre d\u2019op\u00e9rations de traitement automatique pour plusieurs langues. Cette biblioth\u00e8que est aujourd\u2019hui bien positionn\u00e9e par rapport \u00e0 ses concurrents, voir par exemple [ce comparatif](https://blog.dominodatalab.com/comparing-the-functionality-of-open-source-natural-language-processing-libraries/).\nL\u2019objectif de cette s\u00e9ance de TP est de faire une rapide introduction \u00e0 l\u2019utilisation de Spark NLP.\n\nEx\u00e9cutez les commandes suivantes pour cr\u00e9er l\u2019environnement n\u00e9cessaire. D\u2019abord, il faut cr\u00e9er le r\u00e9pertoire de travail et t\u00e9l\u00e9charger les donn\u00e9es :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h1>Travaux pratiques - Analyse de textes avec Spark NLP</h1>\n\n<p>R\u00e9f\u00e9rences externes utiles :</p>\n\n<blockquote>\n  <ul>\n  <li><a href=\"https://nlp.johnsnowlabs.com/\">John Snow Labs NLP</a>  </li>\n  <li><a href=\"https://spark.apache.org/docs/latest/\">Documentation Spark</a>  </li>\n  <li><a href=\"https://spark.apache.org/docs/latest/api/scala/org/apache/spark/index.html\">Documentation API Spark en Scala</a>  </li>\n  <li><a href=\"http://docs.scala-lang.org\">Documentation langage Scala</a>  </li>\n  </ul>\n</blockquote>\n\n<p>Spark NLP est une biblioth\u00e8que d\u00e9velopp\u00e9e pour Spark par la soci\u00e9t\u00e9 <a href=\"https://nlp.johnsnowlabs.com/\">John Snow Labs NLP</a> et permettant de r\u00e9aliser un assez grand nombre d\u2019op\u00e9rations de traitement automatique pour plusieurs langues. Cette biblioth\u00e8que est aujourd\u2019hui bien positionn\u00e9e par rapport \u00e0 ses concurrents, voir par exemple <a href=\"https://blog.dominodatalab.com/comparing-the-functionality-of-open-source-natural-language-processing-libraries/\">ce comparatif</a>.\nL\u2019objectif de cette s\u00e9ance de TP est de faire une rapide introduction \u00e0 l\u2019utilisation de Spark NLP.</p>\n\n<p>Ex\u00e9cutez les commandes suivantes pour cr\u00e9er l\u2019environnement n\u00e9cessaire. D\u2019abord, il faut cr\u00e9er le r\u00e9pertoire de travail et t\u00e9l\u00e9charger les donn\u00e9es :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nimport sys.process._\n\n// R\u00e9cup\u00e9ration des donn\u00e9es\n\"wget -nc http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/texteEn.txt -P tpnlp\" !\n\n\"wget -nc http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/texteFr.txt -P tpnlp\" !\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>```scala\nimport sys.process._</p>\n\n<p>// R\u00e9cup\u00e9ration des donn\u00e9es\n\"wget -nc http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/texteEn.txt -P tpnlp\" !</p>\n\n<p>\"wget -nc http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/texteFr.txt -P tpnlp\" !\n```</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nJupyter\n\nAfin d\u2019utiliser Spark NLP, nous devons importer le module. Comme il s\u2019agit d\u2019une d\u00e9pendance externe (c\u2019est-\u00e0-dire un module qui n\u2019est pas inclus de base dans Spark), nous devons r\u00e9cup\u00e9rer le .jar depuis les d\u00e9p\u00f4ts en ligne.\nDe fa\u00e7on analogue \u00e0 Vegas dans les TP pr\u00e9c\u00e9dents, nous pouvons importer SparkNLP dans Jupyter via la commande magique %AddDeps fournie par Apache Toree:", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Jupyter</p>\n\n<p>Afin d\u2019utiliser Spark NLP, nous devons importer le module. Comme il s\u2019agit d\u2019une d\u00e9pendance externe (c\u2019est-\u00e0-dire un module qui n\u2019est pas inclus de base dans Spark), nous devons r\u00e9cup\u00e9rer le .jar depuis les d\u00e9p\u00f4ts en ligne.\nDe fa\u00e7on analogue \u00e0 Vegas dans les TP pr\u00e9c\u00e9dents, nous pouvons importer SparkNLP dans Jupyter via la commande magique %AddDeps fournie par Apache Toree:</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\n%AddDeps com.johnsnowlabs.nlp spark-nlp_2.11 2.7.5 --transitive\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\n%AddDeps com.johnsnowlabs.nlp spark-nlp_2.11 2.7.5 --transitive\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nCette commande permet de t\u00e9l\u00e9charger automatiquement et d\u2019utiliser par la suite dans Spark la biblioth\u00e8que SparkNLP ainsi que toutes ses d\u00e9pendances (option \u2013transitive). Nous utilisons la version *2.7.5* de la biblioth\u00e8que compil\u00e9e pour Scala 2.11 (qui est la version compatible avec Spark *2.4.x*, que nous utilisons pour les TP).\n\nPour d\u2019autres versions de Spark veuillez regarder [la documentation de Spark NLP](https://nlp.johnsnowlabs.com/docs/en/quickstart).", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Cette commande permet de t\u00e9l\u00e9charger automatiquement et d\u2019utiliser par la suite dans Spark la biblioth\u00e8que SparkNLP ainsi que toutes ses d\u00e9pendances (option \u2013transitive). Nous utilisons la version <em>2.7.5</em> de la biblioth\u00e8que compil\u00e9e pour Scala 2.11 (qui est la version compatible avec Spark <em>2.4.x</em>, que nous utilisons pour les TP).</p>\n\n<p>Pour d\u2019autres versions de Spark veuillez regarder <a href=\"https://nlp.johnsnowlabs.com/docs/en/quickstart\">la documentation de Spark NLP</a>.</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n# Note\n\nSi vous souhaitez utiliser Spark NLP hors connexion, l\u2019alternative est de cr\u00e9er un `.jar` local contenant cette biblioth\u00e8que et ensuite d\u2019utiliser le `.jar`. Pour obtenir le `.jar` il faut entrer les commandes suivantes (\u00e9tant positionn\u00e9 dans le r\u00e9pertoire `tpnlp`) si une version 2.4 de Spark est employ\u00e9e :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h1>Note</h1>\n\n<p>Si vous souhaitez utiliser Spark NLP hors connexion, l\u2019alternative est de cr\u00e9er un <code>.jar</code> local contenant cette biblioth\u00e8que et ensuite d\u2019utiliser le <code>.jar</code>. Pour obtenir le <code>.jar</code> il faut entrer les commandes suivantes (\u00e9tant positionn\u00e9 dans le r\u00e9pertoire <code>tpnlp</code>) si une version 2.4 de Spark est employ\u00e9e :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```bash\ngit clone https://github.com/JohnSnowLabs/spark-nlp\ncd spark-nlp\nsbt -Dis_spark24=true assembly\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>bash\ngit clone https://github.com/JohnSnowLabs/spark-nlp\ncd spark-nlp\nsbt -Dis_spark24=true assembly\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nUne fois cr\u00e9\u00e9 le `.jar`, il faut lancer `spark-shell` avec", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Une fois cr\u00e9\u00e9 le <code>.jar</code>, il faut lancer <code>spark-shell</code> avec</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```bash\nspark-shell --jars spark-nlp/target/scala-2.11/spark-nlp-spark24-assembly-3.3.0.jar\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>bash\nspark-shell --jars spark-nlp/target/scala-2.11/spark-nlp-spark24-assembly-3.3.0.jar\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nOu bien dans Jupyter :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Ou bien dans Jupyter :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```text\n%AddDeps file:/chemin/vers/spark-nlp/target/scala-2.11/spark-nlp-spark24-assembly-3.3.0.jar\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>text\n%AddDeps file:/chemin/vers/spark-nlp/target/scala-2.11/spark-nlp-spark24-assembly-3.3.0.jar\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Traitement d\u2019un fichier texte en anglais\n\nNous appliquerons d\u2019abord certains traitements au fichier **en anglais** `texteEn.txt` (le contenu textuel d\u2019une page Wikipedia).\nDans Spark, il faut donc lire ce fichier dans un *DataFrame*.", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Traitement d\u2019un fichier texte en anglais</h2>\n\n<p>Nous appliquerons d\u2019abord certains traitements au fichier <strong>en anglais</strong> <code>texteEn.txt</code> (le contenu textuel d\u2019une page Wikipedia).\nDans Spark, il faut donc lire ce fichier dans un <em>DataFrame</em>.</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\n// enlever tpnlp/ si spark-shell ou Zeppelin sont lanc\u00e9s dans le r\u00e9pertoire tpnlp\nval texteEnTout = spark.read.textFile(\"tpnlp/texteEn.txt\").toDF(\"text\")\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\n// enlever tpnlp/ si spark-shell ou Zeppelin sont lanc\u00e9s dans le r\u00e9pertoire tpnlp\nval texteEnTout = spark.read.textFile(\"tpnlp/texteEn.txt\").toDF(\"text\")\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nUne fois ce travail effectu\u00e9, nous allons \u00e9liminer les lignes de texte qui sont vides :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Une fois ce travail effectu\u00e9, nous allons \u00e9liminer les lignes de texte qui sont vides :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nimport org.apache.spark.sql.functions.length\n\nval texteEn = texteEnTout.where(length($\"text\") > 0)\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>```scala\nimport org.apache.spark.sql.functions.length</p>\n\n<p>val texteEn = texteEnTout.where(length($\"text\") &gt; 0)\n```</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nLe fichier texte a \u00e9t\u00e9 lu dans un *DataFrame* qui poss\u00e8de une seule colonne appel\u00e9e `text` (les traitements pr\u00e9d\u00e9finis que nous regarderons dans la suite attendent une colonne ayant ce nom comme colonne d\u2019entr\u00e9e). Chaque paragraphe (termin\u00e9 par un saut de ligne) est lu dans un item du *DataFrame*. Avec `.where(length(\\$\"value\") > 0)` nous \u00e9liminons les items vides (correspondant aux paragraphes vides entre deux sauts de lignes successifs).", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Le fichier texte a \u00e9t\u00e9 lu dans un <em>DataFrame</em> qui poss\u00e8de une seule colonne appel\u00e9e <code>text</code> (les traitements pr\u00e9d\u00e9finis que nous regarderons dans la suite attendent une colonne ayant ce nom comme colonne d\u2019entr\u00e9e). Chaque paragraphe (termin\u00e9 par un saut de ligne) est lu dans un item du <em>DataFrame</em>. Avec <code>.where(length(\\$\"value\") &gt; 0)</code> nous \u00e9liminons les items vides (correspondant aux paragraphes vides entre deux sauts de lignes successifs).</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Question\n\n\u00c0 l\u2019aide de Spark, d\u00e9terminer combien le fichier `textEn.txt` comporte de lignes non-vides.\n\nSpark NLP propose aussi bien des traitements s\u00e9par\u00e9s (les [annotateurs](https://nlp.johnsnowlabs.com/docs/en/annotators)) que des regroupements pr\u00e9d\u00e9finis de plusieurs traitements (les [pipelines](https://nlp.johnsnowlabs.com/docs/en/pipelines)). La documentation disponible pourrait sans doute \u00eatre plus d\u00e9taill\u00e9e.\n\nCommen\u00e7ons par importer les modules utiles :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Question</h2>\n\n<p>\u00c0 l\u2019aide de Spark, d\u00e9terminer combien le fichier <code>textEn.txt</code> comporte de lignes non-vides.</p>\n\n<p>Spark NLP propose aussi bien des traitements s\u00e9par\u00e9s (les <a href=\"https://nlp.johnsnowlabs.com/docs/en/annotators\">annotateurs</a>) que des regroupements pr\u00e9d\u00e9finis de plusieurs traitements (les <a href=\"https://nlp.johnsnowlabs.com/docs/en/pipelines\">pipelines</a>). La documentation disponible pourrait sans doute \u00eatre plus d\u00e9taill\u00e9e.</p>\n\n<p>Commen\u00e7ons par importer les modules utiles :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nimport org.apache.spark.ml.Pipeline\nimport com.johnsnowlabs.nlp.pretrained.PretrainedPipeline\nimport com.johnsnowlabs.nlp.Finisher\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\nimport org.apache.spark.ml.Pipeline\nimport com.johnsnowlabs.nlp.pretrained.PretrainedPipeline\nimport com.johnsnowlabs.nlp.Finisher\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nNous appliquons d\u2019abord des traitements pr\u00e9d\u00e9finis dans un *pipeline* Spark NLP, `explain_document_ml` : d\u00e9coupage en phrases, d\u00e9coupage en tokens (mots), lemmatisation, \u00e9tiquetage morpho-syntaxique. Les r\u00e9sultats sont ensuite trait\u00e9s par un *annotateur* (en terminologie Spark NLP) appel\u00e9 *finisher* qui rend les r\u00e9sultats plus facilement lisibles par un humain. Pour appliquer le *pipeline* Spark NLP et ensuite le *finisher* aux r\u00e9sultats, nous int\u00e9grons les deux dans un *pipeline* Spark :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Nous appliquons d\u2019abord des traitements pr\u00e9d\u00e9finis dans un <em>pipeline</em> Spark NLP, <code>explain_document_ml</code> : d\u00e9coupage en phrases, d\u00e9coupage en tokens (mots), lemmatisation, \u00e9tiquetage morpho-syntaxique. Les r\u00e9sultats sont ensuite trait\u00e9s par un <em>annotateur</em> (en terminologie Spark NLP) appel\u00e9 <em>finisher</em> qui rend les r\u00e9sultats plus facilement lisibles par un humain. Pour appliquer le <em>pipeline</em> Spark NLP et ensuite le <em>finisher</em> aux r\u00e9sultats, nous int\u00e9grons les deux dans un <em>pipeline</em> Spark :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\n// Charge le mod\u00e8le pr\u00e9-entra\u00een\u00e9 \"explain_document_ml\")\nval explainPipelineModel = PretrainedPipeline(\"explain_document_ml\").model\n// Le Finisher permet d'annoter les r\u00e9sultats de fa\u00e7on lisible par un humain\nval finisherExplainEn = new Finisher().setInputCols(\"token\", \"lemmas\", \"pos\")\n// Cr\u00e9ation d'un Pipeline Spark qui applique le mod\u00e8le puis l'annotateur\nval pipelineExplainEn = new Pipeline().setStages(Array(explainPipelineModel,finisherExplainEn))\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\n// Charge le mod\u00e8le pr\u00e9-entra\u00een\u00e9 \"explain_document_ml\")\nval explainPipelineModel = PretrainedPipeline(\"explain_document_ml\").model\n// Le Finisher permet d'annoter les r\u00e9sultats de fa\u00e7on lisible par un humain\nval finisherExplainEn = new Finisher().setInputCols(\"token\", \"lemmas\", \"pos\")\n// Cr\u00e9ation d'un Pipeline Spark qui applique le mod\u00e8le puis l'annotateur\nval pipelineExplainEn = new Pipeline().setStages(Array(explainPipelineModel,finisherExplainEn))\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nLe traitement est ensuite appliqu\u00e9 aux donn\u00e9es et les r\u00e9sultats sont affich\u00e9s, vous pouvez les examiner :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Le traitement est ensuite appliqu\u00e9 aux donn\u00e9es et les r\u00e9sultats sont affich\u00e9s, vous pouvez les examiner :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nval modelExplainEn = pipelineExplainEn.fit(texteEn)\nval annoteTexteEn = modelExplainEn.transform(texteEn).cache()\nannoteTexteEn.show()\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\nval modelExplainEn = pipelineExplainEn.fit(texteEn)\nval annoteTexteEn = modelExplainEn.transform(texteEn).cache()\nannoteTexteEn.show()\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Question\n\nQuelles sont les diff\u00e9rentes colonnes accessibles dans le *DataFrame* annoteTexteEn ? \u00c0 quoi correspondent-elles ?\n\nAfficher les 10 premi\u00e8res lignes pour:\n\n- la colonne correspondant \u00e0 la tokenisation;  \n- la colonne correspondant \u00e0 la lemmatisation;  \n- la colonne correspondent \u00e0 l\u2019\u00e9tiquetage morpho-syntaxique (*part-of-speech tagging* ou POS).  ", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Question</h2>\n\n<p>Quelles sont les diff\u00e9rentes colonnes accessibles dans le <em>DataFrame</em> annoteTexteEn ? \u00c0 quoi correspondent-elles ?</p>\n\n<p>Afficher les 10 premi\u00e8res lignes pour:</p>\n\n<ul>\n<li>la colonne correspondant \u00e0 la tokenisation;  </li>\n<li>la colonne correspondant \u00e0 la lemmatisation;  </li>\n<li>la colonne correspondent \u00e0 l\u2019\u00e9tiquetage morpho-syntaxique (<em>part-of-speech tagging</em> ou POS).  </li>\n</ul>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Exp\u00e9rimentation avec l\u2019analyse des sentiments\n\nSpark NLP propose \u00e9galement d\u2019autres *pipelines* pr\u00e9d\u00e9finis, voir [la documentation](https://nlp.johnsnowlabs.com/docs/en/pipelines), dont un qui a pour objectif d\u2019associer \u00e0 chaque phrase une \u00e9tiquette indiquant si les sentiments transmis par la phrase sont positifs ou n\u00e9gatifs. Nous faisons ci-dessous un essai de ce *pipeline* sur des donn\u00e9es bien plus courtes, \u00e9crites directement dans l\u2019interface de Spark et que vous pouvez modifier \u00e0 loisir :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Exp\u00e9rimentation avec l\u2019analyse des sentiments</h2>\n\n<p>Spark NLP propose \u00e9galement d\u2019autres <em>pipelines</em> pr\u00e9d\u00e9finis, voir <a href=\"https://nlp.johnsnowlabs.com/docs/en/pipelines\">la documentation</a>, dont un qui a pour objectif d\u2019associer \u00e0 chaque phrase une \u00e9tiquette indiquant si les sentiments transmis par la phrase sont positifs ou n\u00e9gatifs. Nous faisons ci-dessous un essai de ce <em>pipeline</em> sur des donn\u00e9es bien plus courtes, \u00e9crites directement dans l\u2019interface de Spark et que vous pouvez modifier \u00e0 loisir :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nval sentimentPipelineModel = PretrainedPipeline(\"analyze_sentiment\").model\nval finisherSentiment = new Finisher().setInputCols(\"document\",\"sentiment\")\nval pipelineSentiment = new Pipeline().setStages(Array(sentimentPipelineModel,finisherSentiment))\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\nval sentimentPipelineModel = PretrainedPipeline(\"analyze_sentiment\").model\nval finisherSentiment = new Finisher().setInputCols(\"document\",\"sentiment\")\nval pipelineSentiment = new Pipeline().setStages(Array(sentimentPipelineModel,finisherSentiment))\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nNous pouvons l\u2019appliquer sur un *DataFrame* contenant des donn\u00e9es de test, pour exp\u00e9rimenter :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Nous pouvons l\u2019appliquer sur un <em>DataFrame</em> contenant des donn\u00e9es de test, pour exp\u00e9rimenter :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nval testSentimentData = Seq(\"The movie is great. But the cinema is quite dirty.\").toDF(\"text\")\nval modelSentiment = pipelineSentiment.fit(testSentimentData)\nval sentimentTestSentimentData = modelSentiment.transform(testSentimentData)\nsentimentTestSentimentData.show(false)\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\nval testSentimentData = Seq(\"The movie is great. But the cinema is quite dirty.\").toDF(\"text\")\nval modelSentiment = pipelineSentiment.fit(testSentimentData)\nval sentimentTestSentimentData = modelSentiment.transform(testSentimentData)\nsentimentTestSentimentData.show(false)\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Question\n\n\u00c0 quoi correspondent les valeurs de la colonne finished_sentiment du *DataFrame* sentimentTestSentimentData ?\n\nModifier la phrase de test de sorte \u00e0 n\u2019avoir que des sentiments positifs.", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Question</h2>\n\n<p>\u00c0 quoi correspondent les valeurs de la colonne finished_sentiment du <em>DataFrame</em> sentimentTestSentimentData ?</p>\n\n<p>Modifier la phrase de test de sorte \u00e0 n\u2019avoir que des sentiments positifs.</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Traitement d\u2019un fichier texte en fran\u00e7ais\n\nEnfin, examinons maintenant un autre *pipeline*, `explain_document_md`, appliqu\u00e9e au document **en fran\u00e7ais** `texteFr.txt` (l\u2019\u00e9quivalent plus court en fran\u00e7ais de la page Wikipedia en anglais consid\u00e9r\u00e9e plus haut). Ce *pipeline* inclut \u00e9galement l\u2019identification d\u2019entit\u00e9s nomm\u00e9es (*Named Entity Recognition*, NER, colonne `ner`) et leur extraction (colonne `entities`).\n\nComme pr\u00e9c\u00e9demment, commen\u00e7ons par charger le texte fran\u00e7ais dans un *DataFrame* en \u00e9liminant les lignes vides.", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Traitement d\u2019un fichier texte en fran\u00e7ais</h2>\n\n<p>Enfin, examinons maintenant un autre <em>pipeline</em>, <code>explain_document_md</code>, appliqu\u00e9e au document <strong>en fran\u00e7ais</strong> <code>texteFr.txt</code> (l\u2019\u00e9quivalent plus court en fran\u00e7ais de la page Wikipedia en anglais consid\u00e9r\u00e9e plus haut). Ce <em>pipeline</em> inclut \u00e9galement l\u2019identification d\u2019entit\u00e9s nomm\u00e9es (<em>Named Entity Recognition</em>, NER, colonne <code>ner</code>) et leur extraction (colonne <code>entities</code>).</p>\n\n<p>Comme pr\u00e9c\u00e9demment, commen\u00e7ons par charger le texte fran\u00e7ais dans un <em>DataFrame</em> en \u00e9liminant les lignes vides.</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nval texteFr = spark.read.textFile(\"tpnlp/texteFr.txt\").toDF(\"text\").where(length($\"text\") > 0)\nprintln(texteFr.count)\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\nval texteFr = spark.read.textFile(\"tpnlp/texteFr.txt\").toDF(\"text\").where(length($\"text\") &gt; 0)\nprintln(texteFr.count)\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nSpark NPL propose un mod\u00e8le d\u2019explication de documents pour la langue fran\u00e7aise, que nous pouvons charger de fa\u00e7on analogue au *PretrainedPipeline* utilis\u00e9 plus haut :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Spark NPL propose un mod\u00e8le d\u2019explication de documents pour la langue fran\u00e7aise, que nous pouvons charger de fa\u00e7on analogue au <em>PretrainedPipeline</em> utilis\u00e9 plus haut :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nval explainPipelineModel = PretrainedPipeline(\"explain_document_md\",\"fr\").model\nval finisherExplainFr = new Finisher().setInputCols(\"token\", \"lemma\", \"pos\", \"ner\", \"entities\")\nval pipelineExplainFr = new Pipeline().setStages(Array(explainPipelineModel,finisherExplainFr))\n\nval modelExplainFr = pipelineExplainFr.fit(texteFr)\nval annoteTexteFr = modelExplainFr.transform(texteFr)\n\nannoteTexteFr.show(5, false)\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>```scala\nval explainPipelineModel = PretrainedPipeline(\"explain<em>document</em>md\",\"fr\").model\nval finisherExplainFr = new Finisher().setInputCols(\"token\", \"lemma\", \"pos\", \"ner\", \"entities\")\nval pipelineExplainFr = new Pipeline().setStages(Array(explainPipelineModel,finisherExplainFr))</p>\n\n<p>val modelExplainFr = pipelineExplainFr.fit(texteFr)\nval annoteTexteFr = modelExplainFr.transform(texteFr)</p>\n\n<p>annoteTexteFr.show(5, false)\n```</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nVous pouvez examiner le r\u00e9sultat des op\u00e9rations de lemmatisation (qui ont pour objectif de remplacer chaque mot par sa forme \u00ab canonique \u00bb) et l\u2019identification des entit\u00e9s nomm\u00e9es.", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Vous pouvez examiner le r\u00e9sultat des op\u00e9rations de lemmatisation (qui ont pour objectif de remplacer chaque mot par sa forme \u00ab canonique \u00bb) et l\u2019identification des entit\u00e9s nomm\u00e9es.</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n## Question\n\nExaminez les entit\u00e9s nomm\u00e9es de la premi\u00e8re phrase du document (c\u2019est-\u00e0-dire la premi\u00e8re ligne du *DataFrame*). Quelles sont-elles ? De quelles types sont-elles ?", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><h2>Question</h2>\n\n<p>Examinez les entit\u00e9s nomm\u00e9es de la premi\u00e8re phrase du document (c\u2019est-\u00e0-dire la premi\u00e8re ligne du <em>DataFrame</em>). Quelles sont-elles ? De quelles types sont-elles ?</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\n// Afficher la premi\u00e8re ligne\ntexteFr.show(1, false)\n// \u00c0 compl\u00e9ter\n// ...\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p><code>scala\n// Afficher la premi\u00e8re ligne\ntexteFr.show(1, false)\n// \u00c0 compl\u00e9ter\n// ...\n</code></p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nPour terminer, notons que Spark NLP permet d\u2019afficher directement en Scala la liste des ressources disponibles, et notamment des mod\u00e8les d\u2019analyse de texte qui sont disponibles.\nPar exemple, pour afficher tous les *Pipelines* disponibles pour l\u2019analyse de texte en fran\u00e7ais (lang=fr) :", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Pour terminer, notons que Spark NLP permet d\u2019afficher directement en Scala la liste des ressources disponibles, et notamment des mod\u00e8les d\u2019analyse de texte qui sont disponibles.\nPar exemple, pour afficher tous les <em>Pipelines</em> disponibles pour l\u2019analyse de texte en fran\u00e7ais (lang=fr) :</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\n```scala\nimport com.johnsnowlabs.nlp.pretrained.ResourceDownloader\n\nResourceDownloader.showPublicPipelines(lang=\"fr\")\n```\n", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>```scala\nimport com.johnsnowlabs.nlp.pretrained.ResourceDownloader</p>\n\n<p>ResourceDownloader.showPublicPipelines(lang=\"fr\")\n```</p>\n</div>"}]}}, {"config": {"enabled": true, "editorHide": true}, "text": "%md\nNotez que certains *Pipelines* ne sont disponibles qu\u2019\u00e0 partir de la version 3.0 de Spark NLP.\n\nNous nous servirons de Spark NLP dans une s\u00e9ance de TP suivante afin produire des repr\u00e9sentations vectorielles de textes \u00e0 classer.", "results": {"code": "SUCCESS", "msg": [{"type": "HTML", "data": "<div class=\"markdown-body\"><p>Notez que certains <em>Pipelines</em> ne sont disponibles qu\u2019\u00e0 partir de la version 3.0 de Spark NLP.</p>\n\n<p>Nous nous servirons de Spark NLP dans une s\u00e9ance de TP suivante afin produire des repr\u00e9sentations vectorielles de textes \u00e0 classer.</p>\n</div>"}]}}], "config": {}, "info": {}, "name": "tpNlp", "id": "CA5106C2"}