Outils pour utilisateurs

Outils du site


python:traitement_texte_vers_xml

Retour à la page Traitement de corpus textuels

Atelier du 27 novembre 2018

Objectifs :

  • importation d'un corpus de textes OCRisés au format Word
  • constitution du corpus dans Python
  • tokenisation en français
  • analyse de fréquences pour nettoyer le texte

Ressources :

  • Corpus de texte (lien à mettre)
  • Librairies python pour importer les documents Word :
python/traitement_texte_vers_xml.txt · Dernière modification: 2019/11/16 09:27 par Francesco Beretta