Revenir à l'
accueil
Technologies HTML et complémentaires
Cours de HTML en anglais
Référence pour le HTML, CSS, XSL, etc.
en français
Récupérer des pages HTML et les transformer en XML
LXML
Parsing and converting HTML documents to XML/TEI format using Python’s lxml
Tutoriel avec exemple
Vidéo du même tutoriel
BeautifulSoup
Programming historian: Intro to Beautiful Soup
Using BeautifulSoup to add works to the DLL's database
Trafilatura
Une nouvelle librairie en cours de développement, utile et clés en main, parfois un peu limitée dans les possitilités de choix (en fonction de la compléxité de la page
HTML
)
Trafilatura sur GitHub
Extracting the main text content from web pages using Python
Scrapy
YouTube:
Tutoriel complet
Présentation sur Wikipaedia
Scrapy at a glance
Documentation
war_entities_stag.csv.zip