Outils personnels
User menu

Extraction des données de Wikipedia

De DBpediaFr.

Les outils d'extraction sont fournis par dbpedia.org.

Cette page est une fiche récapitulative pour l'installation des outils d'extraction. Elle reprend des éléments de la documentation originale, en anglais.


Sommaire

Dépendances


Fork customisé pour Wikipedia fr

depot git

  • Charger le code depuis le dépot git
git clone https://github.com/JulienCojan/extraction-framework.git
  • Charger la branche 'wp_fr'
git checkout 'wp_fr'
  • Exécuter la commande mvn install à partir du répertoire extraction_Framework.

configuration

Éditer le parametre base-dir dans les fichiers suivants pour indiquer le dossier où seront téléchargés les dumps et générées les données en sortie:

  • dump/download.properties
  • dump/extraction.wikipedia-fr.properties
  • dump/extraction.wikidata.properties

Il faut mettre la même valeur dans les trois fichiers.

Il faut donner encore la même valeur au paramètre BASE_DIR de run_extraction_fr.sh.

extraction des résumés

L'extraction des résumés est désactivée ici. Pour l'activer, il faut auparavant mettre en place un miroir de Wikipedia pour l'extraction des résumé (voir AbstractExtractor#Extraire_les_résumés_en_français), puis ajouter .AbstractExtractor au paramètre extractors.fr de dump/extraction.wikipedia-fr.properties.

Les résumés de différentes langues sont imprtés depuis DBpedia.org. Pour ajuster la liste, éditer le paramètre IMPORT_FROM de dump/src/main/bash/import_abstracts_dbpedia.sh. Les résumés en français y sont disponibles.

lancer l'extraction

Depuis le répertoire recine (extraction_Framework):

./run_extraction_fr.sh

mettre à jour depuis le dépôt DBpedia

Le code du dépôt évolue régulièrement, il peut être nécessaire de se mettre à jour de temps en temps.

Attention il vaut mieux être familier avec git avant de se lancer dans ces manipulations qui peuvent entraîner des conflits.

Ajouter le depôt dbpedia:

git remote add dbpedia https://github.com/dbpedia/extraction-framework.git

Récupérer le code

git checkout master
git pull dbpedia master

Incorporer les changements:

git checkout wp_fr
git rebase master

A partir du depot de code DBpedia

Compilation du code

  • Charger le code depuis le dépot git
   git clone https://github.com/dbpedia/extraction-framework.git
  • Exécuter la commande mvn install à partir du répertoire extraction_Framework.


Préparation des données

Deux méthodes pour charger les dumps:

Téléchargement automatique du dump le plus récent

Copier le fichier dump/download.minimal.properties en dump/download.properties. Modifier le paramètres base-dir (repertoire où seront placés les dumps). Faites apparaitre les lignes suivantes:

download=fr:pages-articles.xml.bz2
download=wikidata:pages-articles.xml.bz2
download=commons:pages-articles.xml.bz2

Et depuis le repertoire dump executer:

$mvn scala:run "-Dlauncher=download"   "-DaddArgs=config=download.properties"
Téléchargement manuel

Télécharger les fichiers depuis http://dumps.wikimedia.org

où [AAAAMMJJ] correspond à une date (peut etre différente pour chaque wiki). Les dumps peuvent être découpés en plusieurs fichiers terminant par pages-articles1.xml.bz2, pages-articles2.xml.bz2 ...

Les placer suivant la même structure de fichiers sous le répertoire base-dir, p.ex le dump de wikipedia dans [base-dir]/frwiki/[AAAAMMJJ]/.

Il faut alors mettre la valeur de require-download-complete dans le fichier extraction.properties à false:

require-download-complete=false

Il est aussi possible de charger de dump de quelques pages à partir de http://fr.wikipedia.org/wiki/Sécial:Exporter. Le nom du fichier et son emplacement doivent aussi respecter la structure de fichier de http://dumps.wikimedia.org.
Il est possible de lancer l'extraction sur les fichiers non compressés, il faut alors modifier le champ source de extraction.properties:

source=pages-articles.xml


Configuration de l'extraction

Il est actuellement nécessaire de créer deux fichiers de configuration, un premier pour l'extraction depuis wikipedia fr et de deuxième pour l'extraction depuis wikidata.

extraction.properties

Un exemple de configuration est donnée dans le fichier dump/config.default.properties. Faites une copie config.properties et ajustez les paramètres suivants :

  • base-dir : dossier dans lequel se trouvent des dumps (idem que dans #Préparation des données)
  • languages=fr pour limiter l'extraction à Wikipedia en français.
  • extractors et extractors.fr, ce sont les listes de extracteurs qui seront exécutés. La première liste est pour les extracteurs qui n'ont pas besoin de configuration par langue, la deuxième liste est propre à chaque langue. Tous les extracteurs devraient y être, pour commencer, il est peut-être utile d'en désactiver certains. En particulier l'extracteur AbstractExtractor demande l'installation d'une image de Wikipedia (voir AbstractExtractor#installation pour les instructions d'installation).
extraction.wikidata.properties

Ce sera surement amené à évoluer, actuellement il faut lancer l'extraction de wikidata comme s'il s'agissait d'une langue de wikipedia. Copier dump/config.default.properties en un nouveau fichier ''dump/extraction.wikidata.properties avec pour valeurs :

  • base-dir : idem que dans #Préparation des données
  • languages=wikidata
  • extractors=.WikidataLabelExtractor,.WikidataLLExtractor, \
    .WikidataFactsExtractor,.WikidataMappedFactsExtractor,\
    .WikidataNameSpaceSameAsExtractor,.WikidataSameAsExtractor


Lancer l'extraction

Exécuter les commandes suivantes à partir du répertoire dump:

mvn scala:run -Dlauncher=extraction -DaddArgs=extraction.properties
mvn scala:run -Dlauncher=extraction -DaddArgs=extraction.wikidata.properties


Extracteurs nécessitant une préparation supplémentaire


Import de données externes

Les scripts

Importer les scripts sur https://github.com/JulienCojan/extraction-framework/tree/my_dev/dump/src/main/bash:


Execution

Ces scripts prennent en entrée les sorties des extracteur WikidataLLExtractor, WikidataLabelExtractor et WikidataSameAsExtractor. Il faut les avoir exécutés sur Wikidata auparavant.

Paramétrer les scripts:

  • BASE_DIR: avec la même valeur que dans extraction.properties
  • TGT_WP='fr' (ajouter les données à DBpedia fr)
  • IMPORT_FROM: liste de langues pour lesquelles importer les résumés.
    (p.ex. : IMPORT_FROM=('en' 'es'))

Lancer l'import:

./import_external_data.sh

Rq.: les script a besoin de trier les fichiers assez volumineux, en particulier import_abstracts_dbpedia.sh (au dernier essai 1.5 Go pour les résumés en anglais). Si nécessaire ajouter l'option -T aux commandes sort.

Fichiers générés

Les fichiers générés sont placés dans le sous repertoire de BASE_DIR correspondant au dump wikipedia le plus récent:

  • wikidatawiki-[AAAAMMDD]-wikidata-labels-fr.ttl.gz
  • wikidatawiki-[AAAAMMDD]-wikidata-ll-fr.ttl.gz (liens inter DBpedia)
  • wikidatawiki-[AAAAMMDD]-wikidata-sameas-fr.ttl.gz (liens DBpedia -> wikidata)
  • short_abstracts_[lang]_for_fr.ttl.gz
  • long_abstracts_[lang]_for_fr.ttl.gz


Autres informations

Pré-charger l'ontologie et les mappings

Celà peut-être utile en cas d'extractions rapprochées, pour économiser le temps de téléchargement.

Depuis le répertoir [extraction_Framework]/dump:

scala -cp [chemin/vers/core-3.8.jar]:[chemin/vers/dump-3.8.jar] 
org.dbpedia.extraction.util.MappingsDownloader [répertoire/cible]

Les mappings seront enregistrés dans [répertoire/cible], c'est le répertoire à mettre dans l'entrée mappings de dump/pom.xml.

Exécution des outils d'extraction sans maven

Voir Installation_des_outils_d'extraction/Exécution_des_outils_d'extraction_sans_maven.

Charger les données dans Virtuoso

Voir Chargement des données dans Virtuoso

  • Dernière modification de cette page le 29 juin 2014 à 20:31.
  • Cette page a été consultée 1 840 fois.