Visitor menu

Bases de données
Base de données arff pour classification avec Weka

Les bases de données que vous pouvez télécharger ici utilisent le format ARFF, abondamment utilisé pour Weka.

Ces bases de données ont été utilisées pour mon projet de maîtrise. Chaque base contient des descripteurs d'image (concernant la forme, la couleur ou la texture), obtenus à l'aide d'un algorithme d'extraction de caractéristiques programmé avec le langage Matlab.

Les images ont été soit produites par moi et mes collègues du LIVIA, soit téléchargées sur internet (pour visiter les sites de référence, utilisez la colonne Référence du tableau ci-dessous).

Le tableau présente les 8 fichiers arff que l'on peut télécharger, et présente quelques informations. Vous pouvez utiliser ce lien pour télécharger les 8 fichiers à la fois.

FichierNb. classesNb. éch./clas.Total éch.RéférenceDescriptionMeilleure médiane de l'erreur obtenue
cereals_500.arff65003000* Voir ci-bas6 types de céréales segmentéesSVM2 : 1.5% d'erreur
cereals_950.arff69505700* Voir ci-basmême que précédente - plus d'échantillons par classeSVM2 1.5% d'erreur
leaves_60.arff360180Caltech3 types de feuilles non segmentéesSVM2 : 26.67% d'erreur
cropped_leaves_60.arff 360180* Voir ci-bas3 types de feuilles - images rognées (carrées)PGB, SVM ou PM (égaux) : 6.67% d'erreur
digits_33.arff1060330* Voir ci-basChiffres par ordinateur segmentés en niveau de grisPM : 5.45% d'erreur
knots_27.arff627162Oulu Noeuds de bois segmentésPM : 20.37% d'erreur
pollen_196.arff71961372Bangor 7 types de pollen segmentés en niveau de grisSVM2 : 4.15% d'erreur
raisins_450.arff34501350* Voir ci-bas3 types de raisins segmentésSVM : 0.22% d'erreur

* Les images qui ont été utilisées pour produire ces bases de données ont été prises par des étudiants et chercheurs du LIVIA. Les bases d'image ne sont pas disponible ici car elles sont de grande taille. Dans le cas où vous aimeriez les utiliser, n'hésitez pas à me contacter.

Les bases de données du tableau contiennent 60 caractéristiques pour les images RVB, 48 pour celles en niveaux de gris et 43 pour les RVB non segmentées (feuilles seulement). La dernière colonne, nommée Meilleure médiane de l'erreur obtenue, indique l'erreur de classification médiane, sur 50 essais dans lesquels la base de données a été séparée aléatoirement 2/3 entraînement et 1/3 test, pour le classificateur obtenant les meilleurs résultats parmi les suivant (tous de Weka) :
Pour question ou commentaire sur cette page, me contacter.

Created by: Yan last modification: Thursday 08 of May, 2008[03:40:34 UTC] by Yan