Data Mining

  1. Data Mining

    Achtung: code nicht mehr aktuell !

    Jedes Jahr findet ein sog. Data Mining Cup statt ( http://www.data-mining-cup.de). Bei diesem Wettbewerb soll man z.B. an Hand von Kundendaten, Vorhersagen auf ein bestimmtes Kundenverhalten treffen.

    Diese Daten sind ein idealer Kandidat, um Multi-Variate Analysetechniken auszuprobieren.

    cd ../examples
    cp /home/Johannes.Elmsheuser/mining/2002.tar.gz .
    tar xzf 2002.tar.gz
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/TMVA/lib
    make
    

    Die Aufgabe aus dem Jahr 2002 steht in der Datei de_Aufgabe_DMC2002.txt. Es sollen Stromkunden klassifiziert werden, die zu einem anderen Anbieter wechseln oder nicht.

    Die verschiedenen Variable der Trainingsdatei data_dmc2002_train.txt sind in de_Merkmale_DMC2002.txt beschrieben. Die Daten wurden in verschiedene ROOT Datei umgewandelt: train.root enthält alle 10000 Datensätze aus data_dmc2002_train.txt, während train_yes.root 1000 ,,canceler'' und train_no.root die 9000 ,,nicht-canceler'' enthält.

    Machen Sie sich mit den verschiedenen Variablen vertraut, in dem ROOT mit den gesamten Eingabedaten starten: root train.root und anschließend mit dem TBrowser b die Variablen anzeigen lassen.

    Als nächstes können Sie das Makro plot.C verwenden, um sich verschiedene Variablen simulant anzuschauen. Fügen Sie weitere Variablen in der Anzeigen vonn plot.C hinzu. Welche Variablen eignen sich voraussichtlich am besten zu Trennung zwischen ,,canceler'' und ,,nicht-canceler'' ?

    Verwenden sie TMVA, um verschiedene Multi-Variate Classifier, zu trainieren. Verwenden sie zunächst nur die Fisher Methode

    ./TMVAnalysis Fisher
    

    Vergleichen sie die verschiedenen Signal und Background Verteilungen mit:

    root -l ../macros/TMVAGui.C
    

    In der Bildschirm-Ausgabe von TMVA werden auch die Classfier nach ihrer Qualität Signal von Untergrund zu trennen aufgeführt. Welches sind die besten Variablen für die Fisher Methode ?

    Anschliessend trainieren sie weitere Classifier für Neuronale Netze (MLP - Multi Layer Perceptron) und Boosted Decision Trees (BDT) mit:

    ./TMVAnalysis Fisher MLP BDT
    
    Dieses Training dauert je nach CPU Leistung mehrere Minute. Vergleichen sie auch hier die Leistung der verschiedenen Classifier. Welche Variablen eigenen sich hier am besten zur Signal und Untergrundtrennung ?

    Wenden Sie die trainierten Classifier auf die ,,echten'' zu klassifizierenden Daten an mit:

    ./TMVApplication
    

    Öffnen Sie anschließend die erzeugte Datei TMVApp.root und schätzen Sie erfolgte Klassifierung der Daten mit Hilfe der verschiedenen Algorithmen ein.

GDuckeck 2018-04-10