Data Science Hack – Page 10 – Data Science Blog

Text Mining mit R

November 21, 2015/5 Comments/in Data Mining, Data Science, Data Science Hack, R Statistics, Statistics, Text Mining /by Dr. Dietrich Wettschereck

R ist nicht nur ein mächtiges Werkzeug zur Analyse strukturierter Daten, sondern eignet sich durchaus auch für erste Analysen von Daten, die lediglich in textueller und somit unstrukturierter Form vorliegen. Im Folgenden zeige ich, welche typischen Vorverarbeitungs- und Analyseschritte auf Textdaten leicht durchzuführen sind. Um uns das Leben etwas leichter zu machen, verwenden wir dafür die eine oder andere zusätzliche R-Library.

Die gezeigten Schritte zeigen natürlich nur einen kleinen Ausschnitt dessen, was man mit Textdaten machen kann. Der Link zum kompletten R-Code (.RMD) findet sich am Ende des Artikels.

Sentimentanalyse

Wir verwenden das Anwendungsgebiet der Sentimentanalyse für diese Demonstration. Mittels der Sentimentanalyse versucht man, Stimmungen zu analysieren. Im Prinzip geht es darum, zu erkennen, ob ein Autor mit einer Aussage eine positive oder negative Stimmung oder Meinung ausdrückt. Je nach Anwendung werden auch neutrale Aussagen betrachtet.

Daten einlesen

Datenquelle: ‘From Group to Individual Labels using Deep Features’, Kotzias et. al,. KDD 2015

Die Daten liegen als cvs vor: Die erste Spalte enhält jeweils einen englischen Satz, gefolgt von einem Tab, gefolgt von einer 0 für negatives Sentiment und einer 1 für positives Sentiment. Nicht alle Sätze in den vorgegebenen Daten sind vorklassifiziert.

Wir lesen 3 Dateien ein, fügen eine Spalte mit der Angabe der Quelle hinzu und teilen die Daten dann in zwei Datensätze auf. Der Datensatz labelled enthält alle vorklassifizierten Sätze während alle anderen Sätze in unlabelled gespeichert werden.

1

2

3

4

5

6

7

8

9

10

11

12

13

## 'readSentiment' liest csv ein, benennt die Spalten und konvertiert die Spalte 'sentiment' zu einem Faktor

amazon <-readSentiment("amazon_cells_labelled.txt")

amazon$source <- "amazon"

imdb <-readSentiment("imdb_labelled.txt")

imdb$source <- "imdb"

yelp <-readSentiment("yelp_labelled.txt")

yelp$source <- "yelp"

allText <- rbindlist(list(amazon, imdb, yelp), use.names=TRUE)

allText$source <- as.factor(allText$source)

unlabelled <- allText[is.na(allText$sentiment), ]

labelled <- allText[!is.na(allText$sentiment), ]

Wir haben nun 3000 vorklassifizierte Sätze, die entweder ein positives oder ein negatives Sentiment ausdrücken:

1

2

3

4

text sentiment source

Length:3000 0:1500 amazon:1000

Class :character 1:1500 imdb :1000

Mode :character yelp :1000

Textkorpus anlegen

Zuerst konvertieren wir den Datensatz in einen Korpus der R-Package tm:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

library(tm)

corpus <- Corpus(DataframeSource(data.frame(labelled$text)))

# meta data an Korpus anfügen:

meta(corpus, tag = "sentiment", type="indexed") <- labelled$sentiment

meta(corpus, tag = "source", type="indexed") <- labelled$source

myTDM <- TermDocumentMatrix(corpus, control = list(minWordLength = 1))

## verschieden Möglichkeiten, den Korpus bzw die TermDocumentMatrix zu inspizieren:

#inspect(corpus[5:10])

#meta(corpus[1:10])

#inspect(myTDM[25:30, 1])

# Indices aller Dokumente, die das Wort "good" enthalten:

idxWithGood <- unlist(lapply(corpus, function(t) {grepl("good", as.character(t))}))

# Indices aller Dokumente mit negativem Sentiment, die das Wort "good" enthalten:

negIdsWithGood <- idxWithGood & meta(corpus, "sentiment") == '0'

Wir können uns nun einen Eindruck über die Texte verschaffen, bevor wir erste Vorverarbeitungs- und Säuberungsschritte durchführen:

Fünf Dokumente mit negativem Sentiment, die das Wort “good” enthalten: Not a good bargain., Not a good item.. It worked for a while then started having problems in my auto reverse tape player., Not good when wearing a hat or sunglasses., If you are looking for a good quality Motorola Headset keep looking, this isn’t it., However, BT headsets are currently not good for real time games like first-person shooters since the audio delay messes me up.
Liste der meist verwendeten Worte im Text: all, and, are, but, film, for, from, good, great, had, have, it’s, just, like, movie, not, one, phone, that, the, this, very, was, were, with, you
Anzahl der Worte, die nur einmal verwendet werden: 4820, wie z.B.: ‘film’, ‘ive, ’must’, ‘so, ’stagey’, ’titta
Histogramm mit Wortfrequenzen:

Plotten wir, wie oft die häufigsten Worte verwendet werden:

Vorverarbeitung

Es ist leicht zu erkennen, dass sogenannte Stoppworte wie z.B. “the”, “that” und “you” die Statistiken dominieren. Der Informationsgehalt solcher Stopp- oder Füllworte ist oft gering und daher werden sie oft vom Korpus entfernt. Allerdings sollte man dabei Vorsicht walten lassen: not ist zwar ein Stoppwort, könnte aber z.B. bei der Sentimentanalyse durchaus von Bedeutung sein.

Ein paar rudimentäre Vorverarbeitungen:

Wir konvertieren den gesamten Text zu Kleinbuchstaben und entfernen die Stoppworte unter Verwendung der mitgelieferten R-Stoppwortliste für Englisch (stopwords(“english”)). Eine weitere Standardoperation ist Stemming, das wir heute auslassen. Zusätzlich entfernen wir alle Sonderzeichen und Zahlen und behalten nur die Buchstaben a bis z:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

replaceSpecialChars <- function(d) {

## normalerweise würde man nicht alle Sonderzeichen entfernen

gsub("[^a-z]", " ", d)

}

# tolower ist eine built-in function

corpus <- tm_map(corpus, content_transformer(tolower))

# replaceSpecialChars ist eine selbst geschriebene Funktion:

corpus <- tm_map(corpus, content_transformer(replaceSpecialChars))

corpus <- tm_map(corpus, stripWhitespace)

englishStopWordsWithoutNot <- stopwords("en")[ - which(stopwords("en") %in% "not")]

corpus <- tm_map(corpus, removeWords, englishStopWordsWithoutNot)

## corpus <- tm_map(corpus, stemDocument, language="english")

myTDM.without.stop.words <- TermDocumentMatrix(corpus,

control = list(minWordLength = 1))

Schlagwortwolke bzw Tag Cloud

Schließlich erzeugen wir eine Tag-Cloud aller Worte, die mindestens 25 mal im Text verwendet werden. Tag-Clouds eignen sich hervorragend zur visuellen Inspektion von Texten, allerdings lassen sich daraus nur bedingt direkte Handlungsanweisungen ableiten:

1

2

3

4

5

wordfreq <- findFreqTerms(myTDM.without.stop.words, lowfreq=25)

termFrequency <- rowSums(as.matrix(myTDM.without.stop.words[wordfreq,]))

# eine Alternative ist 'tagcloud'

library(wordcloud)

wordcloud(words=names(termFrequency),freq=termFrequency,min.freq=5,max.words=50,random.order=F,colors="red")

Word-Assoziationen

Wir können uns für bestimmte Worte anzeigen lassen, wie oft sie gemeinsam mit anderen Worten im gleichen Text verwendet werden:

Worte, die häufig gemeinsam mit movie verwendet werden:

1 2	findAssocs(myTDM.without.stop.words, "movie", 0.13)

1

2

3

4

5

6

7

8

9

10

11

12

13

## $movie

## beginning duet fascinating june angel astronaut

## 0.17 0.15 0.15 0.15 0.14 0.14

## bec coach columbo considers curtain dodge

## 0.14 0.14 0.14 0.14 0.14 0.14

## edition endearing funniest girolamo hes ive

## 0.14 0.14 0.14 0.14 0.14 0.14

## latched lid makers peaking planned restrained

## 0.14 0.14 0.14 0.14 0.14 0.14

## scamp shelves stratus titta ussr vision

## 0.14 0.14 0.14 0.14 0.14 0.14

## yelps

## 0.14

Worte, die häufig gemeinsam mit product verwendet werden:

1 2	findAssocs(myTDM.without.stop.words, "product", 0.12)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

## $product

## allot avoiding beats cellphones center

## 0.13 0.13 0.13 0.13 0.13

## clearer contacting copier dollar equipment

## 0.13 0.13 0.13 0.13 0.13

## fingers greater humming ideal learned

## 0.13 0.13 0.13 0.13 0.13

## lesson motor murky negatively oem

## 0.13 0.13 0.13 0.13 0.13

## official online owning pens petroleum

## 0.13 0.13 0.13 0.13 0.13

## planning related replacementr sensitive shipment

## 0.13 0.13 0.13 0.13 0.13

## steer voltage waaay whose worthless

## 0.13 0.13 0.13 0.13 0.13

Text-Mining

Wir erzeugen einen Entscheidungsbaum zur Vorhersage des Sentiments. Entscheidungsbäume sind nicht unbedingt das Werkzeug der Wahl für Text-Mining aber für einen ersten Eindruck lassen sie sich bei kleinen Datensätzen durchaus gewinnbringend einsetzen:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

trainingData <- data.frame(as.matrix(myDTM))

trainingData$sentiment <- labelled$sentiment

trainingData$source <- labelled$source

formula <- sentiment ~ .

if (rerun) {

tree <- rpart(formula, data = trainingData)

save(tree, file=sprintf("%s-tree.RData", prefix))

} else {

load(file=sprintf("c:/tmp/%s-tree.RData", prefix))

}

myPredictTree(tree)

1

2

3

4

## isPosSentiment

## sentiment FALSE TRUE

## 0 1393 107

## 1 780 720

Eine Fehlerrate von über 50% auf den Trainingsdaten für positive Sentiments ist natürlich nicht berauschend und daher testen wir zum Schluß noch Support Vector Machines:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

library(e1071)

if (rerun) {

svmModel <- svm(formula, data = trainingData)

save(svmModel, file=sprintf("%s-svm.RData", prefix))

} else {

load(file=sprintf("c:/tmp/%s-svm.RData", prefix))

}

myPredictSVM <- function(model) {

predictions <- predict(model, trainingData)

trainPerf <- data.frame(trainingData$sentiment, predictions, trainingData$source)

names(trainPerf) <- c("sentiment", "isPosSentiment", "source")

with(trainPerf, {

table(sentiment, isPosSentiment, deparse.level = 2)

})

}

myPredictSVM(svmModel)

1

2

3

4

## isPosSentiment

## sentiment FALSE TRUE

## 0 1456 44

## 1 23 1477

Die Ergebnisse sehen deutlich besser aus, müssten aber natürlich noch auf unabhängigen Daten verifiziert werden, um z. B. ein Overfittung zu vermeiden.

Download-Link zum kompletten R-Code für dieses Text-Mining-Beispiel: https://www.data-science-blog.com/download/textMiningTeaser.rmd

Die Abschätzung von Pi mit Apache Spark

November 3, 2015/0 Comments/in Apache Spark, Data Science, Data Science Hack, Experience, Main Category, optimization, Scala, Tools /by Dr. Mirco Müller

Auf den Berliner Data Science/Big Data/Data Analytics/…-Meetups auf denen ich in letzter Zeit des Öfteren zugegen war, tauchte immer wieder der Begriff Spark auf. Ich wollte wissen was es hiermit auf sich hat. Nachdem ich Spark 1.5.1 lokal auf meinem Mac installiert hatte, fing ich an Wörter in frei verfügbaren Texten zu zählen. Da es mir aber zu aufwändig schien, extrem lange Texte im Internet zu suchen und ich ein Gefühl für die Leistungsfähigkeit von Spark bekommen wollte, widmete ich mich einem skalierbaren Problem: der Abschätzung von Pi mit der Monte Carlo-Methode.

1000 Zufallspunkte lokal auf Mac

Dies war wie zu erwarten keine Herausforderung für meine Hardware. Was passiert bei 10^6/ 10^7/ 10^8/ 10^9… Zufallspunkten?

An dieser Stelle stieß ich auf ein “Integer-Problem“. Weil 3*10^9 > 2^31 – 1, kann in diesem Fall nicht mehr der Datentyp Integer verwendet werden, sondern man müsste „long Integer“ (64 bit) nehmen. Was mich nun jedoch viel mehr interessierte als mit Zufallspunkten > 2^31 – 1 zu experimentieren, war eine Spark-Installation auf AWS und die entsprechenden Berechnungszeiten. Ich installierte Spark 1.5.0 (auf Hadoop 2.6.0 YARN) auf einem AWS-Cluster (2 Core/1 Master x m3.xlarge). Zu meiner Überraschung ergab sich Folgendes:

Warum war mein Mac schneller als ein AWS-Cluster? Eine m3.xlarge-Instanz hat 4 Kerne und 15 GB Arbeitsspeicher, mein Mac ziemlich genau die Hälfte… Gut, dann probieren wir das Ganze mal mit einem 4 Core/1 Master x m3.xlarge-Cluster.

Es ergibt sich kein signifikanter Unterschied. Erst die Verwendung von einem 3 Core/1 Master x r3.2xlarge-Cluster brachte eine Beschleunigung. Wo ist der Flaschenhals? Um Netzwerkeffekte zu prüfen, habe ich schließlich eine 0 Core/1 Master-AWS-Installation getestet.

Dieser letzte Test skalierte zu meinen vorherigen Tests auf dem AWS-System, und er wies darauf hin, dass der Flaschenhals kein Netzwerkeffekt war.

Bei heise Developer fand ich einen sehr interessanten Artikel, welcher sich dem Thema „optimale Konfiguration der virtualisierten Cloud-Hardware für den jeweiligen Anwendungsfall finden“ widmet: Benchmarking Spark: Wie sich unterschiedliche Hardware-Parameter auf Big-Data-Anwendungen auswirken

Für heute belasse ich es bei dem vorgestellten Experiment.

To be continued…,

Wie lernen Maschinen?

October 30, 2015/8 Comments/in Big Data, Data Mining, Machine Learning, optimization /by Dr. Stefan Kühn

Im zweiten Teil wollen wir das mit Abstand am häufigsten verwendete Optimierungsverfahren – das Gradientenverfahren oder Verfahren des steilsten Abstiegs – anhand einiger Beispiele näher kennen lernen. Insbesondere werden wir sehen, dass die Suchrichtung, die bei der Benennung der Verfahren meist ausschlaggebend ist, gar nicht unbedingt die wichtigste Zutat ist.

Wie lernen Maschinen?

October 13, 2015/12 Comments/in Big Data, Data Science, Machine Learning, optimization, Statistics /by Dr. Stefan Kühn

Machine Learning ist eines der am häufigsten verwendeten Buzzwords im Data-Science- und Big-Data-Bereich. Aber lernen Maschinen eigentlich und wenn ja, wie? In den meisten Fällen lautet die Antwort: Maschinen lernen nicht, sie optimieren. Fällt der Begriff Machine Learning oder Maschinelles Lernen, so denken viele sicherlich zuerst an bekannte “Lern”-Algorithmen wie Lineare Regression, Logistische Regression, Neuronale Netze oder Support Vector Machines. Die meisten dieser Algorithmen – wir beschränken uns hier vorerst auf den Bereich des Supervised Learning – sind aber nur Anwendungen einer anderen, grundlegenderen Theorie – der mathematischen Optimierung. Alle hier angesprochenen Algorithmen stellen dem Anwender eine bestimmte Ziel- oder Kostenfunktion zur Verfügung, aus der sich i.a. der Name der Methode ableitet und für die im Rahmen des Lernens ein Minimum oder Optimum gefunden werden soll. Ein großer Teil des Geheimnisses und die eigentliche Stärke der Machine-Learning-Algorithmen liegt nun darin, dass dieser Minimierungsprozess effizient durchgeführt werden kann. Wir wollen im Folgenden kurz erklären, wie dies in etwa funktioniert. In einem späteren Blogpost gehen wir dann genauer auf das Thema der Effizienz eingehen. Read more

Datenvisualisierung in Python [Tutorial]

August 31, 2015/3 Comments/in Data Mining, Data Science, Python, Statistics, Tutorial, Visualization /by Benjamin Aunkofer

Python ist eine der wichtigsten Programmiersprachen in der Data Science Szene. Der Einstieg in diese Programmiersprache fällt zum Beispiel im Vergleich zur Programmiersprache R etwas einfacher, da Python eine leicht zu verstehende Syntax hat. Was jedoch beim Einstieg zur größeren Hürde werden kann, ist der Umgang mit den unüberschaubar vielen Bibliotheken. Die wichtigsten Bibliotheken für Data Science / Data Analytics stellte ich bereits in diesem Artikel kurz vor. Hier ist es wichtig, einfach erstmal anzufangen – Warum nicht mit den ersten Datenvisualisierungen?

Natürlich gibt es sehr viele tolle und schön anzusehende Visualisierungen, die teilweise sehr speziell sind. In einem anderen Artikel stellte ich beispielsweise die 3D-Visualisierung von Graphen mit Python und UbiGraph vor. Dieser Artikel hier gilt aber vor allem Einsteigern, die erste Diagramme hergezaubert bekommen möchten.

Damit wir beginnen können, müssen im Python-Skript zuerst zwei wichtige Bibliotheken eingebunden werden:

import matplotlib.pyplot as pyplot

import pandas as pandas

Beide Bibliotheken können direkt gedownloaded werden, sind aber auch im Anaconda Framework enthalten (Empfehlung: Anaconda für Python 2.7).

Die Bibliothek matplotlib (library) ist mit Sicherheit die gängigste zur Visualisierung von Daten. Die Bibliothek pandas ist eine der verbreitetsten, die für den Zugriff, die Manipulation und Analyse von Daten eingesetzt wird. In diesen einfachsten Beispielen benutzen wir pandas nur zum Zugriff auf Daten.

Für die Visualisierung benötigen wir natürlich auch ein Beispiel-Dataset (Tabelle). Eine solche kann sich jeder selber erstellen, wer die nachfolgenden Code-Beispiele aber nachstellen möchte, kann diese Daten verwenden:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

1|Muenchen|Verwaltung + Vertrieb|45|3500000|2300000

2|Stuttgart|Nur Vertrieb|23|2800000|800000

3|Hannover|Verwaltung + Vertrieb|45|1800000|1000000

4|Leipzig|Nur Vertrieb|12|1000000|320000

5|Dresden|Produktio + Vertrieb|65|450000|700000

6|Frankfurt am Main|Nur Vertrieb|12|240000|20000

7|Duesseldorf|Nur Vertrieb|43|45000|53000

8|Kassel|Nur Vertrieb|23|250000|90000

9|Hamburg|Verwaltung + Vertrieb|89|2800000|690000

10|Koeln|Nur Vertrieb|21|110000|12000

11|Potsdam|Nur Vertrieb|12|20000|67000

12|Nuernberg|Nur Vertrieb|15|60000|30000

13|Ingolstadt|Nur Vertrieb|8|80000|10000

14|Wolfsburg|Nur Vertrieb|8|90000|23000

15|Braunschweig|Nur Vertrieb|32|900000|750000

16|Augsburg|Verwaltung + Vertrieb|45|700000|370000

17|Chemnitz|Nur Vertrieb|4|95000|78000

18|Bochum|Nur Vertrieb|9|32000|67000

19|Dortmund|Produktio + Vertrieb|56|2100000|450000

20|Essen|Nur Vertrieb|10|190000|140000

Diese 20 Zeilen können einfach via Copy + Paste in eine Datei kopiert werden, die dann als data-science-blog-python-beispiel.txt abgespeichert werden kann.

Der Zugriff von Python aus erfolgt dann mit pandas wie folgt:

dataset = pandas.read_csv("data-science-blog-python-beispiel.txt", sep="|", header=0, encoding="utf8")

Kreisdiagramm

Ein Kreisdiagramm (Pie Chart) lässt sich basierend auf diesen Daten beispielsweise wie folgt erstellen:

1

2

3

4

5

6

7

8

9

10

# Pie Chart

var= dataset.groupby(['Funktion']).sum().stack()

temp = var.unstack()

type(temp)

x_list = temp['Mitarbeiter']

label_list = temp.index

pyplot.axis("equal") # Kreisdiagramm rund gestaltet (sonst Standard: oval!)

pyplot.pie(x_list, labels=label_list, autopct="%1.1f%%")

pyplot.title('Aufteilung alle Mitarbeiter auf die Standorte nach Funktion')

pyplot.show()

Balkendiagramm

Balkendiagramme können einfachste Größenverhältnisse aufzeigen.

1

2

3

4

5

6

7

8

var = dataset.groupby('Funktion').Umsatz.sum()

fig = pyplot.figure()

ax = fig.add_subplot(1,1,1)

ax.set_xlabel('Funktion')

ax.set_ylabel('Umsatz in Summe')

ax.set_title('Umsatzvolumen nach Funktion der Filialen')

var.plot(kind='bar')

pyplot.show()

Gestapeltes Balkendiagramm

Mit nur wenig Erweiterung wird aus dem einfachen Balkendiagramm ein gestapeltes.

1

2

3

4

var = dataset.groupby(['Funktion', 'Standort']).Umsatz.sum()

var.unstack().plot(kind='bar', stacked=True, grid=True)

pyplot.legend(bbox_to_anchor=(1.09, 1), loc=0, borderaxespad=0.5)

pyplot.show()

Histogramm (Histogram)

Histogramme sind ein wichtiges Diagramm der Statistik, mit dem sich Verteilungen aufzuzeigen lassen.

1

2

3

4

5

6

7

8

9

# Histogramm

fig = pyplot.figure()

ax = fig.add_subplot(1,1,1)

ax.hist(dataset['Mitarbeiter'], bins=5, color='#9400D3')

pyplot.title('Mitarbeiter Verteilung')

pyplot.xlabel('Verteilung')

pyplot.ylabel('Anzahl Mitarbeiter')

pyplot.show()

Lininediagramm

Der Beispieldatensatz gibt kein gutes Szenario her, um ein korrektes Liniendiagramm darstellen zu können; aber dennoch hier ein How-To für ein Liniendiagramm:

1

2

3

4

5

6

7

8

#Line Chart

var = dataset.groupby('Standort').Umsatz.sum()

fig = pyplot.figure()

ax1 = fig.add_subplot(1,1,1)

ax1.set_xlabel('Umsatz')

ax1.set_ylabel('Standort')

var.plot(kind='line')

pyplot.show()

Kastengrafik (Box Plot)

Ein Box Plot zeigt sehr gut Schwerpunkte in einer Verteilung.

1

2

3

4

fig = pyplot.figure()

ax = fig.add_subplot(1,1,1)

ax.boxplot(dataset['Mitarbeiter'])

pyplot.show()

Punktverteilungsdiagramm (Scatter Plot)

1

2

3

4

5

6

fig = pyplot.figure()

ax = fig.add_subplot(1,1,1)

ax.scatter(dataset["Mitarbeiter"], dataset["Umsatz"])

ax.set_xlabel('Anzahl Mitarbeiter')

ax.set_ylabel('Umsatz')

pyplot.show()

Blasendiagramm (Bubble Chart)

Das Punktdiagramm kann leicht durch hinzufügen einer dritten Dimension zu einem Bubble-Chart erweitert werden. In dieser Darstellung mit logarithmischen x-/y-Achsen (log).

1

2

3

4

5

6

7

8

fig = pyplot.figure()

ax = fig.add_subplot(1,1,1)

ax.scatter(dataset['Kosten'], dataset['Umsatz'], s=dataset['Mitarbeiter'])

ax.set_xlabel('Umsatz')

ax.set_ylabel('Kosten')

pyplot.xscale('log')

pyplot.yscale('log')

pyplot.show()

Extraktion von Software-Metriken aus Java-Dateien mit ANTLR4

August 18, 2015/1 Comment/in Data Mining, Data Science, Java, Re-Engineering /by Sven Meyer

In der Software-Entwicklung wird mehr und mehr auf Metriken gesetzt, um den Entwicklungsprozess zu messen und zu verbessern. Tools wie SonarQube und FindBugs helfen dabei – doch sie haben ihre Grenzen. Sie brauchen build-fähige Projekte. Die Metriken sind manchmal nicht genau genug dokumentiert oder lassen sich nur schwer anpassen.

Dabei ist es gar nicht so schwierig, ein eigenes Tool zu schreiben. So können die Metriken selbst definiert, auf Textdateien angewendet, als Skript automatisiert und an beliebige Schnittstellen weitergeben werden – z. B. als CSV-Datei nach R, per Webinterface oder als E-Mail.

Im Folgenden wird gezeigt, wie mit ANTLR4 aus Java-Textdateien Metriken erhoben werden können. Das Beispiel-Projekt steht auf GitHub zur Verfügung.

Statische Code-Analyse mit ANTLR4

ANTLR4 (ANother Tool for Language Recognition) wird seit 1989 von Terence Parr, Professor an der University of San Francisco, entwickelt. Das Tool selbst ist kostenlos; die ausführliche Dokumentation kostet jedoch 27 US-Dollar. Für den Einstieg reicht die kostenlose Dokumentation. ANTLR4 ist eine Java-Bibliothek.

Beim Parsen erstellt ANTLR4 auf Basis einer Grammatik einen Syntaxbaum. Nach dem Parsen wird der Syntaxbaum mit einem Walker abgelaufen. Dabei auftretende Events können über ein Listener-Interface abgefangen werden. Durch das Verarbeiten der Events können eigene Metriken berechnet werden.

Das Listener-Interface selbst wird über die Grammatik spezifiziert. ANTLR4 generiert aus der Grammatik Listener in Java, von denen anschließend geerbt wird.

Für viele Programmiersprachen gibt es bereits fertige Grammatiken, die auf GitHub gemeinsam entwickelt werden (siehe z. B. Java-Grammatik). Ansonsten muss die Grammatik selbst geschrieben werden.

Das Beispiel-Projekt

Im Beispiel wird der Klassenname und die Anzahl von Methoden aus einer Java-Klasse erhoben:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

/**

* A cat is a cat is a cat.

*

*/

public class Cat {

private String name;

private int height;

public Cat(String name, int height) {

setName(name);

setHeight(height);

}

public String getName() {

return name;

}

public void setName(String name) {

this.name = name;

}

public int getHeight() {

return height;

}

public void setHeight(int height) {

this.height = height;

}

Das Ergebnis wird in einer Map<String, Integer> ausgegeben.

Vorbereitungen

Im Beispiel werden Eclipse, ein ANTLR4-Eclipse-Plugin und Maven benutzt. ANTLR4 lässt sich auch unabhängig von Eclipse und Maven benutzen.

Nach der Installation des Eclipse-Plugins muss in der pom.xml eine Dependency ergänzt werden:

1

2

3

4

5

6

7

8

9

10

11

org.antlr

antlr4-maven-plugin

4.5

Die Java-Grammatik wird von GitHub heruntergeladen und unter src/main/antlr4/Java.g4 abgelegt. Anschließend werden per Rechtsklick auf Java.g4 -> Run As -> Generate ANTLR Recognizer die Hilfsdateien von ANTLR4 angelegt.

Damit die Hilfsdateien von Eclipse als Java-Quellcode erkannt werden, werden sie nach src/main/java/generated kopiert.

Metriken definieren

ANTLR4 erstellt aus der Grammatik einen JavaBaseListener. Zum Definieren der Metriken wird ein eigener Listener programmiert, der vom JavaBaseListener erbt. Wenn ANTLR4 später den Syntaxbaum durchläuft, ruft es die entsprechenden Listener-Methoden auf.

1

2

3

4

5

6

7

/**

* Listens to Events, if ANTLR walks a parse tree.

*

* @author Sven Meyer

*/

public class Listener extends JavaBaseListener {

Im JavaBaseListener sind alle Events, auf die gehört werden kann, als Methode aufgeführt. Um nun den Klassennamen für die Metrik zu erfahren, wird das Event ClassDeclaration abgehört:

1

2

3

4

5

6

7

8

9

/** Listen to matches of classDeclaration */

@Override

public void enterClassDeclaration(JavaParser.ClassDeclarationContext ctx) {

setClazzName(ctx.Identifier().toString());

}

Um die Anzahl der Methoden zu erhalten, wird ein Counter bei jedem Auftreten einer MethodDeclaration erhöht.

1

2

3

4

5

6

7

8

9

/** Listen to matches of methodDeclaration */

@Override

public void enterMethodDeclaration(JavaParser.MethodDeclarationContext ctx) {

methodCount++;

}

ANTLR ausführen

Damit ANTLR ausgeführt werden kann, braucht es noch die zu lesende Datei und den Listener. Dazu sind nur wenige Zeilen Code notwendig:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

public Map extract(File importFile) throws Exception {

/** Prepare input for ANTLR. */

InputStream is = new FileInputStream(importFile.getAbsolutePath());

ANTLRInputStream input = new ANTLRInputStream(is);

JavaLexer lexer = new JavaLexer(input);

CommonTokenStream tokens = new CommonTokenStream(lexer);

JavaParser parser = new JavaParser(tokens);

/** Parse. */

ParseTree tree = parser.compilationUnit();

/** Create standard walker. */

ParseTreeWalker walker = new ParseTreeWalker();

/** Initiate walk of tree with listener. */

Listener listener = new Listener(parser);

walker.walk(listener, tree);

/** Save the results. */

Map result = new HashMap<>();

result.put(listener.getClazzName(), listener.getMethodCount());

Ein Test prüft, ob der Klassenname und die Methodenanzahl richtig extrahiert werden:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

@Test

public void test() throws Exception {

/** Prepare. */

// String = clazzName, Integer = methodCount

Map result = new HashMap<>();

/** Execute. */

Extractor e = new Extractor();

result = e.extract(new File("src/main/resources/Cat.java"));

/** Test. */

// clazzName should be Cat

assertTrue(result.keySet().contains("Cat"));

// count of methods should be 4

assertEquals(new Integer(4), result.get("Cat"));

}

Die fertige Projektstruktur sieht in Eclipse so aus:

Abbildung 1: Die fertige Projektstruktur.

Nun kann der Test erfolgreich durchgeführt werden.

Abbildung 2: Der Testfall läuft erfolgreich.

Fazit

Damit der Code produktiv genutzt werden kann, sollten noch mögliche I/O- und ANTLR-Fehler behandelt werden. Außerdem müssen die erhobenen Daten weitergegeben werden, um z. B. als CSV-Datei in R importiert werden zu können.

Erfahrungsgemäß ergeben sich aus dem großen Sprachumfang viele Sonderfälle, die bei der Definition von Metriken berücksichtigt werden müssen. Hier helfen Testfälle weiter, um eine korrekte Messung sicherzustellen.

Das Beispiel konnte zeigen, dass leicht eigene Metriken aus Java-Quellcode erhoben werden können. So werden Quellcode und strukturierte Texte für die Analyse und Optimierung zugänglich.

Referenzen & Links

ANTLR4
Die Projektseite von ANTLR4.
Java-Grammatik
Die ANTLR4-Grammatik für die Java-Programmiersprache.
Beispielprojekt auf GitHub
Das in diesem Tutorial verwendete Beispielprojekt auf GitHub.
ANTLR4-Eclipse-Plugin
Das Eclipse-Plugin, das zum Ausführen von ANTLR4 in Eclipse benutzt werden kann.
Rascal MPL
Eine Meta-Programmiersprache. Erlaubt nicht nur die Analyse, sondern auch das Erzeugen + Verändern von Quellcode.
Fallstudie Java-Korpus
Eine laufende Fallstudie des Autors, in der ANTLR4 benutzt wird, um die typische Verwendung von Java-Sprachkonstrukten in 2,8 Mio. Dateien zu untersuchen.

R für Process Mining & Projektmanagement – Literaturempfehlungen

August 6, 2015/0 Comments/in Books, Process Mining, R Statistics, Statistics /by Dieter Gennburg

Es gibt immer wieder Skriptsprachen, die neu am IT-Horizont geboren um Anwender werben. Der IT-Manager muß also stets entscheiden, ob er auf einen neuen Zug aufspringt oder sein bisheriges Programmierwerkzeug aktuellen Anforderungen standhält. Mein Skriptsprachenkompass wurde über frühere Autoren kalibriert, an die hier erinnert werden soll, da sie grundsätzliche Orientierungshilfen für Projektplanungen gaben.

Im Projektmanagement geht es stets um aufwandsbezogene Terminplanung, im CAFM-Projektmanagement z. B. konkret um die Analyse und Schätzung geplanter und ungeplanter Maßnahmen, wie geplante Wartungen oder zufällige technische Störungen im Gebäudemanagement, um Wahrscheinlichkeiten.

Warum löst R die Terminplanung strategisch und praktisch besser als Python, Perl, Java oder etc.? Weil sich geschätzte Ereignisse in Zeitfenstern normalverteilt als so genannte Gaußsche Glockenkurve abbilden, einer statistischen Schätzung entsprechen.

Hier zwei Beispielgrafiken zum Thema Terminschätzung aus aktueller Literatur.

1. Standardnormalverteilung

Praxishandbuch Projektmanagement – inkl. Arbeitshilfen online von Günter Drews, Norbert Hillebrand, Martin Kärner, Sabine Peipe, Uwe Rohrschneider

Haufe-Lexware GmbH & Co. KG, Freiburg, 1. Auflage 2014 – Siehe z. B. Seite 241, Abb. 14 Normalverteilung als Basis von PERT (Link zu Google Books)

Praxishandbuch Projektmanagement – inkl. Arbeitshilfen online

2. Betaverteilung

Projektmanagement für Ingenieure: Ein praxisnahes Lehrbuch für den systematischen Projekterfolg von Walter Jakoby, Hochschule Trier

Springer Vieweg, Springer Fachmedien Wiesbaden 2015, 3, Auflage – Siehe z. B. Seite 215, Abb. 7.13 Beta-Verteilung (Link zu Google Books).

Projektmanagement für Ingenieure: Ein praxisnahes Lehrbuch für den systematischen Projekterfolg

Eine objektorientierte Statistikprogrammiersprache mit über 7.000 Paketen weltweit lädt ein, nicht jede Funktion neu erfinden zu wollen und macht glaubhaft, dass kein Unternehmen der Welt über derart Programmierwissen und Kapazität verfügt, es besser zu können. Für statistische Berechnungen empfiehlt sich seit Jahren R, für mich spätestens seit 2003. Früheren Autoren war das grundlegend klar, daß deterministische Terminplanungen immer am Mangel stochastischer Methoden kranken. In meiner Studienzeit kursierte an der Martin Luther Universität Halle an der Saale der Witz, es gibt zwei Witze an der landwirtschaftlichen Fakultät, den Badewitz und den Howitz. Doch das Buch vom Badewitz halte ich bis heute. Im Kapitel 5.3 Elemente der Zeitplanung fand ich dort in Abbildung 5.7 auf Seite 140 erstmals die Wahrscheinlichkeitsverteilung einer Vorgangsdauer als normalverteilte Grafik.

Vgl. Zur Anwendung ökonomisch-mathematischer Methoden der Operationsforschung, federführend Dr. sc. agr. Siegfried Badewitz, 1. Auflage 1981, erschienen im VEB Deutscher Landwirtschaftsverlag Berlin. Ein Grafikkünstler zur schnellen Visualisierung von Funktionen und Dichteverteilungen ist seit Jahren R. Zur R-Umsetzung empfehle ich gern meine R-Beispielbibel bei Xing.

Wer zur Statistik der Terminschätzung tiefer greifen will, kommt an Autoren wie Golenko u. a. nicht vorbei. Badewitz verwies z.B. auf Golenko’s Statistische Methoden der Netzplantechnik in seinem o.g. Buch (Link zu Google Books).

Statistische Methoden der NetzplantechnikHier empfehle ich zum Einstieg das Vorwort, das 2015 gelesen, aktuell noch immer gilt, nicht das Jahr seiner Niederschrift 1968 preisgibt:

Gegenwärtig beobachtet man häufig Situationen, in denen bei der Untersuchung von zufallsbeeinflußten Systemen die in ihnen auftretenden Zufallsparameter durch feste Werte (z. B. den Erwartungswert) ersetzt werden, wonach dann ein deterministisches Modell untersucht wird.

Und hier noch ein Beispiel von Seite 203:

Praktisch kann jede komplizierte logische Beziehung auf eine Kombination elementarer stochastischer Teilgraphen zurückgeführt werden.

Meine Empfehlung für Process Mining und Projektmanagement lautet daher – intelligente Stochstik statt altbackenem Determinismus.

Aus der Datenflut das Beste machen – Zertifikatskurs „Data Science“ in Brandenburg

June 25, 2015/1 Comment/in Business Analytics, Business Intelligence, Industrie 4.0, Machine Learning, R Statistics /by Benjamin Aunkofer

Die Aufbereitung von Daten, ihre Analyse und Darstellung sind mittlerweile zu einer Wissenschaft für sich geworden – „Data Science“. Unternehmen sehen sich heute unabhängig von ihrer Größe von einer Vielzahl unterschiedlicher Daten herausgefordert: Neben klassischen Transaktionsdaten stehen heute z.B. Daten aus der Logistik (RFID, GIS), aus sozialen Medien, dem Internet der Dinge oder öffentlichen Quellen (Open Data / Public Data) zur Verfügung. Ein neuer Zertifikatskurs Data Science ermöglicht jetzt eine wissenschaftliche Weiterbildung zur Nutzung von Daten als „Rohstoff des 21. Jahrhunderts“.

Die Agentur für wissenschaftliche Weiterbildung und Wissenstransfer (AWW e.V.) bietet in Kooperation mit der Fachhochschule Brandenburg den berufsbegleitenden Zertifikatskurs mit nur wenigen Präsenzphasen ab Oktober an. Die wissenschaftliche Leitung hat Dr. Peter Lauf übernommen, ein erfahrener Praktiker, der zurzeit noch eine Professur für Quantitative Methoden und Data Mining an der Hochschule für Technik und Wirtschaft Berlin vertritt. Zertifiziert wird der Abschluss Data Scientist (FH).

Die Weiterbildung hat nur wenige Präsenzphasen an Freitagen und Samstagen und ist daher für Teilnehmer/innen aus dem ganzen Bundesgebiet geeignet – So kommen einige Teilnehmer auch aus Frankfurt am Main und München.

Wer sich schnell entscheidet, kann bis 16. Juli 2015 vom Frühbucherrabatt profitieren!

Der Inhalt des Kurses orientiert sich an einer bekannten Einteilung des amerikanischen Wirtschaftswissenschaftlers und Google-Chefökonomen Hal Varian: Ihm zufolge setzt sich die spezifische Wertschöpfungskette von Daten aus Zugriff, Verständnis, Verarbeitung, Analyse und Ergebniskommunikation zusammen. Data Science umfasst deshalb die Module Data Engineering (Zugriff, Verständnis, Verarbeitung), Quantitative Methoden und Data Mining (Analyse) sowie Storytelling: Kommunikation und Visualisierung der Ergebnisse (Ergebniskommunikation).

Die Weiterbildung vereinigt damit Fachwissen aus der Informatik mit quantitativen Methoden und Aspekten des Informations- und Kommunikationsdesigns. Wichtige Werkzeuge im Kurs sind die Statistiksprache R und Power Business Intelligence Tools. Auch auf Azure Machine Learning wird mit konkreten Beispielen Bezug genommen. Im Ergebnis sollen die Teilnehmer verschiedene Techniken zur Nutzung von Daten beherrschen und einen Überblick über die Voraussetzungen und möglichen Lösungsansätze im Bereich datengetriebener Projekte erhalten. Lernziel ist die reibungslose Kommunikation zwischen Management, Engineering und Administration.

Weitere Auskünfte erteilt Katja Kersten (Tel. 03381 – 355 754, E-Mail: katja.kersten@fh-brandenburg.de). Nähere Informationen im Internet sind unter www.aww-brandenburg.de erhältlich.

Flexible ABC Analyse mit Excel Power Pivot und DAX

June 23, 2015/4 Comments/in Business Intelligence, Data Mining, Tools, Tutorial /by Sven Galonska

Eine klassische Methode im Bereich des Controllings ist sicherlich die ABC-Analyse, auch Paretoprinzip oder 80/20-Regel genannt. Das Paretoprinzip beschreibt ein statistisches Phänomen, bei dem eine kleine Anzahl hoher Werte (Kategorie A) mehr zum Gesamtwert beiträgt als eine große Anzahl kleiner Werte (Kategorie C). Vilfredo Pareto (1848 – 1923) entdeckte dieses Prinzip, als er die Bodenverteilung in Italien untersuchte. Er fand heraus, daß ca. 20 % der Bevölkerung ca. 80 % des Bodenbesitzes besitzen.

Im Folgenden soll mit Hilfe von Excel Power Pivot (ein Mitglied der Microsoft Power BI Familie) und DAX Formeln (Data Analysis Expressions) ein Weg aufgezeigt werden, wie eine flexible ABC-Analyse (Materialgruppenübergreifend oder je Materialgruppe) auf Basis von Artikelumsätzen (Einkaufsvolumen, EVO) realisiert werden kann. Dabei werden die Artikel mit den Kategorien A (80 %), B (15%) sowie C (5%) im Modell gekennzeichnet, so daß Anzahl Artikel und Umsätze (EVO) bei Bedarf aggregiert nach Materialgruppe dargestellt werden können.

„Aber das kann ich doch mit der Pivottabelle auch schon machen!“ werden Sie jetzt vielleicht sagen. Richtig ist, daß man mit der klassischen Pivottabelle den kumulierten Anteil in % ausweisen kann. Dazu muß ein Wertfeld lediglich über die Wertfeldeinstellungen, Reiter „Werte anzeigen als“ auf die Option „% von Ergebnis in“ umgestellt werden. Soweit so gut, nur was ist mit der Zuweisung der Klasse A, B, C? Wie kann man nach der Klassifizierung gruppieren? Und weiter, wie stellt man die Anzahl der Artikel nicht als einzelne Elemente sondern als Aggregat dar?

Von Rohdaten zu entscheidungsrelevanten Informationen mit Microsoft Self Service BI

June 15, 2015/2 Comments/in Business Analytics, Business Intelligence, Tools, Tutorial /by Sven Galonska

Ganz still und leise, ja fast geräuschlos führte Microsoft in Office 2010 „by the backdoor“ eine Reihe von kostenlosen AddIns ein. Diese AddIns unterstützen die Anbindung von heterogenen Datenquellen, deren Kombination, Anreicherung, Modellierung und Visualisierung. Microsoft faßt diese AddIns unter dem Begriff Power BI zusammen: Excel Power Query, Excel Power Pivot, Excel Power View, Excel Power Map. Diese Power BI Tools können sich durchaus mit anderen am Markt verfügbaren BI Tools messen. Die Vorteile liegen auf der Hand, sie sind kostenlos und die Akzeptanz von Excel in Unternehmen kann als gegeben vorausgesetzt werden. Geschäftsrelevante Daten können mit Hilfe dieses tool sets effizient in entscheidungsrelevante Informationen „in Form“ gebracht werden: ETL (Einlesen, Transformieren, Laden), DI (Daten Integration), DQ (Datenqualität), Data Visualization, BI Themen, welche ausreichend abgedeckt werden. Ein kostenloses Tool Set, wie gemacht für den Fachanwender. Unter Self Service BI versteht man die Bereitstellung einer IT Umgebung für den Fachanwender, durch deren Hilfe er oder sie weitestgehend unabhängig von der IT Daten beschaffen, Analysen erstellen und Berichte erzeugen kann. Dieses agile Business Intelligence Konzept ermöglicht dem Fachanwender schnelles und effizientes Agieren auf sich ändernde Anforderungen steuerungsrelevante Kennzahlen betreffend. Ein probates Mittel ist Self Service BI bei regelmäßig wiederkehrenden Entscheidungen. Im Folgenden soll das Prinzip der Selbstbedienung anhand eines konkreten Beispiels aus dem Einkauf näher beleuchtet werden. Dabei werden die einzelnen Phasen (ETL, Modellierung, interaktive Auswertung) und Funktionen (DAX Funktionen) eines typischen Self Service Prozesses von Excel Power Pivot dargestellt. Das Datenmodell wurde mit Excel 2013 erstellt. Ab Office 2013 ist Power BI bereits im Auslieferungszustand vorhanden. Read more

Text Mining mit R

Sentimentanalyse

Daten einlesen

Textkorpus anlegen

Vorverarbeitung

Schlagwortwolke bzw Tag Cloud

Word-Assoziationen

Text-Mining

Die Abschätzung von Pi mit Apache Spark

Wie lernen Maschinen?

Wie lernen Maschinen?

Datenvisualisierung in Python [Tutorial]

Kreisdiagramm

Balkendiagramm

Gestapeltes Balkendiagramm

Histogramm (Histogram)

Lininediagramm

Kastengrafik (Box Plot)

Punktverteilungsdiagramm (Scatter Plot)

Blasendiagramm (Bubble Chart)

Extraktion von Software-Metriken aus Java-Dateien mit ANTLR4

Statische Code-Analyse mit ANTLR4

Das Beispiel-Projekt

Vorbereitungen

Metriken definieren

ANTLR ausführen

Fazit

Referenzen & Links

R für Process Mining & Projektmanagement – Literaturempfehlungen

1. Standardnormalverteilung

2. Betaverteilung

Aus der Datenflut das Beste machen – Zertifikatskurs „Data Science“ in Brandenburg

Flexible ABC Analyse mit Excel Power Pivot und DAX

Von Rohdaten zu entscheidungsrelevanten Informationen mit Microsoft Self Service BI

Interesting links

Pages

Categories

Archive