Verteilung von Daten übersichtlich darstellen - Suche Ansatz

Fragen, die sich auf kein spezielles Verfahren beziehen.

Verteilung von Daten übersichtlich darstellen - Suche Ansatz

Beitragvon Lisa89 » Mi 28. Jan 2015, 12:46

Ich suche Hilfe bei folgender Problemstellung:

Die "Besucher" eines Online-Shops kommen über verschiedene "Kanäle", z.B. Newsletter, Google, Facebook und Werbeanzeigen.
Im Rahmen eines "Bestellvorganges" bestellen die Besucher nicht zwingend beim ersten "Besuch" der Website, sondern häufig erst zu einem späteren Zeitpunkt.

Einen Datensatz mit über 1000 Bestellungen möchte ich folgendermaßen analysieren:

Ich möchte übersichtlich darstellen, ob ein Kanal tendenziell eher am Anfang des Bestellvorganges auftaucht, in der Mitte oder am Ende.
Beispielsweise könnte der Erstkontakt tendenziell überdurchschnittlich häufig über Facebook zustande kommen.

Die Bestellvorgänge sind sehr unterschiedlich, d.h. manche Besucher kommen 20 Mal auf die Website über unterschiedliche Kanäle, bis sie schließlich bestellen (die letzte Zeile eines Bestellvorganges ist die Bestellung).
Andere hingegen bestellen beim 1. oder 2. Besuch.

Code: Alles auswählen
Besucher     Bestellvorgang       Besuch     Kanal
A            111                  1            Facebook
A            111                  2            Google
A            111                  3            Werbeanzeige
A            111                  4            Newsletter
B            112                  1            Google
C            113                  1            Facebook
C            113                  2            Werbeanzeige
C            113                  3            Newsletter
D            114                  1            Newsletter
E            115                  ....          .....


In diesem kurzen Beispiel sieht man, dass der Erstkontakt in 50% der Bestellvorgänge (EDIT: über Facebook) entsteht. Allerdings sind diese unterschiedlich lang.
Im Vorgang 114 - mit dem Kanal Newsletter - ist der erste Besuch auch der letzte Besuch.

Meine Herausforderung ist es, die unterschiedliche Anzahl der Besuche im Rahmen eines Bestellvorganges zu berücksichtigen.

Hat jemand eine Idee, wie ich für einen großen Datensatz zeige, welcher Kanal tendenziell früh, in der Mitte oder spät im Bestellvorgang kommt?

Danke für eure Hilfe :)

Lisa


PS: Falls es hilft, ich arbeite mit R. Ich suche jedoch eher die "konzeptionelle Idee dahinter" als die Implementierung.
Zuletzt geändert von Lisa89 am Mi 28. Jan 2015, 14:51, insgesamt 1-mal geändert.
Lisa89
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 28. Jan 2015, 12:38
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon bele » Mi 28. Jan 2015, 12:58

Je ein Histogramm der Verteilung von "Besuch" für jeden in Frage kommenden Kanal?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Lisa89

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon Lisa89 » Mi 28. Jan 2015, 13:10

Vielen Dank, Bernhard :) Das gehe ich gleich an.
Lisa89
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 28. Jan 2015, 12:38
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon Lisa89 » Mi 28. Jan 2015, 13:29

Ich habe eine Frage, wie man meine Fragestellung in einem Histogramm umsetzen könnte?

In einem Histogramm habe ich eine Darstellung der Verteilung der Besuche. Leider bringt es mich in meiner Analyse nur bedingt weiter, zu wissen wie oft z.B. der Wert für Facebook auf Besuch=2 liegt. Der Wert 2 kann der letzte Schritt im Bestellvorgang sein, aber auch der 2. Schritt von 20 Schritten.

Ich könnte beispielsweise für den Bestellvorgang 111 (mit 4 Besuchen) dem 1. Besuch den Wert 1/4 zuweisen, dem 2. Besuch 2/4 usw., siehe folgende Darstellung mit der Hilfsspalte "Fortschritt".

Code: Alles auswählen
Besucher     Bestellvorgang       Besuch     Kanal          Fortschritt
A            111                  1            Facebook              1/4
A            111                  2            Google                2/4
A            111                  3            Werbeanzeige          3/4
A            111                  4            Newsletter            4/4
B            112                  1            Google                1/1
C            113                  1            Facebook              1/3
C            113                  2            Werbeanzeige          2/3
C            113                  3            Newsletter            3/3
D            114                  1            Newsletter            1/1
E            115                  ....          .....                    ....


Allerdings müsste ich die Werte irgendwie "normieren". Bei 20 Besuchen befindet sich sonst der erste Besuch in einem Histogramm bei 1/20, bei 2 Bestellungen bei 1/2.

EDIT: Würde es Sinn machen, eine Spalte "log(Besuch)" zu erstellen?

LG
Zuletzt geändert von Lisa89 am Mi 28. Jan 2015, 15:10, insgesamt 1-mal geändert.
Lisa89
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 28. Jan 2015, 12:38
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon PonderStibbons » Mi 28. Jan 2015, 13:50

Hat jemand eine Idee, wie ich für einen großen Datensatz zeige, welcher Kanal tendenziell früh, in der Mitte oder spät im Bestellvorgang kommt?

Ggfls. nur das erstmalige Auftauchen eines Kanals innerhalb eines Falles (Vorganges)
berücksichtigen, vorwärts und / oder rückwärts zählen (gleichzeitig mit Bestellvorgang = 0,
Kontakt direkt vor dem Bestellvorgang = -1, zwei davor = -2 etc.), dann über alle Fälle
hinweg den mittleren und/oder medianen Wert von "Besuch" für jeden Kanal ermitteln.

Fiktives Beispiel:
"Facebook" taucht in 27% der Bestellvprgänge auf, dabei im Mittel
auf Rang 3. Google taucht in 43% auf, dabei im Mittel auf Rang 1.

Rückwärts: Facebook im Mittel -2, Google -4.

Fals es darum geht.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Lisa89

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon bele » Mi 28. Jan 2015, 14:42

Hallo Lisa,

Lisa89 hat geschrieben:In einem Histogramm habe ich eine Darstellung der Verteilung der Besuche. Leider bringt es mich in meiner Analyse nur bedingt weiter, zu wissen wie oft z.B. der Wert für Facebook auf Besuch=2 liegt.


Dann habe zum Beispiel ich die Fragestellung noch nicht verstanden. Könntest Du sie nochmal für Dummies erklären, was genau Du visualisieren möchtest?

Beispielsweise könnte der Erstkontakt tendenziell überdurchschnittlich häufig über Facebook zustande kommen.

Das wäre ja an einem Histogramm der absoluten Besuchsnummern zu ersehen.

In diesem kurzen Beispiel sieht man, dass der Erstkontakt in 50% der Bestellvorgänge entsteht.

Den Satz zum Beispiel verstehe ich nicht.

Meine Herausforderung ist es, die unterschiedliche Anzahl der Besuche im Rahmen eines Bestellvorganges zu berücksichtigen.

Wobei zu berücksichtigen? Um welche Art von Aussagen am Schluss treffen zu können?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon Lisa89 » Mi 28. Jan 2015, 15:07

bele hat geschrieben:Hallo Lisa,

Lisa89 hat geschrieben:In einem Histogramm habe ich eine Darstellung der Verteilung der Besuche. Leider bringt es mich in meiner Analyse nur bedingt weiter, zu wissen wie oft z.B. der Wert für Facebook auf Besuch=2 liegt.


Dann habe zum Beispiel ich die Fragestellung noch nicht verstanden. Könntest Du sie nochmal für Dummies erklären, was genau Du visualisieren möchtest?

Beispielsweise könnte der Erstkontakt tendenziell überdurchschnittlich häufig über Facebook zustande kommen.

Das wäre ja an einem Histogramm der absoluten Besuchsnummern zu ersehen.

Stimmt, beim Erstkontakt funktioniert das Histogramm der Besuchsnummer. Ich möchte jedoch nicht nur die Kanäle des 1. Besuches analysieren.

In diesem kurzen Beispiel sieht man, dass der Erstkontakt in 50% der Bestellvorgänge entsteht.

Den Satz zum Beispiel verstehe ich nicht.

Ich habe die Wörter "über Facebook" vergessen. Habe es oben editiert

Meine Herausforderung ist es, die unterschiedliche Anzahl der Besuche im Rahmen eines Bestellvorganges zu berücksichtigen.

Wobei zu berücksichtigen? Um welche Art von Aussagen am Schluss treffen zu können?


Ich möchte in der Analyse berücksichtigen, dass ein Bestellvorgang aus 1-n Besuchen bestehen kann. Würde jede Bestellung aus 5 Besuchen bestehen, könnte ich ein schönes Histogramm machen, in dem ich zeige, welcher Kanal an welchem der 5 Punkte am häufigsten vorkommt. Da jedoch die Bestellvorgänge je nach Fall aus 1 - 20 Besuchen entstehen, brauche ich einen anderen Ansatz. Bei vorgenannten 5 Besuchen liegt der Besuch Nr. 5 am Ende des Bestellvorganges, bei 20 Besuchen liegt der 5. Besuch eher am Beginn des Bestellvorganges. Ein klassisches Histogramm "über die Verteilung von "Besuch für jeden in Frage kommenden Kanal" würde die Position im Bestellvorgang nicht berücksichtigen.

Ich möchte am Ende sehen können, ob ein bestimmter Kanal besonders häufig zu Beginn, in der Mitte, oder am Ende eines Bestellvorganges vorkommt. Also idealerweise sieht mein Ergebnis wie ein Histogramm aus.


LG,
Bernhard


LG Lisa
Lisa89
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 28. Jan 2015, 12:38
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon bele » Mi 28. Jan 2015, 17:15

Ok, ich bin mir noch nicht sicher, ob ich es vollständig verstanden habe, aber ich mache einen neuen Versuch einer graphischen Darstellung:

Wir nehmen ein rechtwinkliges Koordinatensystem, nach rechts tragen wir die Anzahl der Besuche ab. Nach oben tragen wir in irgendeiner Reihenfolge die Kanäle auf. Das machen wir als eine Art Balloon-Plot: Wurde der Kanal "Facebook" in Schritt 3 besonders oft verwendet, wird er mit einem großen Kreis, wurde er selten verwendet, dann mit einem kleinen Kreis dargestellt. Nun zeichnen wir den Verlauf jedes Bestellvorgangs durch eine Linie zwischen den Kreisen ein (bei 1000 Bestellungen sollten die Linien aus einem hellen grau bestehen je mehr sich überlappen umso dunkler).

Kommt der Newsletter oft am Anfang, dann hat er links einen großen Kreis, wirkt er bis in späte Besuche, dann hat er auch rechts noch große Kreise. Ist ein Kreis groß und es gehen vielen Linien von ihm nach rechts ab, dann wird er häufig besucht, ist aber oft nur Zwischenstation. Ist ein Kreis groß und es gehen kaum Linien von ihm weg, ist es oft der Besuch, der zum Verkaufsabschluss geführt hat. Ist ein Kreis nur klein, dann gab es an dieser Stelle der Bestellhistorie zu wenig Kontakte um viele Verkäufe zu erreichen.

Klingt ein wenig kompliziert und man muss sicher viel Feinschliff leisten, bis man bei 1000 Verkäufen sieht, was viele und was wenige Linien anzeigt, aber ich glaube, einer solchen Grafik könnte man viele Informationen entnehmen. Machbar ist das. Was ich derzeit noch nicht weiß, ist, ob die Reihefolge der Kanäle auf der y-Achse die Deutung stark beeinflusst oder nicht. Käme auf den Versuch an, so eine Grafik zu programmieren und mit verschiedenen Permutationen der Reihenfolge der Kanäle auf der y-Achse zeichnen zu lassen.



:idea:
Bei nochmaligem Lesen Deines Posts ist er gar nicht so auf Grafik ausgerichtet, wie ich ihn initial verstanden habe.
Bei PonderStibbons Vorschlag zur Quantifizierung sehe ich noch ein Problem. Nehmen wir an, ein Kunde besucht in folgender Reihefolge:

Newsletter - Google - Facebook - Google - Newsletter - Newsletter - Newsletter - Newsletter

Dann wird "Newsletter" ausschließlich als erster Kanal gezählt und die große Bedeutung des Newsletters am Ende fällt einfach unter den Tisch.
Eine suffiziente Begründung dafür, jeweils nur das erste Auftreten zu zählen, fehlt mir noch.

JMTC,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Lisa89

Re: Verteilung von Daten übersichtlich darstellen - Suche An

Beitragvon Lisa89 » Mi 28. Jan 2015, 18:40

Danke Bernhard. Das ist eine tolle Anregung mit dem Balloon-Plot.

Der Post ist nicht explizit auf eine Grafik ausgerichtet, aber das ist in diesem Kontext wahrscheinlich auch sinnvoll.
Lisa89
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 28. Jan 2015, 12:38
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 12 Gäste

cron