Hilfe zur Bachelorarbeit Big Data mittels R

Fragen, die sich auf kein spezielles Verfahren beziehen.

Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon Tobias Stump » Mo 18. Apr 2016, 13:10

Hallo, ich bin ganz neu hier und hab keine große Erfahrung mit Statistik.
Ich hab jedoch in meiner Bachelorarbeit einen Teil Statistik zu bewältigen. :? Ich soll mit Hilfe von R arbeiten, stelle aber erst einmal hier meine Frage, da mir doch noch ein paar statistische Grundlagen fehlen...

Ich soll die Messwerte einer solarthermischen Kombianlage näher betrachten. Heißt hier sind Werte von Temperatur, Druck, Volumenstrom, Strahlung und Leistung zu finden.
Die Messwerte die mir zur Verfügung stehen, sind 10 Sekundenwerte. Ich soll nun prüfen, ob größere Zeitintervalle, wie 20 Sekunden, 30 Sekunden, 60 Sekunden oder Minuten für die Aufzeichnung ausreichen um somit das Datenaufkommen zu reduzieren und im Folgenden die Analyse damit durchführen.
Ich würde gerne durch eine statistische Signifikanz meine Ergebnisse beweisen.
Wenn ich nicht falsch liege, müssten mir verbunden Werte vorliegen, da sie ja von der gleichen Anlage und dem gleichen Zeitraum stammen. Normalverteilt sind die Werte auch nicht, oder etwa doch?
Nun die Hauptfrage, welches Verfahren oder Test verwende ich um die statistische Signifikanz zu beweisen?

Hoffentlich könnt ihr einem Unwissenden helfen.
Tobias Stump
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mo 18. Apr 2016, 12:45
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon mango » Mo 18. Apr 2016, 13:50

Hallo,

kannst du das hier etwas genauer erklären?

Ich würde gerne durch eine statistische Signifikanz meine Ergebnisse beweisen.


Was steckt hinter dieser Formulierung? Was sind die Fixpunkte deines Vorgehens?

Und genauso wäre es gut, wenn du nochmal etwas genauer erklärst, was genau die Problemstellung ist. Du hast alle zehn Sekunden eine Messung und brauchst ein Maß für den Informationsverlust, wenn man auf ein höheres Messintervall umstellt?
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

folgende User möchten sich bei mango bedanken:
Tobias Stump

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon bele » Mo 18. Apr 2016, 14:42

Ich hätte vor allem das hier gerne erklärt:

Tobias Stump hat geschrieben:Ich soll nun prüfen, ob größere Zeitintervalle, [...] für die Aufzeichnung ausreichen um [...] im Folgenden die Analyse damit durchführen.

Welche Analyse soll den im Folgenden durchgeführt werden und wasn bedeuetet "ausreichen"?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Tobias Stump

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon Tobias Stump » Mo 18. Apr 2016, 15:10

Ja ich war vielleicht etwas unpräzise…
Ich habe mir das ganze so vorgestellt, dass ich an Tagen mit hoher und niedriger solarer Einstrahlung und hoher und niedriger Nutzlast in den verschiedenen Jahreszeiten die Werte mit unterschiedlichen Zeitintervallen betrachte und damit dann Rückschlüsse auf den Bedarf an Information und den Verlust treffen kann.

Ein Maß für den Informationsverlust wäre ein guter Anhaltspunkt. Wobei hier natürlich auch der Bedarf an Informationen eine Rolle spielt. Zum Beispiel, welche Wichtigkeit haben die Nachkommastellen der Temperatur. In welchem Maß ändert sich der Systemnutzungsgrad bei den unterschiedlichen Messintervallen.

Ich weiß das ganze könnte man laienhaft von Hand zu Fuß mit den prozentualen Abweichungen der Mittelwerte bewerkstelligen, die Varianzen vergleichen, aber ich würde das gerne auf eine professionellere Art machen und eine belegte Aussage treffen.

Wie gesagt, ich hab keine allzu große Erfahrung, mein Studium hat nur wenig Statistik beinhaltet. Trotzdem reizt es mich das auf diese Weise zu erledigen.

Ich wollte durch die statistische Signifikanz zeigen, dass keine irrtümlichen Schlüsse gezogen wurden. Wenn das hier fehl am Platz ist, oder gänzlich falsch, dann verwerfe ich die Idee nochmal schnell.
Tobias Stump
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mo 18. Apr 2016, 12:45
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon bele » Mo 18. Apr 2016, 16:39

Hi!

Ob es hier fehl am Platz ist oder richtig hängt davon ab, ob die Worthülsen noch mit Gehalt gefüllt werden oder leer bleiben. Es wäre an Dir, den Bedarf an Information im konkreten Fall zu erläutern und nicht, darauf hinzuweisen, dass der Bedarf an Information eine Rolle spielt. Entweder, Du hast ein Problem an der Hand, für das Nachkommastellen der Temperatur wichtig sind oder ein Problem, für das Nachkommastellen der Temperatur nicht wichtig sind. Willst Du darüber sinnieren, welche Art von Problemen man vielleicht irgendwann haben könnte oder gibt es eine konkrete Aufgabe?

Des weiteren wundere ich mich, dass man prozentuale Abweichungen von Mittelwerten von Hand rechnen können soll, wenn Du in der Überschrift was von "Big Data" schreibst. Beides schließt sich meines Erachtens aus, aber der Begriff ist dehnbar. Hat die Aufgabe was mit Big Data zu tun oder wolltest Du nur ein Buzzword platzieren? Über welchen Zeitraum liegen denn die Messungen in 10 Sekunden-Intervallen vor?

Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon Tobias Stump » Mo 18. Apr 2016, 17:58

Da ich meine Arbeit fertigstellen werde, werden „die Worthülsen noch mit Gehalt gefüllt“, keine Arbeit ist am Anfang „gefüllt“ und Big Data dient hier nicht nur als „Buzzword“. Meiner Meinung nach sind schon allein von einer Messstelle, Daten im 10 Sekunden Takt über einen Tag als Big Data zu bezeichnen, da diese schon unübersichtlich werden - darüber lässt sich streiten, korrekt. Mir liegen Daten seit November 2013 vor und die Anlage hat 66 Fühler und somit ist der Begriff Big Data nicht unangebracht. Für mich ist „von Hand zu Fuß“ ein Sprichwort um Dinge umständliche zu bewältigen, also auch prozentuale Abweichungen von Mittelwerten von Hand rechnen; möglich aber jede Menge Arbeit.
Ohne unhöflich zu werden, aber ich möchte mich hier eigentlich nicht um Haarspalterei kümmern, man kann Fragen auch normal stellen, sondern hätte gerne Hilfe bei meinem eigentlichen Problem.

Das System läuft momentan ohne Problem, zumindest kein offensichtliches und ich soll das System auf mögliche Optimierungen analysieren, wie zum Beispiel das Abschalten zum Stromeinsparen bei zu geringem oder keinem Gewinn aus der Solaranlage. Hier bleibt mir allerdings die freie Wahl und wird durch den Zeitrahmen meiner Bearbeitungszeit begrenzt.
Tobias Stump
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mo 18. Apr 2016, 12:45
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon Data » Mo 18. Apr 2016, 18:37

Hi,

Mir liegen Daten seit November 2013 vor und die Anlage hat 66 Fühler und somit ist der Begriff Big Data nicht unangebracht.

- in welcher Form liegen die Daten /Messungen vor? (Auf Papier, irgendwie 'binär'?)
- wie sind die Daten strukturiert? Variablen?
- wieviele Messungen konkret liegen je Variable vor in welchem Format?

Wenn darüber Klarheit besteht, wärte der nachste Schritt, Fragestellungen (konkret) zu benennen.

Danach könnten die einzelne Punkte mehr oder weniger einfach abgearbeitet werden.

Viele Grüße
data
Data
Mitglied
Mitglied
 
Beiträge: 24
Registriert: Do 31. Mai 2012, 22:30
Danke gegeben: 10
Danke bekommen: 1 mal in 1 Post

folgende User möchten sich bei Data bedanken:
Tobias Stump

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon Tobias Stump » Mo 18. Apr 2016, 19:22

Hi,
Im November 2013 sind in den Tabellen 74 Spalten mit ein paar Leerspalten, im Laufe der Zeit sind einige neue Fühler installiert worden, womit in den aktuellsten Tabellen 142 Spalten mit einigen Leerspalten vorliegen. Einige Spalten weisen leidglich Werte von 0 (ausgeschaltet oder ohne Fehler) und 1 (eingeschalter oder Fehler) auf. Pro Tag und Messstelle liegen 8640 Messwerte vor. Einige kleine Ausfälle gab es während den Aufzeichnungen, aber zum Großteil liegen die Daten in dem Format vor.

Die Daten sind als CSV Dateien gespeichert.
Die Frage wäre für mich, wie viel Genauigkeit der Informationen gehen durch ein größeres Zeitintervall verloren, wie mango das schon genannt hat, das Maß an Informationsverlust. Welche Abweichungen entstehen für die einzelnen Messstellen.
Tobias Stump
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mo 18. Apr 2016, 12:45
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon Chris. » Mo 18. Apr 2016, 19:29

Ich hätte einen eher kreativen Ansatz mittels Regressionsanalyse anzubieten.

Du wählst als abhängige Variable eine beliebige Zahlenreihe von 1 bis N, wobei N deine letzte Beobachtung ist. Als erklärende Variablen wählst du genau zwei aus: Messung in unterschiedlichen Intervallen. Der F-Test testet nun, ob deine beiden Variablen beide statistisch gleich sind mit einer gewissen Toleranzgrenze. Die Regressionswerte der Parameter und deren Standardabweichungen sind hier irrelevant, da du ja nur wissen willst, ob beide deine Messung in unterschiedlichen Intervallen zu unterschiedlichen Ergebnissen führt.

Was meinen die anderen dazu?
Zuletzt geändert von Chris. am Mo 18. Apr 2016, 21:33, insgesamt 1-mal geändert.
Chris.
User
User
 
Beiträge: 32
Registriert: Mi 6. Jan 2016, 22:34
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts

folgende User möchten sich bei Chris. bedanken:
Tobias Stump

Re: Hilfe zur Bachelorarbeit Big Data mittels R

Beitragvon mango » Mo 18. Apr 2016, 21:06

Hallo,

ich hätte zwei Ideen anzubieten:

1. du probierst es einfach aus. D. h. du vergleichst einfach deine gesamte Reihe mit solchen, bei denen Werte ausgelassen sind. Dabei verschiebst du die Auswahl jeweils so, dass du jede Kombination einmal hast und berechnest für alle Möglichkeiten die interessanten Kennwerte, also wahrscheinlich Mittelwert und Standardabweichung. Oder auch andere Parameter, die dich interessieren. Das wird natürlich schnell aufwendig, lässt sich aber mit R gut automatisieren. Auf jeden Fall erhältst du dann Daten darüber, wie die Kennwerte für gröbere Messmethoden um die hochfrequenten Messungen streuen, wenn man sich die hohe Frequenz "spart". Du musst dafür nur jeweils die empirischen Kennwerteverteilungen für alle Möglichkeiten je eines Messintervalls berechnen und daraus eine Reihe bilden.

2. du bedienst dich bei der Zeitreihenanalyse. Ich habe spontan keine Idee, was es da genau für Lösungen für dein Problem gibt aber ich denke, es kann sich lohnen, auf Basis des Konzeptes stochastischer Prozesse nach einer Methode zu suchen.

Leider scheiden gängige Möglichkeiten zum Vergleich von Messmethoden aus, da man dafür immer Messwertpaare braucht, deren Differenz eine Zufallsvariable ist. Und die hast du ja gerade nicht, wenn die Messmethoden sich nur nach dem Messintervall unterscheiden.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

folgende User möchten sich bei mango bedanken:
Tobias Stump

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 10 Gäste

cron