Ich habe das Gefühl, der Drops ist eh schon gelutscht, aber trotzdem noch mal zwei, drei Anmerkungen bzw. Fragen in die Runde:
Erste Frage vorweg: Wie groß ist deine Stichprobe?
Deine Variable Größe klingt nach cm, mm?
Allgemein gilt doch:
Wenn UV = nominalskaliert (dichotom) & AV = (mind.) intervallskaliert, dann t-Test (abh. oder unabh. je nachdem)
Wenn UV = nominalskaliert (dichotom) & AV = (mind.) ordinal, dann Wilcoxon oder Mann-W. (abh. oder unabh. je nachdem)
ABER
Wenn UV = (mind.) intervallskaliert & AV = nominalskaliert (dichotom), dann log. Regression
So wie du das geschrieben hast, gehst du davon aus, dass die Größe des Objektes einen Einfluss auf die Klassifizierung hat (und nicht andersherum!)
[...] ob kleinere Objekte häufiger (oder auch seltener) als falsch klassifiziert sind
Deine UV = Größe des Objektes (metrisch, nicht nv)
Deine AV = Ergebnis (nominalskaliert; dichotom)
Das heißt du würdest hier eigentlich eine logischte Regressions rechnen müssen, oder sehe ich das falsch?!
Oder sollte ich zur Auswertung mit dem relativen Anteil der Daten mit Ergebnis falsch vorgehen?
Also 50 % der Objekte mit Größe 2 hatten falsch als Testergebnis, 60 % der Größe 3, ...
Jedoch scheint mir, als hätten somit durch die Gruppierung nach Größe die größeren Objekte (wovon es viel weniger gibt) einen höheren Einfluss. Wenn es zum Beispiel nur ein Objekt mit Größe 400 gibt und dieses mit Ergebnis falsch getestet wird, dann springt dort der Anteil kurz auf 100 % hoch... Ich schätze mal, dass das dann die Korrelation zerstört, weil diese die selteneren Objekte ja nicht schwächer gewichtet.
Darf ich die Daten überhaupt so gruppieren?
Das ist quasi das, was ein Chi^2-Test machen würde. Der Chi^2-Test schaut, ob sie die Anzahl an Zellen in einer Kontingenztafel signifikant voneinander unterscheiden. Und so ähnlich wäre ich wahrscheinlich auch vorgegangen. Ich hätte die Größen der Gruppen allerdings inhaltlich sinnvoll zusammengefasst, z.B. in "klein", "mittelgroß" und "groß". Damit gehen dir zwar Informationen innherlab deiner Daten verloren (das heißt du verlierst an Teststärke und ein Verlust an Teststärke bedeutet, dass es unwahrscheinlicher ist einen Effekt zu entdecken, wenn es denn tatsächlich einen gibt), aber du hast keine Probleme mit der Wahl des richtigen Tests

Aber lass dich nun bloß nicht verunsichern
