Zusammenfassung
Es gilt nun, das im vorangegangenen Kapitel entwickelte Modell zur Erklärung der Wirkungsweise vergleichender Werbung empirisch zu überprüfen. Damit befassen sich die folgenden Abschnitte der vorliegenden Arbeit.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Literatur
Konstrukte sind Variablen, die zwar nicht direkt meßbar, aber prinzipiell beobachtbar sind (vgl. Schwaiger, 1997a, S. 39). Aus ihrer Begriffsdefinition geht nicht ohne weiteres hervor, wie man das Vorhandensein des damit umrissenen Phänomens empirisch erfassen kann (vgl. Böhler, 1992, S. 98; Mayntz et al., 1972, S. 19 ).
Nunnally ( 1967, S. 2) spricht von „Regeln für die Zuordnung von Zahlen zu Objekten, die die Ausprägung von Attributen repräsentieren sollen’.
Eine Übersicht über mögliche Meßfehler geben z.B. Selitiz et al. ( 1976, S. 164ff.).
Bisweilen wird die Sensitivität als ein weiteres Kriterium für die Qualität eines Meßverfahrens angeführt (vgl. Jacoby, 1978, S. 91; Rehorn, 1988, S. 5). Dieses Kriterium zielt auf die Differenzierungsfähigkeit bzw. Trennschärfe eines Meßvorgangs ab. Nach Schwaiger ( 1997e, S. 42) sind jedoch valide und reliable Meßverfahren stets sensitiv, so daß es dieses zusätzlichen Gütekriteriums nicht bedarf.
Für Peter ( 1979, S. 6) ist Validität eine conditio sine qua non für Wissenschaftlichkeit: „If the measures used in a discipline have not been demonstrated to have a high degree of validity, that discipline is not a science.“
Für die Beurteilung der Inhaltsvalidität existieren keinerlei objektive Kriterien. Inhaltsvalidität sollte deshalb nicht als Validitätskriterium aufgefaßt werden, sondern als ein Konzept, das bei der Konstruktion eines Instruments nützlich sein kann (vgl. Schnell et al., 1999, S. 149 ).
Ist ein solcher Zusammenhang nicht feststellbar, so kann dies verschiedene Ursachen haben (vgl. Zeller/Carmines, 1980, S. 82ff.): Es kann tatsächlich keine Konstruktvalidität vorliegen, die zur Validierung verwendete Hypothese oder die empirische Untersuchung kann falsch sein oder das zu validierende Instrument kann zwar selbst konstruktvalide sein, während es jedoch die anderen Instrumente im Validierungsprozeß nicht sind.
Andere Quellen (vgl. z.B. John/Reve, 1978, S. 288) nennen mit der nomologischen Validität noch ein weiteres Kriterium zur Beurteilung der Konstruktvalidität.
Die Überprüfung von Konvergenz-und Diskriminanzvalidität kann z.B. durch Multitrait-MultimethodMatrizen erfolgen (vgl. Campbell/Fiske, 1959, S. 81ff; Sullivan/Feldman, 1979, S. 17ff.).
Eine Problematisierung der Kriteriumsvalidität findet sich bei Wegener ( 1983, S. 95f.).
Gewährleistet ist dies insbesondere dann, wenn während der Messung keine unkontrollierten Störeinflüsse auftreten (vgl. Berekoven et al., 1999, S. 88).
An dieser Stelle offenbart sich bereits das Spannungsverhältnis zwischen interner und externer Validität. Das Bemühen um höchstmögliche interne Validität führt fast zwangsläufig dazu, daß die Versuchsbedingungen immer „künstlicher“ und somit realitätsferner werden. Hohe interne Validität geht somit fast automatisch zu Lasten der externen Validität, weshalb in der Literatur auch von einem „asymmetrischen Verhältnis” dieser Gütekriterien gesprochen wird (vgl. Berekoven et al., 1999, S. 88 ).
Dies unterbleibt gewöhnlich jedoch. So können z.B. Cote/Buckley ( 1987, S. 316) in der gesamten sozialwissenschaftlichen Literatur nur ca. 200 Arbeiten mit Multitrait-Multimethod-Matrizen nachweisen.
Mangelnde Reliabilität kann auf drei Ursachen zurückgeführt werden (vgl. Berekoven et al., 1999, S. 87): Fehlende Bedingungskonstanz (d.h. externe Variablen beeinflussen die Messergebnisse), fehlende Merkmalskonstanz (d.h. trotz identischer Testbedingungen und fehlerfreiem Meßinstrument variieren die Messergebnisse) und fehlende instrumentale Konstanz (d.h. mangelnde Präzision des Meßinstruments).
Cronbach ( 1951, S. 298) verwendet die Bezeichnung „Äquivalenz“.
Abweichende Ergebnisse bei Bedingungskonstanz sind hier ein Hinweis auf die Unzuverlässigkeit des Instruments, wobei der Einfluß von Lernprozessen bei den Befragten zu berücksichtigen ist (vgl. Berekoven et al., 1999, S. 87).
Nieschlag et al. ( 1997, S. 722) zeigen zwei Möglichkeiten auf, wie man zwei Sets von Meßwerten erhält. Entweder werden die einer Gruppe von Auskunftspersonen vorgelegten Items einer Skala in zwei Teile aufgespalten und für beide Unterstichproben getrennte Meßwerte errechnet (Split-halfMethode), oder es erfolgt eine Messung des gleichen Sachverhalts bei denselben Auskunftspersonen mit einem zweiten, formal gleichen, inhaltlich indessen verschiedenen Instrument (Paralleltest-Reliabil ität).
Die Objektivität läßt sich wegen ihrer Abhängigkeit vom Forscher nicht generell, sondern nur im Einzelfall beurteilen (vgl. Schwaiger, 1997a, S. 42). Sie kann aber durch einen sogenannten Objektivitätskoeffizienten berechnet werden. Dabei werden die Ergebnisse zweier Meßvorgänge, die von unterschiedlichen Untersuchungsleitern durchgeführt werden, miteinander korreliert (vgl. Berekoven et al., 1999, S. 86 ).
Die Durchführungsobjektivität ist um so höher, je weniger der Forscher die Auskunftspersonen durch sein äußeres Erscheinungsbild bzw. durch seine Bedürfnis-, Ziel-und Wertstruktur beeinflußt. Durchführungsobjektivität fordert somit geringstmögliche soziale Interaktion zwischen Auskunftsperson und Forscher.
Die Auswertungsobjektivität nimmt mit dem Standardisierungsgrad des Auswertungsverfahrens zu, d.h., ein Meßvorgang ist um so objektiver, je weniger Freiheitsgrade der Forscher bei der Auswertung der Meßergebnisse hat.
Interpretationsobjektivität ist dann gegeben, wenn der Interpretationsspielraum des Forschers hinreichend klein gehalten wird. Die Objektivität einer Untersuchung nimmt also in dem Maße zu, in dem die Freiheitsgrade des Forschers bei der Interpretation der Meßergebnisse abnehmen.
Je nach Erkenntnisziel kann auch eine Kombination mehrerer Verfahren nötig sein (vgl. z.B. Dworak, 1985, S. 1274 ).
Koch ( 1997, S. 154) unterscheidet Werbewirkungstests zusätzlich noch nach der Untersuchungsmethode in apparative Verfahren der Beobachtung und qualitative Befragungsmethoden, sowie nach dem Untersuchungsziel in Tests der Aktualgenese, der Aktivierung, der Wahrnehmung, des Gedächtnisses und des Kaufverhaltens.
Eine detaillierte Beschreibung der einzelnen Testverfahren würde den Rahmen der vorliegenden Arbeit sprengen. Der interessierte Leser sei an dieser Stelle auf Schwaiger ( 1997a, S. 43ff.) verwiesen.
Alternativ empfehlen auch Berekoven et al. ( 1999, S. 175f.) eine Systematisierung der Kontrollmethoden nach Wirkungsdimensionen in „momentane Reaktionen“, „dauerhafte Gedächtnisreaktionen” und „finale Verhaltensreaktionen“, wohingegen Hüffner (1997, S. 410) auf eine Systematisierung verzichtet und eine bloße Aufzählung verschiedener Werbemitteltests liefert.
Eine für die Auswahl des Meßverfahrens entscheidende Forderung ist die nach einer repräsentativen Auswahl der Probanden.
Für eine ausführlichere Darstellung dieser Verfahren sei der interessierte Leser z.B. auf Schwaiger ( 1997a, S. 61ff.) und die dort gegebenen Literaturhinweise verwiesen.
Kölblin ( 1994, S. 259) merkt an, daß diese Testverfahren bislang vergleichsweise selten zum Einsatz kommen. Er führt dies auf die mangelnde Objektivität dieser Verfahren zurück.
Beim Erzähltest sollen die Testpersonen eine verbale Geschichte nach eigenen Vorstellungen fortführen (vgl. Schub von Bossiazky, 1991, S. 107).
Der Picture-Frustration-Test von Rosenzweig ( 1945, S. 3ff.) basiert auf Zeichnungen von je zwei Personen in Konfliktsituationen. Die Reaktionen der einen Person sind in Form einer Sprechblase offenbar, die Reaktion der zweiten Person bleibt — veranschaulicht durch eine leere Sprechblase — ungeklärt. Aufgabe der Probanden ist es, die leere Sprechblase zu füllen.
Beim Apperzeptionstest von Murray (1943) werden die Auskunftspersonen aufgefordert, zu Fotos, die in undeutlicher Form typische Lebenssituationen darstellen, eine Geschichte zu erzählen.
Beim Assoziationsverfahren wird den Auskunftspersonen ein Wort oder Bild als Stimulus vorgelegt, zu denen möglichst spontan Aussagen gemacht werden sollen (vgl. Berekoven et al., 1999, S. 181).
Das Ziel der Skalierungsverfahren besteht in erster Linie darin, theoretische Konstrukte, die auch konstituierende Elemente des zu prüfenden Modells sind, zu messen. Zu diesem Zweck werden diese qualitativen Merkmale skaliert, d.h. in quantitative Größen transformiert (vgl. Berekoven et al., 1999, S. 72 ).
Andere Forscher gehen wegen der oft groben Gliederung des Kontinuums nur von einem ordinalen Meßniveau aus (vgl. Nieschlag et aL, 1997, S. 694).
Weitere in der Marketingforschung bekannte eindimensionale Skalierungstechniken sind die Guttmann-Skala (vgl. z.B. Schnell et al., 1999, S. 185f) und die auf dem „law of comparative judgement“ von Thurstone (1927) basierte Paarvergleichsmethode. Für die Werbewirkungsforschung sind diese Verfahren jedoch von geringerer Bedeutung (vgl. Green/Tull, 1982, S. 161; Schwaiger, 1997a, S. 68 ).
Für eine ausführliche Diskussion der Probleme der Likert-Skala und mögliche Lösungsansätze sei der interessierte Leser auf Nieschlag et al. ( 1997, S. 702ff.) verwiesen.
ist die Summe der Scores aller Items, denen zugestimmt wurde (vgl. Neibecker, 270 Eine detaillierte Darstellung der Vorgehensweise zur Bildung und Auswertung von ThurstoneSkalen findet sich bei Nieschlag et al. ( 1997, S. 704ff.) und Sixtl (1982, S. 152ff.).
Dieses von Osgood et al. ( 1957, S. 76ff) entwickelte Verfahren sollte zunächst der Messung von Wortbedeutungen dienen.
Im Unterschied zu den eindimensionalen Verfahren werden bei semantischen Differentialen die einzelnen Itemwerte jedoch nicht aggregiert oder anderweitig verdichtet. Man analysiert stattdessen den graphischen Verlauf von Durchschnittsprofilen und ermittelt Distanzen und Korrelationen zwischen verschiedenen Profilen (vgl. Nieschlag et al., 1997, S. 713f.).
Das von Hofstätter (1960) bzw. Hofstätter/Lübbert (1958) entwickelte Polaritätenprofil stellt ein spezielles semantisches Differential dar, das mit 24 stets identischen Eigenschaftspaaren zur Messung von Einstellungen eingesetzt wird. Eigenschaftsprofile unterscheiden sich von semantischen Differentialen nur dadurch, daß in den ltembatterien objektbezogene Items Verwendung finden (vgl. Schwaiger, 1997a, S. 69 ).
Schwierigkeiten treten auch dann auf, wenn sogenannte zweipolige Rating-Skalen verwendet werden, deren Pole Ausdrücke mit diametralen Bedeutungsinhalten aufweisen. In solchen Fällen treten häufig Interpretationslücken bzgl. des lndifferenzpunktes der Skalen auf (vgl. Kroeber-Riel/ Weinberg, 1996, S. 193f.; Trommsdorff, 1975, S. 86ff), da im Ergebnis nicht entschieden werden kann, ob tatsächlich Indifferenz oder vielmehr Ambivalenz vorliegt.
Eine ausführliche Darstellung der Multiattributmodelle findet sich z.B. bei Andritzky ( 1976, S. 223ff.).
Der besondere Dank des Autors gilt dabei Herrn Prof. Dr. Schwaiger, Herrn Hötzel, Herrn Braun und Herrn Kreileder von Infratest Burke, Herrn Dr. Ellinghaus von der BMW Group sowie Frau Roth und Herrn Hansen von Mannesmann o.tel.o.
Darüber hinaus ermöglicht der Rückgriff auf bereits bewährte Indikatoren die Vergleichbarkeit der jeweiligen Forschungsergebnisse.
Schanz ( 1988, S. 16ff.) warnt zudem vor einer „multiplen wissenschaftlichen Isolation“, die durch die separate Entwicklung immer neuer Meßindikatoren für jedes Forschungsvorhaben gefördert wird. Dieser Zustand würde dann eintreten, wenn jeder Forscher allein bestrebt ist, eigene neue Ansätze voranzutreiben und auf die adaptierte Verwendung bestehender Methoden verzichtet. Aus diesen Gründen wird für die Zwecke der vorliegenden Arbeit bewußt auf eine Neuentwicklung von Indikatoren zur Messung der zu operationalisierenden Konstrukte verzichtet.
Das Bestreben des Autors bei der Wahl der Stimuli war es, möglichst viele verschiedene Produktkategorien in der Untersuchung zu berücksichtigen. Für die Durchführung der empirischen Studie wurde dementsprechend eine Vielzahl von Unternehmen, die bereits vergleichend geworben hatten, angesprochen. Neben Infratest Burke konnten die Unternehmen BMW und Mannesmann o.tel.o als Sponsoren gewonnen werden. Die Auswahl der getesteten Formate wurde entsprechend mit den Sponsoren abgestimmt.
Im konkreten Fall handelt es sich bei den beworbenen Telekommunikationsdiensten um die Kosten eines ISDN-Anschlusses. Im folgenden wird hierfür der Begriff „Telekommunikation“ verwendet.
Ä° Das Meßinstrument für die Kontrollgruppe ergibt sich als Kombination der Meßinstrumente Telekommunikation und Automobil — lediglich die Indikatoren zur Ermittlung der Einstellung zum Werbemittel werden hier nicht abgefragt.
Zur optimalen Wahl der Anzahl von Skalenstufen vgl. Stadt/er (1983, S. 99ff.). Churchill/Peter (1984, S. 365) kommen im Rahmen einer Meta-Analyse ebenso wie Bruner/Hensel ( 1993, S. 340f.) zu dem Ergebnis, daß eine höhere Anzahl von Stufen in einer Skala die Reliabilität des Meßinstruments erhöht. Übersteigt jedoch die Anzahl der Skalierungsstufen eine bestimmte — individuell verschiedene — Grenze, dann erhöht sich die Wahrscheinlichkeit dafür, daß die Auskunftspersonen zur Besetzung der Skalenpunkte Unterscheidungen vornehmen müssen, die ihre persönliche Unterscheidungsfähigkeit überfordern (vgl. Stadtler, 1983, S. 103 ).
Zusätzlich zu den Untersuchungsgruppen, denen ein vergleichender bzw. nicht-vergleichender Stimulus präsentiert wurde, wurde eine Kontrollgruppe gebildet, um bei der Auswertung nicht nur zwischen den Wirkungen der vergleichenden Werbung gegenüber der nicht-vergleichenden Werbung differenzieren zu können, sondern auch relative Änderungen gegenüber der Nicht-Beeinflussung feststellen zu können.
Im vorliegenden Fall umfaßt die Grundgesamtheit alle Rezipienten von Werbung in Deutschland. Eine Vollerhebung ist im Rahmen der vorliegenden Fragestellung aus Kosten-und Zeitgründen nicht durchführbar. Deshalb wird an dieser Stelle darauf auch nicht weiter eingegangen.
Stichprobenauswahlverfahren geben an, welche Untersuchungsobjekte bzw. Merkmalsträger aus der Grundgesamtheit in die Stichprobe gelangen; in sogenannten Stichprobenplänen wird dagegen zusätzlich zur Auswahl festgelegt, welche Merkmale erhoben und welche Auswertungsverfahren angewandt werden.
Green/Tull (1982, S. 199) merken hierbei jedoch an, daß es bisweilen gar nicht erwünscht ist, daß jedes Element die gleiche Wahrscheinlichkeit hat, in die Stichprobe zu gelangen. Es sei oft unmöglich, interessante Untergruppen einer statistischen Auswertung zu unterziehen, da sie oftmals nur einen geringen Anteil an der Grundgesamtheit haben und so entsprechend die Zahl der berücksichtigten Fälle zu klein ist (vgl. Stier, 1999, S. 133 ).
Auf eine Detaillierung dieser Vorgehensweisen soll hier verzichtet werden. Der interessierte Leser sei auf die Literatur zu diesem Themenkomplex (z.B. Koch, 1997, S. 31) verwiesen. Für eine Diskussion der Vor-und Nachteile der einzelnen Ziehungstechniken vgl. Niesch/ag et al. ( 1997, S. 729). Hüttner (1997, S. 129) führt kritisch an, daß diese Vorgehensweisen zur Umsetzung der reinen Zufallsauswahl immer eine Einschränkung des Zufalls darstellen.
Dies trifft auch für die hier vorliegende Erhebung zu (vgl. Fußnote 283).
Laut Green/Tull ( 1982, S. 198) ist es oft problematisch, eine Auswahlgrundlage zu beschaffen, die eine Zufallsauswahl gestattet.
Böhler (1992, S. 148) merkt an, daß durch die hohe Varianz der Merkmale in der Grundgesamtheit auch die Stichprobenvarianz erhöht wird. Entgegenwirkend sei ein größerer Stichprobenumfang, der aber wiederum höhere Kosten verursacht. Ein weiterer Nachteil ist laut Fleischer ( 1999, S. 307) darin zu sehen, daß sehr einseitige Stichproben nicht auszuschließen sind.
Hierbei kann man mit der proportionalen und der disproportionalen Schichtung zwei Arten der Schichtung unterscheiden. Die optimale Schichtung stellt einen Sonderfall der disproportionalen Schichtung dar. Zur näheren Erläuterung sei auf die einschlägige Literatur verwiesen (vgl. z.B. Berekoven et al., 1999, S. 53). Für eine Diskussion der mit diesem Vorgehen verbundenen Probleme vgl. auch Cochran (1977) und Deming (1960).
Durch diesen Schichtungsvorgang wird eine geringere Streuung des Zufallsfehlers erreicht als dies bei der reinen Zufallsauswahl der Fall ist.
Außerdem ist zu klären, wie viele Schichten zu bilden sind, nach welchen Kriterien dies zu geschehen hat und wie die Gesamtstichprobe auf die einzelnen Schichten aufzuteilen ist (vgl. Stier, 1999, S. 137).
Im Rahmen dieser Arbeit erscheint es sinnvoll, nur das Klumpenverfahren als den am häufigsten verwendeten Vertreter der mehrstufigen Auswahl kurz zu erläutern. Eine Detaillierung anderer mehrstufiger Verfahren findet sich z.B. bei Koch ( 1997, S. 38) und Schwaiger (1993, S. 42). Eine traditionelle Auswahltechnik innerhalb der mehrstufigen Verfahren stellt das sogenannte RandomRoute-Verfahren dar. Der interessierte Leser sei hier auf Berekoven et al. (1999, S. 58), Hühner (1997, S. 135) und Schnell et al. (1999, S. 266) verwiesen.
Dieses Verfahren teilt die Grundgesamtheit in Klumpen, d.h. in disjunkte Elementeinheiten ein. Daraus werden per Zufallsprinzip Klumpen gezogen, die mit allen beinhalteten Elementen in die Stichprobe eingehen.
Hammann/Erichson ( 1994, S. 120) verstehen hierunter die Auswirkung der Klumpenbildung auf den Stichprobenfehler.
Die Auswahl mit veränderlichen Wahrscheinlichkeiten ist insbesondere deshalb interessant, weil sie Optionen auf sehr kleine Varianzen eröffnet. Eine Anwendung in der Praxis ist aber schwierig, zumal wie schon bei der reinen Zufallsauswahl eine Auflistung aller Einheiten der Grundgesamtheit vorliegen muß (vgl. Fleischer, 1999, S. 309 ).
Man spricht von mehrphasiger Auswahl beispielsweise bei Durchführung von Vorstichproben oder bei der Ziehung mehrerer Unterstichproben aus einer vorhandenen Stichprobe.
Nähere Erläuterungen finden sich z.B. bei Cochran ( 1977, S. 380ff).
Nähere Erläuterungen zum Mikrozensus finden sich in der einschlägigen Literatur (z.B. Schnell et al., 1999, S. 275f.; Stier, 1999, S. 150 ).
’ Weiterhin kann angeführt werden, daß mit Ausnahme der geschichteten Auswahl die Kenntnis der Verteilung der relevanten Merkmale nicht nötig ist (vgl. Koch, 1997, S. 39)
Fällt ein Untersuchungsobjekt aus, wird die Berechnung des Zufallsfehlers ungenauer, wenn nicht sogar unmöglich (vgl. Pepels, 1998, S. 48).
Dies erscheint vor allem bedenklich, wenn man die bei Erhebungen stetig sinkenden Rücklaufquoten (vgl. dazu Bairn, 1991, S. 116) berücksichtigt. Dieser Vorwurf trifft jedoch in gleichem Maße auf Verfahren bewußter Stichprobenauswahl zu, wenn Stichprobenausfall und Erhebungsmerkmale nicht unabhängig sind.
Ö0. Ein weiterer Kritikpunkt, der sich gegen die Verfahren der Zufallsauswahl ins Felde führen läßt, ist der Verlust der Befragungsanonymität. Da vorab z.B. die zu befragenden Personen ausgewählt werden, müssen z.B. deren Adressen bekannt sein. Damit entsteht ein Verlust der Anonymität, den man bei den Verfahren der bewußten Auswahl vermeiden kann.
Es werden lediglich diejenigen Erhebungseinheiten der Grundgesamtheit gewählt, die leicht zu erreichen sind bzw. die sich zum Zeitpunkt der Erhebung am Erhebungsort befinden.
tellt sich allerdings nur ein, wenn die Merkmale, nach denen die bewußte Auswahl vorgenommen wird, auch die für den Untersuchungszweck relevanten sind. Die Forderung nach Repräsentativität ist nur dann erfüllt, wenn die Verteilung der relevanten Merkmale in der Stichprobe mit der in der Grundgesamtheit übereinstimmt (vgl. Corsten/Reiß, 1996, S. 855). Dies läßt sich in der Praxis allerdings kaum überprüfen (vgl. Grünewald, 1998, S. 22 ).
Nach Berekoven et al. ( 1999, S. 57) kann dieses Verfahren deshalb nicht als ein methodisch gesichertes, den Repräsentationsschluß ermöglichendes Verfahren angesehen werden.
Nach Kellerer ( 1963, S. 9) hat „dieses Verfahren seine Qualitäten auf anderen Ebenen als der Statistischen.“
Das Konzentrationsverfahren wird vor allem in der Investitionsgütermarktforschung verwendet (vgl. Koch, 1997, S. 42), da hier die Voraussetzung am ehesten gegeben ist, daß wenige Elemente der Grundgesamtheit eine herausragende Bedeutung für den Sachverhalt haben.
Laut Taylor ( 1995, S. 212 und 218) gilt dies zumindest für Europa.
Diese werden als Quotenmerkmale bezeichnet.
Von diesen soziodemographischen Merkmalen wird häufig vermutet, daß sie für den Untersuchungsgegenstand eine wichtige Rolle spielen (vgl. Berekoven et al., 1999, S. 55; Koch, 1997, S. 40). Vgl. dazu die Anmerkung in Fußnote 306.
Bei der Erstellung der Quotenpläne kann zwischen einfachen Quotenverfahren, die nur unabhängige Quoten verwenden, und kombinierten Quotenverfahren unterschieden werden (vgl. Schnell et al., 1999, S. 281).
Dabei ist es innerhalb der vorgegebenen Quotierung unerheblich, welches Objekt der Untersuchungsleiter auswählt, solange es den Quotenanweisungen entspricht und in der Kumulation der Quotenplan eingehalten wird (vgl. Pepels, 1998, S. 49).
Allerdings hält Behrens ( 1966, S. 113f.) diese Berechnung durchaus auch für das Quotenverfahren für denkbar.
Dem widersprechen jedoch z.B. Noelle-Neumann/Petersen ( 1996, S. 261), die davon ausgehen, daß „bei richtiger Handhabung auch die Quotenauswahl repräsentativen Charakter besitzt“.
Zu diesem Kritikpunkt nehmen z.B. Marsh/Scarbrough (1990) ausführlich Stellung.
Hammann/Erichson (1994, S. 112) weisen darauf hin, daß das Quotenverfahren bei einem Einsatz in geographisch eng begrenzten Gebieten auch zu einer Art Klumpeneffekt führen könne. Dies sei dann der Fall, wenn die Erhebung im immer selben geographischen Gebiet durchgeführt werde und deshalb immer wieder dieselben Untersuchungsobjekte herangezogen würden. Dadurch könne es zu Verzerrungen der Ergebnisse kommen (vgl. dazu auch Böhler, 1992, S. 133 ).
Weiterhin führt Stier (1999, S. 123) an, daß in der Praxis eine große Zahl an z.B. Interviewern eingesetzt wird, um somit die Zahl der Interviews pro Interviewer zu reduzieren. Damit hat der einzelne Interviewer mit seiner subjektiven Auswahl der Untersuchungsobjekte nur noch einen geringen Einfluß auf die Gesamtstichprobe. Außerdem vermeidet eine ständig variierende Quotenverteilung bei einem Interviewer die Bildung eines sogenannten Befragten-Panels, d.h. dem Interviewer wird die Möglichkeit genommen, bei jeder Befragung dieselben Untersuchungsobjekte zu befragen (vgl. Behrens, 1966, S. 116 ).
Das Schneeballverfahren wird im Rahmen dieser Arbeit nicht weiter verfolgt. Der interessierte Leser sei auf die einschlägige Literatur (z.B. Hüttner, 1997, S. 135; Schnell et al., 1999, S. 280) verwiesen.
Das Quotenverfahren ermöglicht darüber hinaus bei gegebenen Kosten eine größere Zahl von Erhebungseinheiten als eine Zufallsauswahl (vgl. Green/Tull, 1982, S.195; Kish, 1965, S. 565 ).
Den einzigen Unterschied sehen sie darin, daß vom Untersuchungsleiter nicht gefordert wird, die Untersuchungsobjekte per Zufall auszuwählen.
Dabei vergleicht Fleischer die Quotenvorgaben mit den jeweiligen Schichten, aus denen bestimmte Stichproben gezogen werden müssen.
Hierfür müssen einige Voraussetzungen erfüllt sein. Der Leser sei auf die Ausführungen bei Noelle-Neumann/Petersen ( 1996, S. 259f.) verwiesen.
Fehlerquellen innerhalb einer Erhebung seien „… so vielfältig, daß die aus dem Auswahlverfahren resultierenden Fehler anteilig gering sind.“ 325
Ähnlich argumentieren auch Noelle-Neumann/Petersen (1996, S. 191). Den größten Einfluß auf die Ergebnisse einer Umfrage übt ihrer Meinung nach das Befragungsinstrument aus. Sie weisen darauf hin, daß Fehler im Aufbau einer Untersuchung auch Zufallsverfahren zu fehlerhaften Verfahren machen können (vgl. Noelle-Neumann/Petersen, 1996, S. 253f.). Mosmann ( 1999, S. 50ff.) führt an, daß bereits die Wahl der Befragungsmethode die Zusammensetzung der Stichprobe sowie die Befragungsergebnisse beeinflußt.
Der besondere Dank des Autors für die Unterstützung in diesem Punkt gilt dabei Herrn Prof. Dr. Schwaiger, sowie Herrn Hötzel und Herrn Braun von Infratest Burke.
Prozentangaben gerundet.
In der Gesamtbevölkerung verfügen ca. 40% über einen Haupt-oder Volksschulabschluß, ca. 30% über die Mittlere Reife und 24% über Abitur oder Fachhochschulreife.
Ca. 30% der Bevölkerung sind Arbeiter.
Aufgrund der Quotierung sind dazu überproportional viele Männer und jüngere Personen enthalten.
Die Fragen nach dem Marken-Fit der jeweiligen Werbemittel und der allgemeinen Einstellung zur Werbung wurden auf Wunsch der Sponsoren der Studie in die Erhebungsinstrumente (vgl. Anhang) aufgenommen und werden ebenso wie die Fragen nach zuletzt von den Probanden im Bereich Automobil bzw. Telekommunikation wahrgenommenen Werbemitteln, die der Hinstimmung auf die Befragung dienen, hier nicht ausgewertet.
In Abschnitt 5.3 werden Ergebnisse, die bei a = 5% signifikant sind, durch * gekennzeichnet, solche, die nur bei a = 10% signifikant sind, durch ’“.
Die Probanden gaben eine relative Bewertung der Attributsausprägung ab, wobei der Wert „1“ bedeutet „Bei diesem Attribut ist die Deutsche Telekom überlegen” und der Wert „5“.,o.tel.o ist überlegen” (vgl. dazu Fragebogen im Anhang).
Die Probanden geben eine relative Bewertung der Attributsausprägung ab, wobei der Wert „1“ bedeutet „Bei diesem Attribut ist BMW überlegen” und der Wert „5 „Mercedes-Benz ist überlegen“ (vgl. dazu Fragebogen im Anhang).
p-value = 0,017.
Nach Aussage der Autorin ist vergleichende Werbung dazu geeignet, dem Rezipienten bewußt zu
machen, daß nicht alle verfügbaren Produktalternativen in ihren Eigenschaften identisch sind.
Im Vergleich mit der Kontrollgruppe gewichten die Probanden, die die vergleichende Werbung sehen, das Attribut „Preis“ höher und das Attribut „Service” niedriger. Letzteres könnte auf die Art der Fragestellung, bei der eine konstante Anzahl von Bewertungseinheiten zu vergeben ist, zurückzuführen sein. In punkto Gewichtung des Attributs „Sprachqualität“ ergeben sich keine signifikanten Unterschiede in den Mittelwerten.
Dies entspricht auch den Ergebnissen von Gardner (1983, S. 316) und Kaul/Wittink ( 1995, S. 156ff)
Die Umsetzung erfolgt mit der Software Amos 3.61.
Dieses relativ junge Instrumentarium (vgl. Bagozzi, 1980) findet im Rahmen der Konsumentenforschung in zunehmendem Maße Verwendung (vgl. Homburg/Baumgartner, 1995, S. 1095f.), da „… gerade in diesem Bereich häufig mit Variablen gearbeitet wird, die nur sehr schwierig zu operationalisieren… sind“ (Homburg/Dobratz, 1991, S. 214 ).
Im Gegensatz zur üblichen Chi-Quadrat-Statistik sind GFI und AGFI unabhängig vom Stichprobenumfang und relativ robust gegenüber Verletzungen der Normalverteilungsannahme (vgl. Nakath/Lindhorst, 1999, S. 66).
Vgl. zur Definition von GFI und AGFI z.B. Bollen (1989, S. 276f.), zur Definition von RMR z.B. Byrne ( 1989, S. 115) oder Schneider (1986, S. 20 ).
Nach Weber ( 1996, S. 70) kann bei einem GFI z 0,95 von einem guten Modellfit gesprochen werden.
Nach Weber ( 1996, S. 70) kann bei einem AGFI z 0,90 von einem guten Modellfit gesprochen werden.
Nach Byrne ( 1989, S. 115) sollten die Werte für den RMR. 0,05 sein.
Bei der Automobil-Gruppe werden — mit Ausnahme der Variablen „Diese Werbung greift andere Anbieter an“ und,Diese Werbung ist irreführend” — alle Indikatoren, die die Einstellung zum Werbemittel messen, umkodiert. Ebenso erfolgt bei dieser Untersuchungsgruppe eine Umkodierung für alle Indikatoren, die die Einschätzung der Produktattribute messen. Bei der Telekommunikationsgruppe werden die Indikatoren, die die Einstellung zum Werbemittel messen entsprechend dem Vorgehen bei der Automobilgruppe behandelt.
Eine ausführliche Darstellung des Maximum-Likelihood-Prinzips findet sich z.B. bei Fahrmeir et al. (1996).
p gibt dabei die Anzahl der Indikatorvariablen der latenten endogenen und q die Anzahl der Indikatorvariablen der latenten exogenen Variablen an.
Der Nachweis, daß FML den Wert 0 annimmt, wenn die aus den geschätzten Parametern berechnete Matrix E mit der empirischen Korrelationsmatrix S übereinstimmt, kann durch Substitution von S = E geführt werden.
Diese Eigenschaften gelten nur asymptotisch, d.h. bei ausreichend großen Stichproben. Zur Anwendbarkeit des ML-Verfahrens bei kleinen Stichproben vgl. Boomsma (1983). Hildebrandt (1983, S. 88) weist darauf hin, daß diese Eigenschaften nur unter der Voraussetzung unabhängig und identisch normalverteilter Indikatorvariablen gelten. Doch selbst wenn diese Eigenschaften nicht gegeben sind, liefert der ML-Schätzer meist recht gute Schätzwerte (vgl. Bagozzi, 1980, S. 103 ).
Die Konsistenzeigenschaft gilt auch, falls keine multivariate Normalverteilung vorliegt (vgl. Hillmer, 1990, S. 25f.).
Bei allen Telekommunikationsmodellen (vgl. Abbildungen 54, 55, 56 und 71) bleiben die Variablen „Bedeutung Sprachqualität“ und „Bewertung Sprachqualität” unberücksichtigt. Verantwortlich hierfür ist die große Zahl an missing values bei der Bewertung der Sprachqualität, die das ohnehin kleine n nochmals stark verringern würde. Die Ursache hierfür liegt wohl in der relativ geringen Bedeutung der Sprachqualität aus Sicht der Probanden (vgl. Abschnitt 5.3.2). Während unmittelbar nach der Liberalisierung des Sprachtelefoniemarktes deutliche Unterschiede in der Sprachqualität zwischen den Anbietern üblich waren, bestehen diese Differenzen heute nicht mehr.
Weiterhin ist die Güte dieser Indikatoren eher mäßig.
Der im Vergleich mit den anderen Gütemaßen hohe AGFI ist — in diesem, wie auch in allen anderen Modellen — wohl auf die große Zahl von Freiheitsgraden zurückzuführen.
Die Zahlenwerte der Pfadkoeffizienten geben die Korrelation zwischen den Variablen an. So erklärt z.B. das Konstrukt „Einstellung zum Werbemittel“ 0,7142 _ 0,510 der Varianz der Variablen „Diese Werbung ist verständlich” (vgl. Jöreskog, 1977, S. 272f.).
Abstriche sind hier lediglich bzgl. des Indikators „Wer ist überlegen“ zu machen. Möglicherweise kommen hier aus Sicht der Probanden verstärkt Einschätzungen einer globalen wirtschaftlichen oder technischen Überlegenheit zum Tragen.
Alle Fälle, in denen Probanden die Antwortkategorie „Weiß nicht“ auswählen, werden eliminiert. Dies gilt für alle untersuchten Modelle.
Die Meinungen, welche Stichprobengröße n für die Bestimmung der Korrelationsmatrix angemessen ist, variieren. Ding et al. (1995) geben ein Minimum von n = 100 bis 150 an, Boomsma (1983) schlägt hingegen mindestens n = 400 vor und Hu et al. (1992) zeigen sogar Fälle auf, in denen n . 5000 nicht ausreichend ist.
Die Probanden geben eine relative Einschätzung ab, wobei der Wert „1“ bedeutet „Bzgl. dieses Indikators ist die Deutsche Telekom überlegen” und der Wert „5“ „o.tel.o ist überlegen” (vgl. dazu Fragebogen im Anhang).
Die Probanden geben eine relative Einschätzung ab, wobei der Wert „1“ bedeutet ”Bzgl. dieses Indikators ist BMW überlegen“ und der Wert „5” „Mercedes-Benz ist überlegen“ (vgl. dazu Fragebogen im Anhang).
Ziel der Umkodierung ist es, daß jeweils hohe Indikatorausprägungen auf hohes Involvement bzw. hohes Vorwissen schließen lassen.
Bei der Automobil-Gruppe werden die Involvement-Indikatoren „Der Kauf eines Autos ist für mich eine wichtige Entscheidung“, „Vor dem Autokauf informiere ich mich genau über die Produkte der verschiedenen Hersteller”, „Autos interessieren mich persönlich“ und,Autos haben für mich allgemein einen hohen Stellenwert” umkodiert. Entsprechend wird mit den Vowissensindikatoren „Bei PKW-Modellen, die mich interessieren, kenne ich Preise und Ausstattungsmerkmale“, „Was Autos heute können, ist mir bekannt” und „Im großen und ganzen kenne ich die Angebote der Automobilhersteller“ verfahren. Die Anzahl der bekannten Automarken wurde wie folgt kodiert: Bis zu drei Automarken zu „1”, vier und fünf Automarken zu „2“, sechs bis acht Automarken zu „3” und neun und mehr Automarken zu „4“. Die Indikatoren „Fahren Sie selbst häufig Auto” und „Ich bin Mitglied bei einem Automobilclub“ werden derart umkodiert, daß „Ja” den Wert „1“ erhält und „Nein” den Wert „4“. Beim Indikator „Ich lese regelmäßig Automobil-Zeitschriften” wurde für „Nicht regelmäßig“ zusätzlich der Wert „2” vergeben.
Bei der Telekommunikationsgruppe wird entsprechend vorgegangen. Die einzige Ausnahme bildet die Zahl der bekannten Anbieter. Hier wurde wie folgt kodiert: Bis zu zwei Anbieter „1“, drei und vier Anbieter „2”, fünf und sechs Anbieter „3“ und sieben und mehr Anbieter „4”.
Alternativ wäre die Vorschaltung einer Faktorenanalyse möglich gewesen. Da aber in der vorliegenden Arbeit zum einen nur eine geringe Zahl von Indikatoren gewählt wird, die in entsprechenden Studien (vgl. dazu Abschnitt 5.1) als Ergebnis faktoranalytischer Untersuchungen ermittelt werden, und zum anderen die hier verwendeten Indikatoren bewußt so konstruiert werden, daß sie unterschiedliche Dimensionen der jeweiligen Konstrukte messen, wird auf ein derartiges Vorgehen an dieser Stelle verzichtet.
Die Indikatoren zur Messung von Vorwissen und Involvement wurden bei den Probanden jeweils vor Vorlage des jeweiligen Werbemittels abgefragt (vgl. Abschnitt 5.1).
Die Darstellung beschränkt sich auf die Indikatoren, bei denen signifikante Einflüsse festgestellt wurden.
Niedriger involvierte Probanden schätzen das Werbemittel als glaubwürdiger ein (p-value = 0,026).
Probanden mit geringerem Vorwissen und höherem Involvement schätzen das Werbemittel als aggressiver ein als Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,098), aber als weniger aggressiv als Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value = 0,085). Probanden mit geringerem Vorwissen und niedrigerem Involvement schätzen das Werbemittel als aggressiver ein als Probanden mit geringerem Vorwissen und höherem Involvement (p-value = 0,025).
Höher involvierte Probanden schätzen das Werbemittel als verständlicher ein (p-value = 0,074).
Höher involvierte Probanden schätzen das Werbemittel in dieser Beziehung als günstiger ein (p-value = 0,063).
Probanden mit höherem Vorwissen halten das Werbemittel für informativer (p-value = 0,096).
Probanden mit geringerem Vorwissen und niedrigerem Involvement schätzen das Werbemittel als weniger verständlich ein als Probanden mit höherem Vorwissen und niedrigem Involvement (p-value = 0,075).
Probanden mit höherem Vorwissen und höherem Involvement schätzen das Werbemittel in dieser Beziehung als weniger günstig ein als Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value = 0,048).
Höher involvierte Probanden schätzen das Werbemittel als aggressiver ein (p-value = 0,018). 388 Dies trifft in stärkerem Maße für höher involvierte Probanden zu (p-value = 0,048).
Höher involvierte Probanden schätzen das Werbemittel in dieser Beziehung eher als günstig ein (p-value = 0,000)
Probanden mit geringerem Vorwissen und höherem Involvement schätzen das Werbemittel in dieser Beziehung als günstiger ein als Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,054) und Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value 0,004). Probanden mit niedrigerem Vorwissen und niedrigerem Involvement schätzen das Werbemittel in dieser Beziehung weniger günstig ein als Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,015) und Probanden mit niedrigerem Vorwissen und höherem Involvement (p-value = 0,000).
Probanden mit geringerem Vorwissen schätzen o.tel.o als preiswerter ein (p-value = 0,017).
Probanden mit geringerem Vorwissen vermuten den besseren Service bei o.tel.o (p-value = 0,042). 39° Probanden mit geringerem Vorwissen vermuten die überlegene Sprachqualität tendenziell bei o.tel.o (p-value = 0,093).
Probanden mit geringerem Vorwissen und höherem Involvement schätzen o.tel.o als preiswerter ein als Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,009), Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,022) und Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value = 0,004).
Probanden mit höherem Vorwissen messen dem Preis eine tendenziell höhere Bedeutung zu (p-value = 0,009).
Probanden mit geringerem Vorwissen messen dem Service eine tendenziell höhere Bedeutung zu (p-value = 0,022).
Probanden mit geringerem Vorwissen vermuten den besseren Service bei o.tel.o (p-value = 0,012).
Die höher involvierten Probanden messen dem Service eine tendenziell geringere Bedeutung zu (p-value = 0,002).
Probanden mit höherem Vorwissen messen dem Preis eine tendenziell höhere Bedeutung zu (p-value = 0,000).
Probanden mit geringerem Vorwissen messen der Sprachqualität eine höhere Bedeutung zu (p-value = 0,001).
Probanden mit höherem Vorwissen und höherem Involvement messen dem Preis eine höhere Bedeutung zu als Probanden mit geringerem Vorwissen und höherem Involvement (p-value= 0,000) und Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,000).
Probanden mit höherem Vorwissen und höherem Involvement messen dem Service eine geringere Bedeutung bei als Probanden mit geringerem Vorwissen und höherem Involvement (p-value = 0,005), Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,000) und Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value = 0,016).
Probanden mit höherem Vorwissen und höherem Involvement schätzen o.tel.o als preiswerter ein als Probanden mit geringerem Vorwissen und höherem Involvement (p-value = 0,007) und Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value = 0,049). Probanden mit geringerem Vorwissen und niedrigerem Involvement schätzen o.tel.o als preiswerter ein als Probanden mit geringerem Vorwissen und höherem Involvement (p-value = 0,069).
Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,048) und Probanden mit geringerem Vorwissen und höherem Involvement (p-value = 0,086) vermuten die überlegene
Niedriger involvierte Probanden sehen diese Eigenschaft eher von BMW erfüllt (p-value = 0,035).
Probanden mit höherem Vorwissen messen der Qualität eine tendenziell höhere Bedeutung zu (p-value = 0,054)
Probanden mit höherem Vorwissen messen der Sportlichkeit eine tendenziell höhere Bedeutung zu (p-value = 0,029).
Probanden mit höherem Vorwissen sehen diese Eigenschaft eher von Mercedes-Benz erfüllt (p-value = 0,098).
Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,035), Probanden mit geringerem Vorwissen und höherem Involvement (p-value = 0,061) und Probanden mit höherem Vorwissen und niedrigerem Involvement (p-value = 0,010) sehen die Bedeutung des PreisLeistungsverhältnisses als geringer an als Probanden mit geringerem Vorwissen und niedrigerem Involvement.
Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,057) und Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,073) sehen diese Eigenschaft eher von BMW erfüllt als Probanden mit höherem Vorwissen und niedrigerem Involvement.
Probanden mit höherem Vorwissen und niedrigerem Involvement sehen diese Eigenschaft eher von BMW erfüllt als Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,008).
Höher involvierte Probanden messen der Sportlichkeit eine tendenziell höhere Bedeutung zu (p-value = 0,007).
Höher involvierte Probanden messen der Form/Gestaltung eine tendenziell höhere Bedeutung zu (p-value = 0,094).
Probanden mit höherem Vorwissen sehen diese Eigenschaft eher von BMW erfüllt (p-value = 0,042).
Probanden mit höherem Vorwissen und niedrigerem Involvement schätzen die Bedeutung der Qualität tendenziell höher ein als Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,076).
Niedriger involvierte Probanden haben tendenziell von der Deutschen Telekom die bessere Meinung (p-value = 0,054).
Höher involvierte Probanden meinen dies eher von o.tel.o (p-value = 0,019).
Probanden mit geringerem Vorwissen und höherem Involvement schätzen o.tel.o tendenziell als sympathischer ein als Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,052).
Probanden mit höherem Vorwissen halten die Deutsche Telekom für überlegen (p-value = 0,026).
Bei Probanden mit höherem Vorwissen würde eher o.tel.o für das nächste Ferngespräch in Frage kommen (p-value = 0,000).
Probanden mit höherem Vorwissen meinen dies eher von o.tel.o (p-value = 0,005).
Probanden mit höherem Vorwissen meinen dies eher von Mercedes-Benz (p-value = 0,036).
Probanden mit geringerem Vorwissen und höherem Involvement meinen dies eher von BMW als Probanden mit höherem Vorwissen und höherem Involvement (p-value = 0,039) und Probanden mit geringerem Vorwissen und niedrigerem Involvement (p-value = 0,036).
Niedriger involvierte Probanden haben von BMW die bessere Meinung (p-value = 0,028).
Höher involvierte Probanden meinen dies eher von BMW (p-value = 0,074).
Überprüfung des Gesamtmodells
Der Stichprobenumfang beträgt wieder n = 88.
Rights and permissions
Copyright information
© 2001 Deutscher Universitäts-Verlag GmbH, Wiesbaden
About this chapter
Cite this chapter
Rennhak, C.H. (2001). Empirische Überprüfung des Modellansatzes. In: Die Wirkung vergleichender Werbung. Deutscher Universitätsverlag. https://doi.org/10.1007/978-3-322-90861-2_5
Download citation
DOI: https://doi.org/10.1007/978-3-322-90861-2_5
Publisher Name: Deutscher Universitätsverlag
Print ISBN: 978-3-8244-7506-3
Online ISBN: 978-3-322-90861-2
eBook Packages: Springer Book Archive