Methodenbeschreibung
Seitens verschiedener Nutzergruppen amtlicher statistischer Ergebnisse wird zunehmend ein Bedarf an verlässlichen Auswertungen auf möglichst kleinräumiger Ebene formuliert. Insbesondere bei Stichprobenerhebungen liegen auf kleinräumiger Ebene jedoch häufig zu wenige Daten vor, um hieraus Ergebnisse ableiten zu können, die den hohen qualitativen Ansprüchen der amtlichen Statistik genügen. Small Area-Methoden können eine Möglichkeit bieten, um trotz weniger Informationen aus einer vorliegenden Stichprobe Ergebnisse auf kleinräumiger Ebene zu veröffentlichen.
Die grundlegende Funktionsweise der Small Area-Schätzung – genauer gesagt: des Fay-Herriot-Modells, einem speziellen Small Area-Verfahren – wird im Folgenden anhand unseres Anwendungsbeispiels zur Schätzung der durchschnittlichen Bruttokaltmiete pro Quadratmeter Wohnfläche für alle Gemeinden in Nordrhein-Westfalen auf Basis des Mikrozensus möglichst intuitiv, auch für Interessierte ohne spezielles statistisches Hintergrundwissen, erläutert. Anhand der Darstellungen in den aufklappbaren Elementen erhalten methodisch Interessierte zudem Einblicke in die statistisch-formale Methodik der Small Area-Schätzung.
Für welche Situationen kann eine Small Area-Schätzung nützlich sein?
Bei der Planung einer Stichprobenerhebung wird festgelegt, für welche regionalen Ebenen auf Basis der gewonnenen Stichprobeninformationen Ergebnisse hochgerechnet und veröffentlicht werden sollen. Anhand dieser Festlegung wird dann ein Stichprobenumfang berechnet, der für alle für die Veröffentlichung vorgesehenen regionalen Ebenen eine hohe Ergebnisqualität sicherstellt. Die Stichprobe des Mikrozensus ist beispielsweise so konzipiert, dass in jedem Berichtsjahr etwa ein Prozent der Haushalte befragt wird und daraus verlässliche Ergebnisse bis auf Kreisebene hochgerechnet werden können.
Small Area-Methoden können nützlich sein, wenn auf Basis einer Stichprobe Auswertungen auf einer tieferen regionalen Ebene erfolgen sollen als durch die Stichprobenkonzeption ursprünglich vorgesehen ist. Bislang in der deutschen amtlichen Statistik gängige Methoden stoßen hier an ihre Grenzen: Bricht man z. B. den Stichprobenumfang des Mikrozensus von der Kreisebene auf die Gemeindeebene herunter, so liegen für viele Gemeinden zu geringe Stichprobenumfänge vor, um daraus verlässliche Ergebnisse abzuleiten. Daher verzichtet die amtliche Statistik im Allgemeinen auf die Veröffentlichung von Gemeindeergebnissen auf Basis des Mikrozensus. Small Area-Methoden können Abhilfe für das Problem zu geringer Stichprobenumfänge schaffen.
Auf welchem Grundprinzip basiert die Small Area-Schätzung?
Eine Small Area-Schätzung beruht auf dem sog. Borrowing Strength-Prinzip: Neben den vorhandenen (teilweise wenigen) Stichprobeninformationen werden zusätzlich externe Informationen herangezogen, um die Qualität der Schätzergebnisse zu verbessern. Indem das Potenzial dieser zusätzlichen Informationen genutzt (wörtlich: deren „Kraft ausgeborgt“) wird, sollen die Schätzunsicherheit, die aus den zu geringen Stichprobenumfängen resultiert, verringert und die Schätzergebnisse damit stabilisiert werden.
Wie läuft eine Small Area-Schätzung ab?
Im Folgenden werden die einzelnen Schritte der Schätzmethodik des von uns verwendeten Fay-Herriot-Modells erläutert und anhand unserer Anwendung auf die Schätzung durchschnittlicher Bruttomietpreise auf Gemeindeebene auf Basis der Mikrozensus-Stichprobe veranschaulicht. In den aufklappbaren Elementen finden sich detaillierte Informationen zur statistisch-methodischen Vorgehensweise. Unsere Small Area-Schätzung wird in drei aufeinander aufbauenden Schritten durchgeführt.
Schritt 1: Berechnung eines Schätzwerts aus den vorhandenen Stichprobendaten
Zunächst betrachten wir die Stichprobeninformationen, die für jede Gemeinde in der vorhandenen Stichprobe vorliegen. In unserer Anwendung zeigt sich hier für die 396 Gemeinden in Nordrhein-Westfalen ein sehr unterschiedliches Bild (vgl. Abbildung 1): Während große kreisfreie Städte wie Köln oder Düsseldorf sehr viele Stichprobeneinheiten aufweisen, liegen für viele eher kleinere Gemeinden nur sehr wenige Informationen aus der auf Kreisebene gezogenen Stichprobe des Mikrozensus vor. In bestimmten Gemeinden sind sogar überhaupt keine Haushalte in die Stichprobe gezogen worden.
Unabhängig von der Stichprobengröße berechnen wir im ersten Schritt der Small Area-Schätzung einen Schätzwert für die durchschnittliche Bruttokaltmiete pro Quadratmeter für jede Gemeinde auf Basis der vorliegenden Informationen. Diese direkt aus der vorliegenden Stichprobe geschätzten Werte bezeichnen wir im Folgenden als unsere „Stichproben-Schätzwerte“. Für ausgewählte Gemeinden sind diese in Tabelle 1 dargestellt.
Für die amtliche Statistik ist die Messung der sog. Schätzunsicherheit ein entscheidendes Kriterium zur Beurteilung der Qualität der einzelnen Stichproben-Schätzwerte: Mit dem Mittleren Quadratischen Fehler* verwenden wir hierfür eine bekannte statistische Maßzahl. Kleine Werte des Mittleren Quadratischen Fehlers deuten dabei auf eine hohe Qualität und somit auf verlässliche Schätzergebnisse hin.
Aufgrund der stark unterschiedlichen Stichprobenumfänge in den einzelnen Gemeinden weisen die gemeindespezifischen Schätzwerte jedoch wesentliche Qualitätsunterschiede auf (vgl. Tabelle 1, letzte Spalte). Während aufgrund der umfangreichen Stichproben lediglich geringe Stichprobenfehler für die Schätzwerte für die kreisfreien Städte zu beobachten sind, ist die Schätzunsicherheit in den eher kleinen Gemeinden mit nur wenigen befragten Haushalten so beträchtlich, dass eine amtliche Veröffentlichung derartiger Schätzwerte in dieser Form nicht in Frage kommen würde. Trotzdem liefern diese Stichproben-Schätzwerte relevante Informationen für die weitere Schätzung.
Für Gemeinden ohne Stichprobeninformationen lässt sich kein Stichproben-Schätzwert berechnen. Wie sich für diese Gemeinden trotzdem ein valider Schätzwert berechnen lässt, wird im letzten Abschnitt dargelegt.
* Der Mittlere Quadratische Fehler gibt an, wie stark die mit einem bestimmten Verfahren geschätzten Werte um den gesuchten (zu schätzenden) Wert streuen. Er berücksichtigt sowohl die Verzerrung als auch die Varianz des für die Schätzung verwendeten Verfahrens.
Detaillierte methodische Erläuterung zu Schritt 1
IT.NRW
Die so entstehenden Stichproben-Schätzwerte sind unverzerrt für die Schätzung des gemeindespezifischen Mittelwertes, können jedoch hohe Standardfehler bzw. einen hohen Mittleren Quadratischen Fehler aufweisen.
Schritt 2: Einbeziehung der externen Informationen
Die Grundidee der Small Area-Schätzung besteht darin, die Schätzunsicherheit unserer Schätzwerte auf Gemeindeebene zu verringern, indem zusätzliche, externe Informationen für die Schätzung herangezogen werden. Für die Umsetzung dieser Grundidee sind zwei Aspekte zu berücksichtigen: Die Auswahl der externen Merkmale sowie deren methodische Einbeziehung.
Bei der Auswahl von externen Informationen sollten zunächst Vorüberlegungen getroffen werden, welche verfügbaren externen Kennzahlen einen potenziellen Zusammenhang zum zu schätzenden Merkmal aufweisen könnten. Außerdem ist zu beachten, dass alle in Frage kommenden Kennzahlen aggregiert auf der regionalen Ebene vorliegen müssen, für welche die Small Area-Schätzung vorgenommen werden soll.
In unserer Anwendung möchten wir den durchschnittlichen Bruttomietpreis pro Quadratmeter für alle Gemeinden in Nordrhein-Westfalen schätzen. Wir nehmen in unseren Pool von externen Informationen insgesamt 37 Merkmale auf, die möglicherweise einen statistischen Zusammenhang zur Höhe des Mietpreises aufweisen und aggregiert auf Gemeindeebene verfügbar sind: z. B. verschiedene demografische und sozioökonomische Faktoren, Kennzahlen zur Bautätigkeit und zum Arbeitsmarkt sowie vergangene Wahlergebnisse.
Durch die Zusammenstellung des Pools der externen Kennzahlen treffen wir keine inhaltliche Vorfestlegung darüber, welche konkreten Kennzahlen zur Schätzung der Bruttomietpreise herangezogen werden. Die Auswahl der externen Kennzahlen, die wir für die Verbesserung der Schätzung verwenden werden, erfolgt anhand eines statistischen Selektionsverfahrens im Vorfeld der eigentlichen Schätzung. Dabei werden die Kennzahlen ausgewählt, die den stärksten messbaren Zusammenhang mit der Höhe der geschätzten durchschnittlichen Bruttomietpreise der Gemeinden aufweisen. Somit fließt nur ein Teil der im Pool befindlichen externen Kennzahlen final in die Schätzung des durchschnittlichen Bruttomietpreises ein.
Selektierte Merkmale aus dem Pool externer Kennzahlen für unsere Anwendung
Aus dem von uns zusammengestellten Pool externer Informationen, die für die Schätzung der durchschnittlichen Bruttokaltmieten potenziell hilfreich sein können, hat ein statistisches Selektionsverfahren folgende Kennzahlen für die Small Area-Schätzung ausgewählt:
- Siedlungsdichte
- Durchschnittliche Höhe des monatlichen Anspruchs an Wohngeld
- Durchschnittlich genutzte Wohnfläche
- Natürlicher Bevölkerungssaldo
- Anteil der sozialversicherungspflichtigen Beschäftigten im produzierenden Gewerbe
- Anteil an obdachlosen Personen
- Wahlanteil der FDP bei der Bundestagswahl 2017
- Wahlanteil der AfD bei der Bundestagswahl 2017
- Wahlanteil der Piraten bei der Bundestagswahl 2017
Statistische Selektionsverfahren vergleichen verschiedene Konstellationen bei der Zusammenstellung von bestimmten externen Kennzahlen miteinander und entscheiden anhand eines festgelegten Kriteriums, welche Anzahl und Auswahl an externen Kennzahlen auf Basis der vorliegenden Daten eine „bestmögliche“ Schätzung des durchschnittlichen Mietpreises ermöglichen. In unserer Anwendung haben wir als Kriterium für den Vergleich der verschiedenen Merkmalskombinationen Akaikes Informationskriterium (kurz: AIC) verwendet.
Bitte beachten Sie: Die Auswahl der Kennzahlen sollte nicht inhaltlich interpretiert werden. Das Selektionsverfahren verfolgt hierbei einen rein pragmatischen Ansatz, indem diejenigen Kennzahlen ausgewählt werden, die einen besonders hohen Zusammenhang zu den Stichproben-Schätzwerten aufweisen und somit ein möglichst hohes Potenzial zur deren Stabilisierung bieten.
Der tatsächliche Einbezug der externen Informationen in die Schätzung der durchschnittlichen Bruttomietpreise pro Quadratmeter erfolgt über ein statistisches Modell. Dabei wird unterstellt, dass ein fixer Zusammenhang zwischen dem durchschnittlichen Bruttomietpreis und den externen Variablen besteht, der nicht auf einzelne Gemeinden beschränkt, sondern gemeindeübergreifend gültig ist. Mit Hilfe eines sog. Regressionsmodells wird dieser Zusammenhang geschätzt: Die in Schritt 1 berechneten Stichproben-Schätzwerte für die durchschnittlichen Bruttomietpreise je Gemeinde werden dabei stellvertretend für die tatsächliche Höhe des durchschnittlichen Bruttomietpreises herangezogen.
Als Ergebnis des zweiten Schritts unserer Small Area-Schätzung halten wir Folgendes fest: Wir haben neben unseren Stichproben-Schätzwerten aus Schritt 1 nun weitere Informationen gefunden, mit denen sich die Höhe des durchschnittlichen Bruttomietpreises je Quadratmeter in den einzelnen Gemeinden erklären lässt.
Detaillierte methodische Erläuterung zu Schritt 2
Detaillierte methodische Erläuterung zu Schritt 3
IT.NRW
Sind alle drei Schritte durchgeführt, erhalten wir unsere gewünschten Small Area-Schätzungen für die durchschnittliche Bruttokaltmiete pro Quadratmeter für jede Gemeinde in Nordrhein-Westfalen.
Welche Möglichkeiten bestehen zur Evaluation der Schätzergebnisse?
Nachdem wir unsere Small Area-Schätzung durchgeführt haben, müssen wir das Schätzergebnis sorgfältig evaluieren. Damit wollen wir sicherstellen, dass unsere Small Area-Schätzung einerseits erfolgreich war und außerdem keine systematischen Verzerrungen aufweist. Diese Verzerrungen können potenziell dann entstehen, wenn bestimmte Annahmen, deren Gültigkeit für die Anwendung des hier verwendeten Small Area-Modells vorausgesetzt wurden, in der Realität nicht haltbar sind.
Zur Evaluation unserer Schätzergebnisse führen wir folgende Maßnahmen durch:
Zunächst wollen wir überprüfen, ob wir unser Hauptziel des Einsatzes der Small Area-Schätzung – die Stabilisierung unserer Schätzergebnisse durch die Nutzung externer Informationen – überhaupt erreicht haben. Dazu berechnen wir den Mittleren Quadratischen Fehler der Small Area-Schätzwerte und stellen diese den entsprechenden Mittleren Quadratischen Fehlern der Stichproben-Schätzwerte für ausgewählte Gemeinden gegenüber:
Die Ergebnisse in Tabelle 2 verdeutlichen, dass die Anreicherung der Stichprobeninformationen durch die externen Kennzahlen insbesondere in den Gemeinden zu einer deutlichen Verringerung der Schätzunsicherheit führt, die eher geringe Stichprobenumfänge aufweisen (und für die in Schritt 3 der Small Area-Schätzung eine tendenziell geringere Gewichtung der Stichproben-Schätzwerte berechnet wurde).
Für diese Gemeinden hat die Small Area-Schätzung somit zu einer deutlichen Verbesserung der Schätzung im Sinne einer höheren Schätzgenauigkeit geführt. In vielen kreisfreien Städten kann der Mittlere Quadratische Fehler jedoch nur noch geringfügig gesenkt werden: Hier lagen bereits so viele Stichprobeninformationen vor, dass die Informationen aus den externen Kennzahlen nur zu einer unwesentlichen Verbesserung der Schätzung beitragen. In Abbildung 3 werden die Mittleren Quadratischen Fehler der Small Area- und der Stichproben-Schätzwerte für alle Gemeinden grafisch gegenübergestellt. Hieran zeigt sich, dass insbesondere bei einer sehr hohen Schätzunsicherheit des Stichproben-Schätzers die Small Area-Methodik in der Lage ist, diese Schätzunsicherheit deutlich zu reduzieren.
Im zweiten Schritt wollen wir anhand einer einfachen Grafik beurteilen, ob die Small Area-Schätzungen eine systematische Verzerrung aufweisen. Dazu tragen wir die teilweise mit hohen Schätzunsicherheiten behafteten, jedoch unverzerrten Stichproben-Schätzwerte sowie die Ergebnisse der Small Area-Schätzung aller Gemeinden in ein Streudiagramm ein (vgl. Abbildung 4). Falls keine systematische Verzerrung vorliegt, sollten die Datenpunkte der Gemeinden zufällig um die Winkelhalbierende streuen. Andernfalls sollte ein systematisches Muster der Streuung erkennbar sein. In Abbildung 4 ist jedoch allenfalls bei den Gemeinden mit eher niedrigem Mietniveau eine kleine systematische Abweichung nach unten zu erkennen (d. h. der Small Area-Schätzer berechnet bei diesen Gemeinden tendenziell ein etwas niedrigeres Mietniveau als die Stichprobendaten).
Neben den beiden dargestellten Methoden zur Evaluation der Schätzergebnisse können (und sollten) weitere Instrumente der Modelldiagnostik angewendet werden (z. B. ein QQ-Plot zur Überprüfung der Modellannahmen). Im Ergebnis lässt sich festhalten, dass die Small Area-Schätzung in unserer Anwendung grundsätzlich zum gewünschten Resultat einer Stabilisierung der Schätzergebnisse führt. Insbesondere können für die Gemeinden, für welche sich allein mit den vorliegenden Stichprobeninformationen kein verlässliches Schätzergebnis ableiten lässt, mithilfe der Small Area-Methodik trotzdem valide Schätzung des Mietniveaus durchgeführt werden. Hierfür müssen geringfügige Verzerrungen bei der Schätzung in Kauf genommen werden.
Welche Erweiterungen der Small Area-Schätzungen können durchgeführt werden?
- Erweiterung der Small Area-Schätzung um eine räumliche Komponente: Großstädte weisen im Allgemeinen ein höheres Mietniveau als eher ländlich geprägte Gegenden auf. Insbesondere in Ballungsgebieten wird jedoch auch das Mietniveau umliegender Gemeinden durch die direkte Nähe und Stadt-Umland-Beziehungen (z. B. Pendlerverflechtungen oder Stadt-Umland-Wanderungen) zu einer Großstadt beeinflusst. Dieser Effekt lässt sich durch eine Erweiterung der Small Area-Methodik in die Schätzung der durchschnittlichen Bruttokaltmiete einbeziehen. Dazu wird das Small Area-Schätzmodell in Schritt 2 um eine „Nachbarschaftsinformation“ für alle Gemeinden erweitert. Auch in unserer Veröffentlichung haben wir diese Erweiterung genutzt.
- Berechnung von Schätzern für Gemeinden ohne Stichprobeninformationen: In Schritt 1 unserer Small Area-Schätzung wurden Stichproben-Schätzwerte berechnet, die die Basis für die weitere Small Area-Schätzung bilden. Allerdings liegen für eine kleine Anzahl an Gemeinden überhaupt keine Stichprobeninformationen aus der Stichprobe des Mikrozensus vor. Für diese Gemeinden kann somit kein Stichproben-Schätzwert berechnet werden. In einem solchen Fall können jedoch trotzdem Small Area-Schätzwerte berechnet werden, indem vollständig auf die Informationen aus den externen Kennzahlen zurückgegriffen wird. In Schritt 3 der Small Area-Schätzung erhalten diese für die betreffenden Gemeinden somit die Gewichtung 1. In unserer Veröffentlichung haben wir dieses Verfahren für insgesamt sechs Gemeinden genutzt.
Literaturhinweise
- Articus, C.: „Small-Area-Verfahren zur Schätzung regionaler Mietpreise“, Wirtschaft und Statistik. Ausgabe 2/2014, Seite 113 ff.
- Fay, R. E. und Herriot, R. A.: “Estimates of Income for Small Places: An Application of James- Stein Procedures to Census Data”, Journal of the American Statistical Association, Band 74/1979, Ausgabe 366, Seite 269 ff.
- Münnich, R., Burgard, J. P. und Vogt, M.: Small Area-Statistik: Methoden und Anwendungen, AStA Wirtschafts- und Sozialstatistisches Archiv. Jahrgang 6, Seite 149 ff.