Sunday, 2 July 2017

Recode Kontinuierliche Variable In Stata Forex


HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Stata FAQ Wie kann ich kontinuierliche Variablen in Gruppen umkodieren Es kann vorkommen, dass Sie eine kontinuierliche Variable in Gruppen umwandeln möchten. Beispielsweise möchten Sie vielleicht eine kontinuierliche Lese-Score, die von 0 bis 100 in 3 Gruppen (z. B. niedrig, mittel und hoch) zu konvertieren. Sie können egen mit der Funktion cut () verwenden, um dies schnell und einfach durchzuführen, wie unten dargestellt. Wir veranschaulichen dies mit der Datei hsb2 mit einer Variablen namens write, die von 31 bis 67 reicht. Wir können egen mit der cut () - Funktion verwenden, um eine Variable namens writecat zu erstellen, die die Variable write in die folgenden 4 Kategorien gruppiert. 30 bis 40 40 bis 50 16 Bis zu (aber nicht eingeschlossen) 60 60 bis (aber nicht eingeschlossen) 70 Der folgende Tabellenbefehl wird verwendet, um zu überprüfen, ob die Daten als gruppiert sind wir erwarteten. Wir können sehen, dass, wenn writecat in der niedrigsten Kategorie (30) ist, die Bereiche von 31 bis 39 schreiben, und so weiter, wie wir erwarten, z. B. Die Werte, wenn writecat in Kategorie 30 ist, entsprechen dem Schreiben mit Werten von 30 bis (aber nicht enthalten) 40. Hier verwenden wir den gleichen Befehl, aber unsere letzte Kategorie ist von 50 bis 60. Wie Sie sehen, erzeugt es einen fehlenden Wert, weil Gibt es eine Anzahl von Werten, die 60 oder höher und damit außerhalb des Bereichs, den wir angegeben haben. Dies zeigt, dass, wenn es Werte außerhalb des Bereichs, den Sie bereitstellen, diese einen fehlenden Wert zugewiesen werden. Wenn wir die Option icodes verwenden, erzeugt cut () ganzzahlige Codes 0, 1, 2 und so weiter. Im folgenden Beispiel sehen Sie, dass es die Codes 0, 1, 2 und 3 erstellt hat. Wenn Sie die Beschriftungsoption (die automatisch impliziert, dass icode) verwendet, erzeugt sie ganzzahlige Werte wie oben. Wie Sie unten sehen, ist die Variable writecat4 mit 30-40- 50- und 60- gekennzeichnet. Wir verwenden die Option nolabel, um die Anzeige der Wertbeschriftungen zu unterdrücken und Sie können sehen, dass die Variable wirklich 0, 1, 2 und 3 codiert ist. Wenn Sie es vorziehen, können Sie cut () fragen, um die Cutoffs zu wählen, um Gruppen mit ungefähr zu bilden Die gleiche Anzahl pro Gruppe. Im Folgenden fordern wir die Erstellung von 4 (grob) gleichgroßen Gruppen an. Weitere Informationen finden Sie im Hilfe - oder Referenzhandbuch zu egen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt von der Universität von Kalifornien ausgelegt werden. Task 1c: Identifizieren und Rekodieren von fehlenden Daten in NHANES Verwenden von Stata Die erste Aufgabe ist, zu identifizieren Fehlenden Daten und recode es. Hier sind die Schritte: Identifizieren von fehlenden und nicht verfügbaren Werten Recode nicht verfügbare Werte fehlen Auswertung fehlender Daten feststellen Schritt 1: Fehlende und nicht verfügbare Werte identifizieren In diesem Schritt verwenden Sie die tabstat - und nmissing-Befehle, um fehlende, minimale und maximale Werte zu überprüfen Kontinuierliche Variablen. Und den Befehl tabulate, um die Häufigkeitsverteilung von kategorischen Variablen in Ihrem master analytischen Dataset zu betrachten. Die Ausgabe dieser Befehle liefert die Anzahl und Häufigkeit der fehlenden Werte für jede Variable, die in der Prozeduranweisung aufgelistet ist. Typischerweise werden die Befehle, tabstat oder summarize für kontinuierliche Variablen verwendet und tabulate wird für kategorische Variablen verwendet. Im folgenden Beispiel werden Tabstat - und Tabulatorkommandos auf demselben Satz von Variablen bereitgestellt, ohne kontinuierliche und kategorische Variablen zu unterscheiden. Wenn Sie den Befehl tabulate auf einer kontinuierlichen Variablen mit vielen Werten verwenden, könnte die Ausgabe umfangreich sein. Mit den tabstat - und nmissing-Befehlen werden die Mindestwerte (min) und Maximalwerte (max) sowie die Anzahl der fehlenden Beobachtungen für die ausgewählten Variablen für Teilnehmer ermittelt, die im MEC interviewt und untersucht wurden und die mindestens 20 Jahre alt waren . Tabstat bpq mcq if (ridageyr gt20 amp ridageyr lt.) Amp ridstatr2, stat (n min max) nmissing bpq mcq wenn (ridageyr gt20 amp ridageyr lt.) Amp ridstatr2 Verwenden Sie den Befehl tabulate, um die Häufigkeit jedes Wertes der Variablen zu bestimmen Die im MEC interviewt und geprüft wurden und die mindestens 20 Jahre alt waren. Verwenden Sie die fehlende Option, um die fehlenden Werte anzuzeigen. Fehlen Hervorgehobene Elemente aus den Befehlen tabstat, nmissing und tabulate output: Die Zeile mit der Bezeichnung quotN zeigt die Anzahl der Beobachtungen mit Daten an. Dieses Beispiel hat 9.376 Beobachtungen für die Variable, BPQ.020, markiert quotEver erzählt hatte hohen Blutdruck. Das Fehlen gibt die Anzahl der Beobachtungen ohne Daten an. Dieses Beispiel hat 95 fehlende Beobachtungen für die Variable BPQ.020. Jeder Antwortwert einer Variablen hat eine entsprechende Frequenz (überprüfen Sie das Codebuch, um die Definition für jeden Wert zu bestimmen). In diesem Beispiel weist die Variable BPQ.010, die durch einen Arzt als "Blutdruckanzeige" bezeichnet wird, sieben mögliche Antwortwerte mit der Bezeichnung " (Fehlt), quot1, quot2, quot3, quot4, quot5 und quot9. Die mit "FREQ" bezeichnete Spalte gibt die Häufigkeit an, mit der ein bestimmter Antwortwert im Datensatz auftritt. In diesem Beispiel haben zwei Beobachtungen einen Quotienten. (Fehlender) Wert und 6 759 Beobachtungen einen Wert von 1 haben. Die Spalte mit der Bezeichnung "Percent" gibt den Prozentsatz an, für den jeder Wert der variablen Konten aus der Summe besteht. Das Zitat. (Fehlende) und die Ansprechwerte von 1 für BPQ.010 betragen 0,02 bzw. 71,37. Hinweis für die Variable BPQ.070, markiert als quotWhen Blut Cholesterol zuletzt überprüft, hat eine Beobachtung einen Wert von quot7 und 52 Beobachtungen haben einen Wert von quot9. Diese repräsentieren die Häufigkeit der reversierten und quotdont bekannten Antworten, die für diese Frage erhalten wurden. Diese Beobachtungen müssen als fehlende umcodiert werden, die im nächsten Schritt behandelt werden. Schritt 2: Nicht verfügbare Werte als fehlerhaft kodieren Zwei Optionen können verwendet werden, um die fehlenden Daten neu zuzuordnen: Zuweisen von fehlenden Werten zu einer Zeit, die mit einem Qualifier verwendet wird, oder mit fehlenden Werten nach Gruppe mithilfe des Befehls foreach loop. Option 1 Zuweisen von fehlenden Werten Eine Variable zu einer Zeit Verwenden Sie das if-Qualifikationsmerkmal, um quotquot und quot9quot-Werte einer Variablen als fehlerhaft zu recodieren. Ersetzen Sie bpq010. If bpq0107 bpq0109 Option 2 - Fehlende Werte nach Gruppe zuordnen Verwenden Sie den foreach-Schleifenbefehl, um quotquot und quot9quot-Werte einer Variablen als fehlerhaft zu recodieren. Verwenden Sie diese Option, wenn Sie mehrere Variablen rekodieren möchten, die denselben numerischen Wert für quotrefusedquot und quotdont knowquot verwenden. Verwenden Sie den Befehl save, um einen neuen Datensatz mit den umcodierten Werten zu erstellen. foreach i in bpq020 bpq050a bpq100d bpq070 bpq080 mcq160b mcq160c mcq160d mcq160e mcq160f i ersetzen. wenn ich GT7 speichern C: NhanesDatademobp1, ersetzen Schritt 3: Auswerten Ausmaß der fehlenden Daten In diesem Schritt werden Sie den tabulate-Befehl verwenden, um sicherzustellen, dass die Umkodierung im vorherigen Schritt getan wurde richtig gemacht. Grundsätzlich ist es in der Regel akzeptabel, dass Ihre Analyse ohne weitere Auswertung oder Anpassung fortgesetzt wird, wenn 10 oder weniger Ihrer Daten für eine Variable aus Ihrem analytischen Datensatz fehlen. Wenn jedoch mehr als 10 der Daten für eine Variable fehlen, müssen Sie möglicherweise, ob die fehlenden Werte zu bestimmen, sind gleichmäßig verteilt über soziodemografischen Merkmalen, und entscheiden, ob weitere Zurechnung der erforderlichen Werte oder Verwendung angepasst Gewichte fehlen. (Siehe Analytic Richtlinien für weitere Informationen.) Überprüfen Sie das Ausmaß der fehlenden Daten den tabulate Befehl wird die Frequenz eines jeden Wert der Variablen für die Teilnehmer aufgelistet, um zu bestimmen, die befragt wurden und in der MEC geprüft und wer waren Alter 20 Jahre und älter. Verwenden Sie die fehlende Option, um die fehlenden Werte anzuzeigen. Verwenden Sie den Befehl foreach loop, um die Häufigkeit mehrerer Variablen zu erhalten. tabellarisieren bpq010 if (ridageyr GT20 amp ridageyr lt.) amp ridstatr2, fehlt foreach i in bpq020 bpq070 bpq080 mcq160b mcq160c mcq160d mcq160e mcq160f tabulate i if (ridageyr GT20 amp ridageyr lt.) amp ridstatr2, fehlt farblich hervorgehobenen Artikel aus der tabulate Ausgang für Umkodierung fehlt Werte: In diesem Beispiel hat die Variable BPQ.010, die von einem Arzt als "Blutdruckmessung durch einen Arzt markiert wurde, nun nur noch fünf Antwortwerte anstelle der ursprünglichen sechs beobachteten Werte vor der Umkodierung des Wertes 9 nicht mehr vorhanden. Beachten Sie auch, dass es jetzt insgesamt 18 fehlende Werte gibt (statt zwei ursprünglich). Die Überprüfung dieser Ausgabe zeigt an, dass die quot9-Werte erfolgreich neu codiert wurden und nun als fehlend (.) Klassifiziert werden. Beachten Sie, dass die Variable BPQ.030 (quotTold hatte hohen Blutdruck - 2 mal quot) noch einen quot9 Wert vorhanden, was darauf hinweist, quotdont Antworten zu kennen. Dieser Wert wurde nicht umcodiert, da diese Variable Teil eines Sprungmusters ist. Es ist wichtig, quotrefused oder quotdont für Variablen in einem Sprungmuster kennen Werte nicht abtreten als vermisst, wie BPQ.030, weil fehlende Werte für übersprungene Variablen eine ganz andere Bedeutung haben als die Werte für Variablen fehlen, die nicht Teil eines Sprungmuster sind . Sie werden überprüfen, wie Sie Sprungmuster in der nächsten Aufgabe identifizieren und behandeln. Beachten Sie, dass 34,71 der Beobachtungen für die Variable BPQ.070, die als "Cholesterol zuletzt markiert" markiert sind, fehlende Werte aufweisen. Animation von Programm und Ausgabe ansehen

No comments:

Post a Comment