Το τεστ καλής προσαρμογής του Pearson εν συντομία. Τεστ καλής προσαρμογής του Pearson. Χρησιμοποιώντας το τεστ χ-τετράγωνο για τον έλεγχο σύνθετων υποθέσεων

Κατά τον έλεγχο στατιστικών υποθέσεων σχετικά με την αντιστοιχία μεμονωμένων παραμέτρων του νόμου κατανομής των τυχαίων μεταβλητών, θεωρήθηκε ότι οι νόμοι κατανομής αυτών των μεταβλητών ήταν γνωστοί. Ωστόσο, κατά την επίλυση πρακτικών προβλημάτων (ειδικά οικονομικών), το μοντέλο του νόμου κατανομής είναι γενικά άγνωστο εκ των προτέρων, επομένως καθίσταται απαραίτητο να επιλεγεί ένα μοντέλο του νόμου κατανομής που να είναι συνεπές με τα αποτελέσματα των δειγματοληπτικών παρατηρήσεων.

Αφήνω x 1, x 2,...,x n– δείγμα παρατηρήσεων τυχαίας μεταβλητής Χμε άγνωστη συνάρτηση συνεχούς κατανομής F(x). Υπόθεση υπό δοκιμή H 0, το οποίο αναφέρει ότι Χκατανέμεται σύμφωνα με νόμο που έχει λειτουργία διανομής F(x), ίσο με τη συνάρτηση F0(x), δηλ. ελέγχεται η μηδενική υπόθεση.

Τα κριτήρια με τα οποία ελέγχεται η μηδενική υπόθεση μιας άγνωστης κατανομής ονομάζονται κριτήρια συναίνεσης. Ας εξετάσουμε το τεστ καλής προσαρμογής Pearson.

Σχέδιο ελέγχου μηδενικής υπόθεσης :

1. Κατά δείγμα x 1 , x 2 ,..., x nΔημιουργήστε μια σειρά παραλλαγών. μπορεί να είναι είτε διακριτή είτε ενδιάμεση. Για λόγους βεβαιότητας, ας εξετάσουμε τη διακριτή σειρά παραλλαγών

x i x 1 x 2 ... x k-1 x k
m i m 1 m 2 ... m k-1 m k

2. Με βάση προηγούμενες έρευνες ή προκαταρκτικά δεδομένα, γίνεται μια υπόθεση (αποδεκτή υπόθεση) για το μοντέλο του νόμου κατανομής μιας τυχαίας μεταβλητής Χ.

3. Χρησιμοποιώντας δειγματοληπτικά δεδομένα, αξιολογούνται οι παράμετροι του επιλεγμένου μοντέλου νόμου κατανομής. Ας υποθέσουμε ότι ο νόμος διανομής έχει rπαραμέτρους (για παράδειγμα, ο διωνυμικός νόμος έχει μία παράμετρο Π; κανονικό – δύο παράμετροι ( a 0 , σ x) και τα λοιπά.).

4. Αντικαθιστώντας δειγματοληπτικές εκτιμήσεις των τιμών των παραμέτρων κατανομής, βρίσκουμε τις θεωρητικές τιμές των πιθανοτήτων

, i=1, 2,..., k.

5. Υπολογίστε τις θεωρητικές συχνότητες, όπου .

6. Υπολογίστε την τιμή της δοκιμασίας καλής προσαρμογής Pearson

.

Αυτή η ποσότητα τείνει να κατανέμεται με βαθμούς ελευθερίας. Επομένως, για υπολογισμούς χρησιμοποιούνται πίνακες κατανομής.

7. Ορίζοντας το επίπεδο σημαντικότητας α, βρείτε την κρίσιμη περιοχή (είναι πάντα δεξιά). η τιμή καθορίζεται από την αναλογία . Εάν η αριθμητική τιμή εμπίπτει στο διάστημα , τότε η υπόθεση απορρίπτεται και γίνεται αποδεκτή η εναλλακτική υπόθεση ότι το επιλεγμένο μοντέλο του νόμου κατανομής δεν επιβεβαιώνεται από τα δεδομένα του δείγματος και επιτρέπεται ένα σφάλμα, η πιθανότητα του οποίου είναι ίση με α .

Εργασία 6.Το εξεταστικό χαρτί στα μαθηματικά περιέχει 10 εργασίες. Αφήνω Χτυχαία τιμήαριθμός προβλημάτων που επιλύθηκαν από τους υποψήφιους στις εισαγωγικές εξετάσεις. Τα αποτελέσματα της εξέτασης των μαθηματικών για 300 υποψηφίους έχουν ως εξής:



Εγώ
x i
m i

Χ.

Λύση.Να συντάξουμε μια υπόθεση για το μοντέλο του νόμου κατανομής μιας τυχαίας μεταβλητής ΧΑς κάνουμε τις ακόλουθες υποθέσεις:

· η πιθανότητα επίλυσης ενός προβλήματος δεν εξαρτάται από το αποτέλεσμα της επίλυσης άλλων προβλημάτων.

· η πιθανότητα επίλυσης οποιουδήποτε μεμονωμένου προβλήματος είναι ίδια και ίση Π, και η πιθανότητα να μην λυθεί το πρόβλημα είναι ίση q=1-p.

Κάτω από αυτές τις παραδοχές μπορεί να υποτεθεί ότι Χυπόκειται στον νόμο της διωνυμικής κατανομής (μηδενική υπόθεση), δηλ. την πιθανότητα να αποφασίσει ο αιτών Χοι εργασίες μπορούν να υπολογιστούν χρησιμοποιώντας τον τύπο

Ας βρούμε την εκτίμηση παραμέτρων Ππεριλαμβάνονται στο μοντέλο (1).

Εδώ Πείναι η πιθανότητα ο αιτών να λύσει το πρόβλημα. Εκτίμηση πιθανοτήτων Πείναι η σχετική συχνότητα Π*, το οποίο υπολογίζεται με τον τύπο

,

πού είναι ο μέσος αριθμός προβλημάτων που επιλύονται από έναν αιτούντα;

v– τον ​​αριθμό των προβλημάτων που επιλύονται από κάθε αιτούντα.

Στη συνέχεια η εκτίμηση για Πτο παίρνουμε στη μορφή

Ας αντικαταστήσουμε τις τιμές p * =0,6Και q * =1-0,6=0,4σε έκφραση (1) και για διαφορετικά x iλαμβάνουμε θεωρητικές πιθανότητες και συχνότητες (Πίνακας 1).

Τραπέζι 1

Αριθμός ομάδας Εγώ x i
0,0001 0,03
0,0016 0,48
0,0106 3,18
0,0425 12,75
0,1115 33,45
0,2007 60,21
0,2508 75,24
0,2150 64,50
0,1209 36,27
0,0403 12,09
0,0060 1,80

Ο πίνακας δείχνει ότι για τις ομάδες 1, 2, 3 και 11 η θεωρητική συχνότητα είναι . Τέτοιες ομάδες συνήθως συγχωνεύονται με γειτονικές. Οι τιμές για τις ομάδες 1, 2 και 3 μπορούν να συνδυαστούν με . Αυτό φαίνεται φυσικό, γιατί στα 0, 1, 2 και 3 λυμένα προβλήματα στην εξέταση συνήθως δίνεται μη ικανοποιητικός βαθμός. Ας συνδυάσουμε επίσης την ομάδα 11 με την ομάδα 10 και ας δημιουργήσουμε έναν πίνακα. 2.



πίνακας 2

Αριθμός ομάδας Εγώ
x i 0-3 9-10
m i

Σύμφωνα με τον πίνακα. 2 υπολογίζουμε την τιμή του κριτηρίου συμφωνίας:

Ας ορίσουμε το επίπεδο σημαντικότητας α=0,05 και μετά για τους βαθμούς ελευθερίας.

Μέγεθος , επομένως, η μηδενική υπόθεση πρέπει να απορριφθεί.

Εργασία 7.Τα αποτελέσματα της ζύγισης 50 τυχαία επιλεγμένων πακέτων τσαγιού φαίνονται παρακάτω (σε γραμμάρια):

150, 147, 152, 148, 149, 153,. 151, 150,149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152, 150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149, 148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.

Αξιολογήστε τον νόμο κατανομής μιας τυχαίας μεταβλητής Χ– μάζα πακέτου τσαγιού – για επίπεδο σημαντικότητας α=0,05.

Λύση.Η μάζα ενός πακέτου τσαγιού είναι μια συνεχής τυχαία μεταβλητή, αλλά λόγω του γεγονότος ότι η ζύγιση πραγματοποιήθηκε με διακριτικότητα 1 g και το εύρος είναι 147÷153 g, συνεχής ποσότηταμπορεί να αναπαρασταθεί από μια διακριτή σειρά παραλλαγών:

Τραπέζι 1.

Ως μοντέλο του νόμου κατανομής, επιλέγουμε τον κανονικό νόμο, τον αριθμό των παραμέτρων του οποίου r=2: ένα 0– μαθηματική προσδοκία, σ Χ- τυπική απόκλιση.

Χρησιμοποιώντας δείγματα δεδομένων, λαμβάνουμε εκτιμήσεις των παραμέτρων του νόμου της κανονικής κατανομής:

;

, s=1,68.

Για να υπολογίσουμε τις θεωρητικές συχνότητες, θα χρησιμοποιήσουμε τις πινακοποιημένες τιμές της συνάρτησης Laplace Ф( z). Ο αλγόριθμος υπολογισμού έχει ως εξής:

Βρίσκουμε από τις κανονικοποιημένες τιμές της τυχαίας μεταβλητής Ζτιμές Φ( z), και μετά Φ Ν(Χ):

, .

Για παράδειγμα,

x 1=147; z 1=(147–150,14)/1,68= –1,87; F(–1,87)= –0,46926; Φ Ν(147)=0,03074;

Βρίσκουμε ;

Βρίσκουμε , και αν μερικά , τότε συνδυάζονται οι αντίστοιχες ομάδες.

Τα αποτελέσματα των υπολογισμών και δίνονται στον πίνακα. 2.

Χρησιμοποιώντας τον πίνακα, βρίσκουμε σύμφωνα με το σχήμα: για το επίπεδο σημασίας και τον αριθμό των βαθμών ελευθερίας. Επομένως η κρίσιμη περιοχή.

Η ποσότητα δεν περιλαμβάνεται στην κρίσιμη περιοχή, άρα η υπόθεση ότι η τυχαία μεταβλητή Χ– η μάζα ενός πακέτου τσαγιού υπόκειται στον κανονικό νόμο διανομής και είναι συνεπής με τα δεδομένα του δείγματος.

πίνακας 2

Εγώ x i + x i +1 m i ΦΑ( z i) Φ Ν(x i) Φ Ν(x i+1) =Φ Ν(x i+1)– –Φ Ν(x i)
–∞÷147 –0,50000 0,00000 0,03074 0,03074 1,537 -
147÷148 –0,46926 0,03074 0,10204 0,07130 3,563 0,237
148÷149 –0,39796 0,10204 0,24825 0,14621 7,31 0,730
149÷150 –0,25175 0,24825 0,46812 0,21987 10,99 0,813
150÷151 –0,03188 0,46812 0,69497 0,22685 11,34 0,010
151÷152 0,19497 0,69497 0,86650 0,17153 8,58 0,683
152÷153 0,36650 0,86650 0,95543 0,08893 4,45 2,794
153÷∞ 0,45543 0,95543 1,00000 0,04457 2,23 -
Σ=50 Σ=1.00000 Σ=5,267

Σκοπός του μαθήματος:Να εμφυσήσει στους μαθητές τις δεξιότητες ελέγχου στατιστικών υποθέσεων. Δώστε ιδιαίτερη προσοχή στην κατάκτηση εννοιών που σχετίζονται με τον έλεγχο υποθέσεων (στατιστικό τεστ, λάθη 1 Και 2 ευγενικό, κλπ.). Αφού λύσετε κάθε πρόβλημα, συζητήστε άλλα πιθανά συμπεράσματα με διαφορετικά και διαφορετικά επίπεδα σημασίας.

Για ένα μάθημα σχετικά με αυτό το θέμα, θα πρέπει να προετοιμαστούν απαντήσεις στις ακόλουθες ερωτήσεις:

1. Πώς αλλάζουν οι πιθανότητες σφάλματος του πρώτου και του δεύτερου τύπου καθώς αυξάνεται το μέγεθος του δείγματος;

2. Οι πιθανότητες διάπραξης σφαλμάτων του πρώτου και του δεύτερου τύπου εξαρτώνται από το είδος της εναλλακτικής υπόθεσης και από το κριτήριο που χρησιμοποιείται;

3. Ποια είναι η μονόπλευρη επίδραση των στατιστικών δοκιμών σημαντικότητας;

4. Είναι δυνατόν, χρησιμοποιώντας ένα στατιστικό τεστ σημαντικότητας, να συμπεράνουμε: «Η μηδενική υπόθεση που ελέγχεται είναι αληθής»;

5. Ποια είναι η διαφορά μεταξύ της κατασκευής μιας κρίσιμης περιοχής δύο όψεων και της κατασκευής ενός διαστήματος εμπιστοσύνης για την ίδια παράμετρο;

Εργασία 1.Ερευνήθηκαν 200 των τελικών εξαρτημάτων για απόκλιση του πραγματικού μεγέθους από το υπολογισμένο. Τα ομαδοποιημένα δεδομένα από τις μελέτες φαίνονται στον Πίνακα 5.

Πίνακας 5

Κατασκευάστε ένα ιστόγραμμα με βάση αυτή τη στατιστική σειρά. Με βάση την εμφάνιση του ιστογράμματος, υποβάλετε μια υπόθεση σχετικά με τον τύπο του νόμου κατανομής (για παράδειγμα, προτείνετε ότι η υπό μελέτη τιμή έχει έναν κανονικό νόμο κατανομής). Επιλέξτε τις παραμέτρους του νόμου κατανομής (ίσες με τις εκτιμήσεις τους βάσει πειραματικών δεδομένων). Στο ίδιο γράφημα, σχεδιάστε τη συνάρτηση πυκνότητας πιθανότητας που αντιστοιχεί στην υπόθεση που διατυπώθηκε. Χρησιμοποιώντας το τεστ καλής προσαρμογής, ελέγξτε αν η υπόθεση συμφωνεί με τα πειραματικά δεδομένα. Πάρτε το επίπεδο σημαντικότητας, για παράδειγμα, ίσο με 0,05 .

Λύση.Για να πάρουμε μια ιδέα για τη μορφή του νόμου κατανομής της τιμής που μελετάται, κατασκευάζουμε ένα ιστόγραμμα. Για να γίνει αυτό, θα κατασκευάσουμε ένα ορθογώνιο σε κάθε διάστημα, το εμβαδόν του οποίου είναι αριθμητικά ίσο με τη συχνότητα πτώσης στο διάστημα


(Εικ. 8.)

Με βάση την εμφάνιση του ιστογράμματος, μπορεί να υποτεθεί ότι η υπό μελέτη τιμή έχει έναν κανονικό νόμο κατανομής. Θα εκτιμήσουμε τις παραμέτρους του νόμου της κανονικής κατανομής (μαθηματική προσδοκία και διασπορά) με βάση πειραματικά δεδομένα, θεωρώντας τη μέση του ως αντιπροσωπευτικό κάθε διαστήματος:

.

Έτσι, υποβάλλουμε την υπόθεση ότι η υπό μελέτη τιμή έχει έναν κανονικό νόμο κατανομής Ν(5;111.6), δηλ. έχει συνάρτηση πυκνότητας πιθανότητας

.

Είναι πιο βολικό να το σχεδιάσετε χρησιμοποιώντας πίνακες συναρτήσεων

.

Για παράδειγμα, το μέγιστο σημείο και τα σημεία καμπής έχουν τεταγμένες, αντίστοιχα

Ας υπολογίσουμε το μέτρο της ασυμφωνίας μεταξύ της υποθετικής υπόθεσης και των πειραματικών δεδομένων, δηλ. . Για να γίνει αυτό, υπολογίζουμε πρώτα τις πιθανότητες που αποδίδονται σε κάθε διάστημα σύμφωνα με την υπόθεση

Επίσης,

Είναι βολικό να πραγματοποιήσετε τον υπολογισμό γράφοντάς τον ως εξής:

0,069 0,242 0,362 0,242 0,069 13,8 48,4 72,4 48,4 23,8 5,2 -6,4 -1,4 7,5 -1,8 -27,04 40,96 1,96 57,76 3,24 1,96 0,85 0,02 1,19 0,23

Άρα, η τιμή έχει υπολογιστεί. Ας κατασκευάσουμε μια κρίσιμη περιοχή για το επίπεδο σημασίας. Ο αριθμός των βαθμών ελευθερίας για είναι 2 (ο αριθμός των διαστημάτων και οι τρεις συνδέσεις επιβάλλονται σε: , και . Ως αποτέλεσμα). Για ένα δεδομένο επίπεδο σημασίας και αριθμό βαθμών ελευθερίας, βρίσκουμε από τον πίνακα κατανομής μια τέτοια τιμή ώστε .

Στην περίπτωσή μας, και η κρίσιμη περιοχή θα είναι το διάστημα [ 5,99; ¥). Η τιμή δεν περιλαμβάνεται στην κρίσιμη περιοχή. Συμπέρασμα: η υπόθεση δεν έρχεται σε αντίθεση με τα πειραματικά δεδομένα (κάτι που δεν σημαίνει, φυσικά, ότι η υπόθεση είναι αληθινή).

Εργασία 2.Τα ομαδοποιημένα δεδομένα για το χρόνο λειτουργίας 400 συσκευών παρουσιάζονται με τη μορφή στατιστικής σειράς:

Είναι αυτά τα δεδομένα συνεπή με την υπόθεση ότι ο χρόνος λειτουργίας της συσκευής χωρίς αστοχίες έχει συνάρτηση αθροιστικής διανομής ? Πάρτε το επίπεδο σημαντικότητας, για παράδειγμα, ίσο με 0,02 .

Λύση.Ας υπολογίσουμε τις πιθανότητες που αποδίδονται στα διαστήματα σύμφωνα με την υπόθεση:

p = P(0 ;

p = P (500

p = P(1000

p = P (1500

Υπολογίζουμε γ.

n i πι np i n i - n p i (n i - np i) 2 (n i -np i) / np i
0,6324 0,2325 0,0852 0,0317 252,96 34,08 12,68 4,04 -15 14,92 3,32 16,32 222,6 11,02 0,06 2,42 6,53 0,87

Ο αριθμός των βαθμών ελευθερίας είναι τρεις, αφού μόνο ένας περιορισμός επιβάλλεται στις 4 ποσότητες n Sn = n (r =4 -1=3).Για τρεις βαθμούς ελευθερίας και επίπεδο σημασίας b=0,02βρίσκουμε από τον πίνακα κατανομής c την κρίσιμη τιμή c = 9,84. Η τιμή c =9,88 βρίσκεται εντός της κρίσιμης περιοχής. Συμπέρασμα: η υπόθεση έρχεται σε αντίθεση με τα πειραματικά δεδομένα. Απορρίπτουμε την υπόθεση και η πιθανότητα να κάνουμε λάθος είναι 0,02.

Πρόβλημα 3. Το νόμισμα πετάχτηκε 50 μια φορά. 32 το εθνόσημο έπεσε έξω μια φορά. Χρησιμοποιώντας το κριτήριο συμφωνίας " χι-τετράγωνο” για να ελέγξετε εάν αυτά τα δεδομένα συνάδουν με την υπόθεση ότι το νόμισμα ήταν συμμετρικό.

Λύση.Υποθέτουμε ότι το νόμισμα ήταν συμμετρικό, δηλαδή η πιθανότητα να πέσει το εθνόσημο είναι ίση με 1/2 . Από την εμπειρία μας το εθνόσημο έπεσε έξω 32 φορές και 18 μόλις απορριφθεί ένα ψηφίο, Υπολογίστε την τιμή του c V .

n i πι np i n i - n p i (n i - np i) (n i - np i) / np i
1/2 1/2 1,96 1,96

Ο αριθμός των βαθμών ελευθερίας για το c είναι ίσος με r = 2–1=1; αφού υπάρχουν δύο όροι, και ένας περιορισμός επιβάλλεται στο n ν + ν =50.

Για τον αριθμό των βαθμών ελευθερίας r = 1και επίπεδο σημαντικότητας, για παράδειγμα, ίσο β=0,05βρίσκουμε από τον πίνακα κατανομής c ότι Π(ντο 3,84)=0,05 , δηλ. περιοχή κρίσιμων τιμών γ σε επίπεδο σημαντικότητας β=0,05θα υπάρξει ένα διάστημα [ 3.84; ). Υπολογιζόμενη τιμή γ =3,92 εμπίπτει στην κρίσιμη περιοχή, η υπόθεση απορρίπτεται. Η πιθανότητα να κάνουμε λάθος είναι ίση με 0,05 .

Εργασία 4.Ο κατασκευαστής ισχυρίζεται ότι σε αυτή τη μεγάλη παρτίδα προϊόντων μόνο 10% προϊόντα χαμηλής ποιότητας Επιλέχθηκαν τυχαία πέντε προϊόντα και μεταξύ αυτών υπήρχαν τρία προϊόντα χαμηλής ποιότητας. Χρησιμοποιώντας το λήμμα Neyman-Pearson, κατασκευάστε ένα κριτήριο και ελέγξτε την υπόθεση ότι το ποσοστό των προϊόντων χαμηλής ποιότητας είναι πραγματικά ίσο με 10 (p = 0,1)έναντι της εναλλακτικής λύσης ότι το ποσοστό των προϊόντων μη χαμηλής ποιότητας είναι μεγαλύτερο 10 (p=p >p ).Πιθανότητα επιλογής σφάλματος τύπου Ι »0,01, δηλ. περιλαμβάνει τόσα πολλά σημεία στην κρίσιμη περιοχή που η πιθανότητα απόρριψης της υπόθεσης που ελέγχεται, αν είναι αληθής, είναι 0,01 . Αυτή η πιθανότητα αποδίδεται κατά προσέγγιση για να μην καταφύγουν σε τυχαιοποίηση, για την οποία οι μαθητές δεν έχουν ιδέα. Αν p =0,6, τότε ποια είναι η πιθανότητα σφάλματος τύπου II;

Λύση.Σύμφωνα με την υπόθεση p 0 =0,1με εναλλακτική σημασία p>p.Σύμφωνα με το λήμμα Neyman-Pearson, η κρίσιμη περιοχή πρέπει να περιλαμβάνει αυτές τις τιμές κ, για το οποίο

= >Γ,

Οπου ΜΕ- κάποια σταθερά,

,

κ+ (5 -k) ,

.

Επειδή , η έκφραση στην αγκύλη είναι μη αρνητική. Να γιατί

Αυτό σημαίνει ότι η κρίσιμη περιοχή πρέπει να περιλαμβάνει αυτές τις τιμές {0,2,1,3,4,5} , τα οποία είναι μεγαλύτερα από ορισμένα, ανάλογα με το επίπεδο σημαντικότητας (με την πιθανότητα σφάλματος τύπου Ι). Για να προσδιορίσουμε, με την υπόθεση ότι η υπόθεση είναι αληθής, υπολογίζουμε τις πιθανότητες

Εάν η κρίσιμη περιοχή περιλαμβάνει τις τιμές {3,4,5} , τότε η πιθανότητα σφάλματος τύπου Ι θα είναι ίση με

Υπό τις συνθήκες της εργασίας, προέκυψε ότι μεταξύ των πέντε που δοκιμάστηκαν, τα τρία ήταν ελαττωματικά προϊόντα. Η τιμή εισέρχεται στην κρίσιμη περιοχή. Απορρίπτουμε την υπόθεση υπέρ μιας εναλλακτικής και η πιθανότητα να το κάνουμε λάθος είναι μικρότερη 0,01 .

Η πιθανότητα ενός σφάλματος τύπου II είναι η πιθανότητα αποδοχής μιας υπόθεσης όταν είναι ψευδής. Η υπόθεση θα γίνει αποδεκτή στις . Εάν η πιθανότητα να παραχθεί ένα ελαττωματικό προϊόν είναι στην πραγματικότητα ίση με , τότε η πιθανότητα αποδοχής μιας ψευδούς υπόθεσης είναι ίση με

Εργασία 5.Είναι γνωστό ότι όταν η ζύμη ανακατευτεί καλά, μοιράζονται σε αυτήν σταφίδες περίπου σύμφωνα με το νόμο του Poisson, δηλ. η πιθανότητα να έχουμε σταφίδες σε ένα κουλούρι είναι περίπου , όπου είναι ο μέσος αριθμός σταφίδων ανά κουλούρι. Όταν ψήνουμε ψωμάκια με σταφίδα, το πρότυπο βασίζεται σε 1000 ψωμάκια 9000 αποκορύφωμα Υπάρχει η υποψία ότι στη ζύμη προστέθηκαν λιγότερες σταφίδες από αυτές που απαιτούνται σύμφωνα με το πρότυπο. Για έλεγχο, επιλέγεται ένα κουλούρι και μετρώνται οι σταφίδες σε αυτό. Κατασκευάστε ένα κριτήριο για τον έλεγχο της υπόθεσης που είναι ενάντια στην εναλλακτική. Η πιθανότητα σφάλματος τύπου Ι είναι περίπου 0,02.

Λύση.Για να ελεγχθεί η υπόθεση: έναντι της εναλλακτικής, σύμφωνα με το λήμμα Neyman-Pearson, η κρίσιμη περιοχή θα πρέπει να περιλαμβάνει εκείνες τις τιμές για τις οποίες

όπου είναι κάποια σταθερά.

Τότε 1 Η 1, αφού η εγκυρότητά του σημαίνει την αποτελεσματικότητα της νέας τεχνολογίας).

Πραγματική τιμή στατιστικής κριτηρίου

.

Κάτω από μια ανταγωνιστική υπόθεση H 1η κρίσιμη τιμή της στατιστικής βρίσκεται από τη συνθήκη, δηλ. , που t cr =t 0,95 =1,96.

Δεδομένου ότι η πραγματική παρατηρούμενη τιμή t=4,00 περισσότερο από την κρίσιμη τιμή t cr(για οποιαδήποτε από τις ανταγωνιστικές υποθέσεις που λαμβάνονται), τότε η υπόθεση H 0απορρίπτεται, δηλ. Στο επίπεδο σημαντικότητας 5%, μπορούμε να συμπεράνουμε ότι η νέα τεχνολογία επιτρέπει την αύξηση της μέσης παραγωγής των εργαζομένων.

Εργασία 2.Έγιναν δύο δείγματα της συγκομιδής του σιταριού: με έγκαιρη συγκομιδή και συγκομιδή με κάποια καθυστέρηση. Στην πρώτη περίπτωση, κατά την παρατήρηση 8 τεμαχίων, η μέση απόδοση του δείγματος ήταν 16,2 c/ha και η τυπική απόκλιση ήταν 3,2 c/ha. στη δεύτερη περίπτωση, κατά την παρατήρηση 9 αγροτεμαχίων, τα ίδια χαρακτηριστικά ήταν ίσα με 13,9 c/ha και 2,1 c/ha, αντίστοιχα. Στο επίπεδο σημαντικότητας α=0,05, μάθετε την επίδραση της έγκαιρης συγκομιδής στη μέση απόδοση.

Λύση.Δοκιμή υπόθεση, δηλ. οι μέσες τιμές απόδοσης για έγκαιρη συγκομιδή και με κάποια καθυστέρηση είναι ίσες. Ως εναλλακτική υπόθεση, παίρνουμε την υπόθεση, η αποδοχή της οποίας σημαίνει σημαντικό αντίκτυπο στην απόδοση του χρόνου συγκομιδής.

Η πραγματική παρατηρούμενη τιμή του στατιστικού κριτηρίου

.

Η κρίσιμη αξία των στατιστικών για μια μονόπλευρη περιοχή καθορίζεται από τον αριθμό των βαθμών ελευθερίας l=n 1 +n 2 -2=9+8-2= =15από την συνθήκη θ( t, l)=1–2·0,05=0,9, από όπου σύμφωνα με τον πίνακα t-διανομή (Παράρτημα 6) βρίσκουμε, t cr=1,75. Επειδή , τότε η υπόθεση H 0αποδεκτό. Αυτό σημαίνει ότι τα διαθέσιμα δεδομένα δείγματος στο επίπεδο σημαντικότητας 5% δεν μας επιτρέπουν να θεωρήσουμε ότι κάποια καθυστέρηση στον χρόνο συγκομιδής έχει σημαντικό αντίκτυπο στην απόδοση. Ας τονίσουμε για άλλη μια φορά ότι αυτό δεν σημαίνει ότι η υπόθεση είναι άνευ όρων σωστή. H 0. Είναι πολύ πιθανό ότι μόνο ένα μικρό μέγεθος δείγματος κατέστησε δυνατή την αποδοχή αυτής της υπόθεσης, και με την αύξηση των μεγεθών του δείγματος (ο αριθμός των επιλεγμένων τοποθεσιών) η υπόθεση H 0θα απορριφθεί.

Εργασία 3.Τα ακόλουθα δεδομένα είναι διαθέσιμα για την απόδοση σίτου σε 8 πειραματικά αγροτεμάχια ίδιου μεγέθους (c/ha): 26,5; 26.2; 35,9; 30.1; 32.3; 29.3; 26.1; 25.0. Υπάρχει λόγος να πιστεύουμε ότι η τιμή απόδοσης του τρίτου οικοπέδου Χ*=35,9 καταχωρήθηκε λανθασμένα. Είναι αυτή η τιμή ακραία (outlier) στο επίπεδο σημαντικότητας 5%;

Λύση.Εξαιρώντας την τιμή Χ*=35,9, βρίσκουμε για τις υπόλοιπες παρατηρήσεις και . Πραγματική παρατηρούμενη τιμή μεγαλύτερη από την τιμή του πίνακα, επομένως, την τιμή Χ*Το =35,9 είναι ανώμαλο και πρέπει να απορριφθεί.

Εργασία 4.Οι δακτύλιοι επεξεργάζονται σε δύο τόρνους. Ελήφθησαν δύο δείγματα: από δακτυλίους που έγιναν στο πρώτο μηχάνημα ν 1=15 τεμ., στο δεύτερο μηχάνημα – ν 2= 18 τεμ. Με βάση αυτά τα δείγματα, υπολογίστηκαν οι διακυμάνσεις του δείγματος (για την πρώτη μηχανή) και (για τη δεύτερη μηχανή). Υποθέτοντας ότι οι διαστάσεις των δακτυλίων υπακούουν στον κανονικό νόμο κατανομής, στο επίπεδο σημαντικότητας α = 0,05, ανακαλύψτε εάν μπορεί να θεωρηθεί ότι τα μηχανήματα έχουν διαφορετική ακρίβεια.

Λύση.Έχουμε μηδενική υπόθεση, δηλ. οι διακυμάνσεις μεγέθους των δακτυλίων που επεξεργάζονται σε κάθε μηχανή είναι ίσες. Ας πάρουμε ως ανταγωνιστική υπόθεση (η διασπορά είναι μεγαλύτερη για την πρώτη μηχανή).

.

Σύμφωνα με τον πίνακα Π.

Λύση.Δοκιμή υπόθεση . Ως εναλλακτική, ας πάρουμε την υπόθεση. Εφόσον η γενική διακύμανση σ 2 είναι άγνωστη, χρησιμοποιούμε t-Τεστ μαθητή. Το στατιστικό κριτήριο είναι . Κρίσιμη Στατιστική Αξία t cr=1,83.

Από | t|>t cr(2,25>1,83), στη συνέχεια η υπόθεση H 0απορρίπτεται, δηλ. στο επίπεδο σημαντικότητας 5%, η πρόβλεψη που έγινε θα πρέπει να απορριφθεί.

Εργασία 6.Για εμπειρική διανομή

Σε ορισμένες περιπτώσεις, ο ερευνητής δεν γνωρίζει εκ των προτέρων ακριβώς σύμφωνα με ποιο νόμο κατανέμονται οι παρατηρούμενες τιμές του χαρακτηριστικού που μελετάται. Αλλά μπορεί να έχει πολύ καλούς λόγους να υποθέσει ότι η διανομή υπόκειται σε έναν ή τον άλλο νόμο, για παράδειγμα, κανονική ή ομοιόμορφη. Στην περίπτωση αυτή, προβάλλονται οι κύριες και εναλλακτικές στατιστικές υποθέσεις του ακόλουθου τύπου:

    H 0: η κατανομή του παρατηρούμενου χαρακτηριστικού υπόκειται στον νόμο κατανομής ΕΝΑ,

    H 1: η κατανομή του παρατηρούμενου χαρακτηριστικού διαφέρει από ΕΝΑ;

όπου ως ΕΝΑμπορεί να εμφανίζεται ένας ή άλλος νόμος κατανομής: κανονικός, ομοιόμορφος, εκθετικός κ.λπ.

Ο έλεγχος της υπόθεσης σχετικά με τον αναμενόμενο νόμο κατανομής πραγματοποιείται χρησιμοποιώντας τα λεγόμενα κριτήρια καλής προσαρμογής. Υπάρχουν πολλά κριτήρια συμφωνίας. Το πιο καθολικό από αυτά είναι το κριτήριο Pearson, καθώς είναι εφαρμόσιμο σε κάθε τύπο διανομής.

-Κριτήριο Pearson

Τυπικά, οι εμπειρικές και οι θεωρητικές συχνότητες διαφέρουν. Είναι τυχαία η απόκλιση συχνότητας; Το κριτήριο Pearson δίνει μια απάντηση σε αυτό το ερώτημα, ωστόσο, όπως κάθε στατιστικό κριτήριο, δεν αποδεικνύει την εγκυρότητα της υπόθεσης με αυστηρά μαθηματική έννοια, αλλά αποδεικνύει μόνο τη συμφωνία ή τη διαφωνία της με δεδομένα παρατήρησης σε ένα ορισμένο επίπεδο σημαντικότητας.

Έτσι, ας ληφθεί μια στατιστική κατανομή των τιμών των χαρακτηριστικών από ένα δείγμα όγκου, όπου είναι οι παρατηρούμενες τιμές χαρακτηριστικών και οι αντίστοιχες συχνότητες:

Η ουσία του κριτηρίου Pearson είναι να υπολογιστεί το κριτήριο χρησιμοποιώντας τον ακόλουθο τύπο:

όπου είναι ο αριθμός των ψηφίων των παρατηρούμενων τιμών και είναι οι θεωρητικές συχνότητες των αντίστοιχων τιμών.

Είναι σαφές ότι όσο μικρότερες είναι οι διαφορές, τόσο πιο κοντά είναι η εμπειρική κατανομή στην εμπειρική, επομένως, όσο χαμηλότερη είναι η τιμή του κριτηρίου, τόσο με μεγαλύτερη βεβαιότητα μπορεί να δηλωθεί ότι η εμπειρική και η θεωρητική κατανομή υπόκεινται στον ίδιο νόμο.

Αλγόριθμος κριτηρίου Pearson

Ο αλγόριθμος κριτηρίου Pearson είναι απλός και αποτελείται από την εκτέλεση των παρακάτω βημάτων:

Έτσι, η μόνη μη τετριμμένη ενέργεια σε αυτόν τον αλγόριθμο είναι ο προσδιορισμός των θεωρητικών συχνοτήτων. Φυσικά, εξαρτώνται από τον νόμο διανομής και επομένως ορίζονται διαφορετικά για διαφορετικούς νόμους.

Σκοπός του κριτηρίου χ 2 - το κριτήριο Pearson Το κριτήριο χ 2 χρησιμοποιείται για δύο σκοπούς: 1) για τη σύγκριση της εμπειρικής κατανομής ενός χαρακτηριστικού με το θεωρητικό - ομοιόμορφο, κανονικό ή κάποιο άλλο. 2) να συγκρίνουν δύο, τρεις ή περισσότερες εμπειρικές κατανομές του ίδιου χαρακτηριστικού. Περιγραφή του κριτηρίου Το κριτήριο χ 2 απαντά στο ερώτημα εάν διαφορετικές τιμές ενός χαρακτηριστικού εμφανίζονται με ίση συχνότητα σε εμπειρικές και θεωρητικές κατανομές ή σε δύο ή περισσότερες εμπειρικές κατανομές. Το πλεονέκτημα της μεθόδου είναι ότι επιτρέπει σε κάποιον να συγκρίνει τις κατανομές των χαρακτηριστικών που παρουσιάζονται σε οποιαδήποτε κλίμακα, ξεκινώντας από την κλίμακα των ονομάτων. Στην απλούστερη περίπτωση μιας εναλλακτικής διανομής «ναι - όχι», «επιτρεπόταν ένα ελάττωμα - δεν επέτρεψε ένα ελάττωμα», «λύθηκε ένα πρόβλημα - δεν έλυσε ένα πρόβλημα» κ.λπ., μπορούμε ήδη να εφαρμόσουμε το κριτήριο χ 2. Όσο μεγαλύτερη είναι η απόκλιση μεταξύ των δύο συγκρίσιμων κατανομών, τόσο μεγαλύτερη είναι η εμπειρική τιμή του χ 2 . Αυτόματος υπολογισμός του χ 2 - Κριτήριο Pearson Για να εκτελέσετε αυτόματο υπολογισμό του χ 2 - κριτήριο Pearson, πρέπει να εκτελέσετε δύο βήματα: Βήμα 1. Καθορίστε τον αριθμό των εμπειρικών κατανομών (από 1 έως 10). Βήμα 2. Εισαγάγετε εμπειρικές συχνότητες στον πίνακα. Βήμα 3. Λάβετε απάντηση.

Το πλεονέκτημα του κριτηρίου Pearson είναι η καθολικότητά του: μπορεί να χρησιμοποιηθεί για τον έλεγχο υποθέσεων σχετικά με διάφορους νόμους διανομής.

1. Έλεγχος της υπόθεσης της κανονικής κατανομής.

Αφήστε να ληφθεί ένα αρκετά μεγάλο δείγμα Πμε πολλές διαφορετικές σημασίες επιλογή. Για τη διευκόλυνση της επεξεργασίας του, διαιρούμε το διάστημα από τη μικρότερη στη μεγαλύτερη τιμή της επιλογής σε μικρόίσα μέρη και θα υποθέσουμε ότι οι τιμές των επιλογών που εμπίπτουν σε κάθε διάστημα είναι περίπου ίσες με τον αριθμό που καθορίζει το μέσο του διαστήματος. Μετρώντας τον αριθμό των επιλογών που εμπίπτουν σε κάθε διάστημα, θα δημιουργήσουμε ένα λεγόμενο ομαδοποιημένο δείγμα:

επιλογές……….. Χ 1 Χ 2 … x s

συχνότητες…………. Π 1 Π 2 … n s ,

Οπου x iείναι οι τιμές των μεσαίων σημείων των διαστημάτων, και n i– αριθμός επιλογών που περιλαμβάνονται Εγώ-διάστημα (εμπειρικές συχνότητες).



Από τα δεδομένα που ελήφθησαν, μπορείτε να υπολογίσετε τη μέση τιμή δείγματος και την τυπική απόκλιση του δείγματος σ Β. Ας ελέγξουμε την υπόθεση ότι ο πληθυσμός κατανέμεται σύμφωνα με έναν κανονικό νόμο με παραμέτρους Μ(Χ) = , ρε(Χ) = . Στη συνέχεια, μπορείτε να βρείτε τον αριθμό των αριθμών από το μέγεθος του δείγματος Π, το οποίο θα πρέπει να εμφανίζεται σε κάθε διάστημα με αυτήν την υπόθεση (δηλαδή θεωρητικές συχνότητες). Για να γίνει αυτό, χρησιμοποιώντας τον πίνακα τιμών της συνάρτησης Laplace, βρίσκουμε την πιθανότητα να μπούμε Εγώτο διάστημα:

,

Οπου και εγώΚαι β i- όρια Εγώ-ο μεσοδιάστημα. Πολλαπλασιάζοντας τις λαμβανόμενες πιθανότητες με το μέγεθος του δείγματος n, βρίσκουμε τις θεωρητικές συχνότητες: p i =n·p iΣτόχος μας είναι να συγκρίνουμε τις εμπειρικές και τις θεωρητικές συχνότητες, οι οποίες, φυσικά, διαφέρουν μεταξύ τους, και να διαπιστώσουμε εάν αυτές οι διαφορές είναι ασήμαντες και δεν αναιρούν την υπόθεση της κανονικής κατανομής της υπό μελέτη τυχαίας μεταβλητής ή αν είναι τόσο μεγάλες που έρχονται σε αντίθεση με αυτήν την υπόθεση. Για το σκοπό αυτό χρησιμοποιείται ένα κριτήριο με τη μορφή τυχαίας μεταβλητής

. (20.1)

Το νόημά του είναι προφανές: αθροίζονται τα μέρη που αποτελούν τα τετράγωνα των αποκλίσεων εμπειρικών συχνοτήτων από τις θεωρητικές από τις αντίστοιχες θεωρητικές συχνότητες. Μπορεί να αποδειχθεί ότι, ανεξάρτητα από τον πραγματικό νόμο κατανομής του πληθυσμού, ο νόμος κατανομής της τυχαίας μεταβλητής (20.1) τείνει στον νόμο κατανομής (βλ. διάλεξη 12) με τον αριθμό των βαθμών ελευθερίας k = s – 1 – r, Οπου r– ο αριθμός των παραμέτρων της αναμενόμενης κατανομής που εκτιμάται από τα δεδομένα του δείγματος. Επομένως, η κανονική κατανομή χαρακτηρίζεται από δύο παραμέτρους k = s – 3. Για το επιλεγμένο κριτήριο, κατασκευάζεται μια κρίσιμη περιοχή δεξιάς, που καθορίζεται από την συνθήκη

(20.2)

Οπου α - επίπεδο σημασίας. Κατά συνέπεια, η κρίσιμη περιοχή δίνεται από την ανισότητα και η περιοχή αποδοχής της υπόθεσης είναι .

Έτσι, για να ελέγξουμε τη μηδενική υπόθεση Ν 0: ο πληθυσμός κατανέμεται κανονικά - πρέπει να υπολογίσετε την παρατηρούμενη τιμή του κριτηρίου από το δείγμα:

, (20.1`)

και χρησιμοποιώντας τον πίνακα των κρίσιμων σημείων της κατανομής χ 2, βρείτε το κρίσιμο σημείο χρησιμοποιώντας γνωστές τιμές των α και k = s – 3. Εάν - η μηδενική υπόθεση γίνει αποδεκτή, εάν απορριφθεί.

2. Έλεγχος της υπόθεσης της ομοιόμορφης κατανομής.

Όταν χρησιμοποιείτε το τεστ Pearson για να ελέγξετε την υπόθεση ότι ο πληθυσμός είναι ομοιόμορφα κατανεμημένος με την εκτιμώμενη πυκνότητα πιθανότητας

Είναι απαραίτητο, έχοντας υπολογίσει την τιμή από το διαθέσιμο δείγμα, να εκτιμηθούν οι παράμετροι ΕΝΑΚαι σισύμφωνα με τους τύπους:

Οπου ΕΝΑ*Και σι*- αξιολογήσεις ΕΝΑΚαι σι. Πράγματι, για ομοιόμορφη διανομή Μ(Χ) = , , όπου μπορείτε να λάβετε ένα σύστημα για τον προσδιορισμό ΕΝΑ*Και σι*: , η λύση του οποίου είναι οι εκφράσεις (20.3).

Στη συνέχεια, υποθέτοντας ότι , μπορείτε να βρείτε τις θεωρητικές συχνότητες χρησιμοποιώντας τους τύπους

Εδώ μικρό– τον ​​αριθμό των διαστημάτων στα οποία χωρίζεται το δείγμα.

Η παρατηρούμενη τιμή του κριτηρίου Pearson υπολογίζεται χρησιμοποιώντας τον τύπο (20.1`) και η κρίσιμη τιμή υπολογίζεται χρησιμοποιώντας τον πίνακα, λαμβάνοντας υπόψη το γεγονός ότι ο αριθμός των βαθμών ελευθερίας k = s – 3. Μετά από αυτό, τα όρια της κρίσιμης περιοχής καθορίζονται με τον ίδιο τρόπο όπως για τον έλεγχο της υπόθεσης μιας κανονικής κατανομής.

3. Έλεγχος της υπόθεσης για την εκθετική κατανομή.

Σε αυτήν την περίπτωση, έχοντας χωρίσει το υπάρχον δείγμα σε διαστήματα ίσου μήκους, εξετάζουμε την ακολουθία των επιλογών, σε ίση απόσταση μεταξύ τους (υποθέτουμε ότι όλες οι επιλογές που εμπίπτουν σε Εγώ- το διάστημα, πάρτε μια τιμή που συμπίπτει με τη μέση του) και τις αντίστοιχες συχνότητές τους n i(αριθμός δειγμάτων επιλογών που περιλαμβάνονται Εγώ– ο μεσοδιάστημα). Ας υπολογίσουμε από αυτά τα δεδομένα και πάρουμε ως εκτίμηση της παραμέτρου λ Μέγεθος. Στη συνέχεια υπολογίζονται οι θεωρητικές συχνότητες χρησιμοποιώντας τον τύπο

Στη συνέχεια συγκρίνονται η παρατηρούμενη και η κρίσιμη τιμή του κριτηρίου Pearson, λαμβάνοντας υπόψη το γεγονός ότι ο αριθμός των βαθμών ελευθερίας k = s – 2.

Κριτήριο Pearson για τον έλεγχο της υπόθεσης σχετικά με τη μορφή του νόμου κατανομής μιας τυχαίας μεταβλητής. Έλεγχος υποθέσεων σχετικά με κανονικές, εκθετικές και ομοιόμορφες κατανομές χρησιμοποιώντας το κριτήριο Pearson. Κριτήριο Kolmogorov. Μια προσεγγιστική μέθοδος για τον έλεγχο της κανονικότητας μιας κατανομής, που σχετίζεται με εκτιμήσεις των συντελεστών λοξότητας και κύρτωσης.

Στην προηγούμενη διάλεξη εξετάστηκαν υποθέσεις στις οποίες ο νόμος κατανομής του πληθυσμού θεωρήθηκε γνωστός. Τώρα θα αρχίσουμε να δοκιμάζουμε υποθέσεις σχετικά με τον υποτιθέμενο νόμο της άγνωστης κατανομής, δηλαδή θα ελέγξουμε τη μηδενική υπόθεση ότι ο πληθυσμός κατανέμεται σύμφωνα με κάποιον γνωστό νόμο. Συνήθως, οι στατιστικές δοκιμές για τον έλεγχο τέτοιων υποθέσεων ονομάζονται τεστ καλής προσαρμογής.

Το πλεονέκτημα του κριτηρίου Pearson είναι η καθολικότητά του: μπορεί να χρησιμοποιηθεί για τον έλεγχο υποθέσεων σχετικά με διάφορους νόμους διανομής.

1. Έλεγχος της υπόθεσης της κανονικής κατανομής.

Αφήστε να ληφθεί ένα αρκετά μεγάλο δείγμα Πμε μεγάλο αριθμό διαφορετικών σημασιών επιλογή. Για τη διευκόλυνση της επεξεργασίας του, διαιρούμε το διάστημα από τη μικρότερη στη μεγαλύτερη τιμή της επιλογής σε μικρόίσα μέρη και θα υποθέσουμε ότι οι τιμές ποικίλλουν

Τα μυρμήγκια που πέφτουν σε κάθε διάστημα είναι περίπου ίσα με τον αριθμό που ορίζει το μέσο του διαστήματος. Μετρώντας τον αριθμό των επιλογών που εμπίπτουν σε κάθε διάστημα, θα δημιουργήσουμε ένα λεγόμενο ομαδοποιημένο δείγμα:

επιλογές Χ 1 Χ 2 x s

συχνότητες Π 1 Π 2 n s ,

Οπου x i- τιμές των μέσων των διαστημάτων, και n i- αριθμός επιλογών που περιλαμβάνονται σε Εγώ-διάστημα (εμπειρικές συχνότητες).

Από τα δεδομένα που ελήφθησαν, μπορείτε να υπολογίσετε τη μέση τιμή δείγματος και την τυπική απόκλιση του δείγματος σ Β. Ας ελέγξουμε την υπόθεση ότι ο πληθυσμός κατανέμεται σύμφωνα με έναν κανονικό νόμο με παραμέτρους Μ(Χ) = , ρε(Χ) = . Στη συνέχεια, μπορείτε να βρείτε τον αριθμό των αριθμών από το μέγεθος του δείγματος Π, το οποίο θα πρέπει να είναι σε κάθε διάστημα υπό αυτήν την υπόθεση (δηλαδή θεωρητικές συχνότητες). Για να γίνει αυτό, χρησιμοποιώντας τον πίνακα τιμών της συνάρτησης Laplace, βρίσκουμε την πιθανότητα να μπούμε Εγώτο διάστημα:

Οπου και εγώΚαι β i- όρια Εγώ-ο μεσοδιάστημα. Πολλαπλασιάζοντας τις λαμβανόμενες πιθανότητες με το μέγεθος του δείγματος n, βρίσκουμε τις θεωρητικές συχνότητες: p i =n?p i. Στόχος μας είναι να συγκρίνουμε τις εμπειρικές και τις θεωρητικές συχνότητες, οι οποίες, φυσικά, διαφέρουν μεταξύ τους, και να διαπιστώσουμε εάν αυτές οι διαφορές είναι ασήμαντες, δεν αναιρούν την υπόθεση της κανονικής κατανομής της υπό μελέτη τυχαίας μεταβλητής ή είναι τόσο μεγάλες που έρχονται σε αντίθεση με αυτήν την υπόθεση. Για το σκοπό αυτό χρησιμοποιείται ένα κριτήριο με τη μορφή τυχαίας μεταβλητής

Το νόημά του είναι προφανές: αθροίζονται τα μέρη που αποτελούν τα τετράγωνα των αποκλίσεων εμπειρικών συχνοτήτων από τις θεωρητικές από τις αντίστοιχες θεωρητικές συχνότητες. Μπορεί να αποδειχθεί ότι, ανεξάρτητα από τον πραγματικό νόμο κατανομής του γενικού πληθυσμού, ο νόμος κατανομής της τυχαίας μεταβλητής (20.1) τείνει στον νόμο κατανομής (βλ. διάλεξη 12) με τον αριθμό των βαθμών ελευθερίας k = s - 1 - r, Οπου r- τον αριθμό των παραμέτρων της αναμενόμενης κατανομής που υπολογίζεται από τα δεδομένα του δείγματος. Επομένως, η κανονική κατανομή χαρακτηρίζεται από δύο παραμέτρους k = s - 3. Για το επιλεγμένο κριτήριο, κατασκευάζεται μια κρίσιμη περιοχή δεξιάς, που καθορίζεται από την συνθήκη


Οπου α - επίπεδο σημασίας. Κατά συνέπεια, η κρίσιμη περιοχή δίνεται από την ανισότητα και η περιοχή αποδοχής της υπόθεσης είναι .

Έτσι, για να ελέγξουμε τη μηδενική υπόθεση Ν 0: ο πληθυσμός κατανέμεται κανονικά - πρέπει να υπολογίσετε την παρατηρούμενη τιμή του κριτηρίου από το δείγμα:

και χρησιμοποιώντας τον πίνακα των κρίσιμων σημείων της κατανομής χ 2, βρείτε το κρίσιμο σημείο χρησιμοποιώντας γνωστές τιμές των α και k = s - 3. Εάν - η μηδενική υπόθεση γίνει αποδεκτή, εάν απορριφθεί.

2. Έλεγχος της υπόθεσης της ομοιόμορφης κατανομής.

Όταν χρησιμοποιείται το κριτήριο Pearson για να ελεγχθεί η υπόθεση σχετικά με την ομοιόμορφη κατανομή του πληθυσμού με την εκτιμώμενη πυκνότητα πιθανότητας

Είναι απαραίτητο, έχοντας υπολογίσει την τιμή από το διαθέσιμο δείγμα, να εκτιμηθούν οι παράμετροι ΕΝΑΚαι σισύμφωνα με τους τύπους:

Οπου ΕΝΑ*Και σι*- αξιολογήσεις ΕΝΑΚαι σι. Πράγματι, για ομοιόμορφη διανομή Μ(Χ) = , , από όπου μπορεί κανείς να αποκτήσει ένα σύστημα για τον προσδιορισμό ΕΝΑ*Και σι*: , η λύση του οποίου είναι οι εκφράσεις (20.3).

Στη συνέχεια, υποθέτοντας ότι , μπορούμε να βρούμε τις θεωρητικές συχνότητες χρησιμοποιώντας τους τύπους

Εδώ μικρό- τον αριθμό των διαστημάτων στα οποία χωρίζεται το δείγμα.

Η παρατηρούμενη τιμή του κριτηρίου Pearson υπολογίζεται χρησιμοποιώντας τον τύπο (20.1`) και η κρίσιμη τιμή υπολογίζεται χρησιμοποιώντας τον πίνακα, λαμβάνοντας υπόψη το γεγονός ότι ο αριθμός των βαθμών ελευθερίας k = s - 3. Μετά από αυτό, τα όρια της κρίσιμης περιοχής καθορίζονται με τον ίδιο τρόπο όπως για τον έλεγχο της υπόθεσης μιας κανονικής κατανομής.

3. Έλεγχος της υπόθεσης για την εκθετική κατανομή.

Σε αυτήν την περίπτωση, έχοντας χωρίσει το υπάρχον δείγμα σε διαστήματα ίσου μήκους, εξετάζουμε την ακολουθία των επιλογών, σε ίση απόσταση μεταξύ τους (υποθέτουμε ότι όλες οι επιλογές που εμπίπτουν σε Εγώτο διάστημα, πάρτε μια τιμή που συμπίπτει με τη μέση του) και τις αντίστοιχες συχνότητές τους n i(αριθμός δειγμάτων επιλογών που περιλαμβάνονται Εγώ-ο μεσοδιάστημα). Ας υπολογίσουμε από αυτά τα δεδομένα και πάρουμε ως εκτίμηση της παραμέτρου λ Μέγεθος. Στη συνέχεια υπολογίζονται οι θεωρητικές συχνότητες χρησιμοποιώντας τον τύπο

Στη συνέχεια συγκρίνονται η παρατηρούμενη και η κρίσιμη τιμή του κριτηρίου Pearson, λαμβάνοντας υπόψη το γεγονός ότι ο αριθμός των βαθμών ελευθερίας k = s - 2.

Το τεστ \(\chi^2\) ("chi-square", επίσης "Pearson's goodness-of-test test") έχει εξαιρετικά ευρεία εφαρμογή στη στατιστική. Σε γενικές γραμμές, μπορούμε να πούμε ότι χρησιμοποιείται για τον έλεγχο της μηδενικής υπόθεσης ότι μια παρατηρούμενη τυχαία μεταβλητή υπόκειται σε έναν ορισμένο θεωρητικό νόμο κατανομής (για περισσότερες λεπτομέρειες, βλέπε, για παράδειγμα,). Η συγκεκριμένη διατύπωση της υπόθεσης που ελέγχεται θα διαφέρει από περίπτωση σε περίπτωση.

Σε αυτήν την ανάρτηση θα περιγράψω πώς λειτουργεί το κριτήριο \(\chi^2\) χρησιμοποιώντας ένα (υποθετικό) παράδειγμα από την ανοσολογία. Ας φανταστούμε ότι έχουμε πραγματοποιήσει ένα πείραμα για να προσδιορίσουμε την αποτελεσματικότητα της καταστολής της ανάπτυξης μιας μικροβιακής νόσου όταν εισάγονται κατάλληλα αντισώματα στο σώμα. Συνολικά 111 ποντίκια συμμετείχαν στο πείραμα, τα οποία χωρίσαμε σε δύο ομάδες, συμπεριλαμβανομένων 57 και 54 ζώων, αντίστοιχα. Η πρώτη ομάδα ποντικών έλαβε ενέσεις παθογόνων βακτηρίων, ακολουθούμενη από την εισαγωγή ορού αίματος που περιέχει αντισώματα κατά αυτών των βακτηρίων. Τα ζώα από τη δεύτερη ομάδα χρησίμευσαν ως μάρτυρες - έλαβαν μόνο ενέσεις βακτηρίων. Μετά από κάποιο χρονικό διάστημα επώασης, αποδείχθηκε ότι 38 ποντίκια πέθαναν και 73 επέζησαν. Από τους νεκρούς, οι 13 ανήκαν στην πρώτη ομάδα και οι 25 στη δεύτερη (έλεγχος). Η μηδενική υπόθεση που δοκιμάστηκε σε αυτό το πείραμα μπορεί να διατυπωθεί ως εξής: η χορήγηση ορού με αντισώματα δεν έχει καμία επίδραση στην επιβίωση των ποντικών. Με άλλα λόγια, υποστηρίζουμε ότι οι παρατηρούμενες διαφορές στην επιβίωση ποντικών (77,2% στην πρώτη ομάδα έναντι 53,7% στη δεύτερη ομάδα) είναι εντελώς τυχαίες και δεν σχετίζονται με την επίδραση των αντισωμάτων.

Τα δεδομένα που ελήφθησαν στο πείραμα μπορούν να παρουσιαστούν με τη μορφή πίνακα:

Σύνολο

Βακτήρια + ορός

Μόνο βακτήρια

Σύνολο

Οι πίνακες όπως αυτός που φαίνεται ονομάζονται πίνακες έκτακτης ανάγκης. Στο υπό εξέταση παράδειγμα, ο πίνακας έχει διάσταση 2x2: υπάρχουν δύο κατηγορίες αντικειμένων («Βακτήρια + ορός» και «Μόνο βακτήρια»), τα οποία εξετάζονται σύμφωνα με δύο κριτήρια («Dead» και «Survived»). Αυτή είναι η απλούστερη περίπτωση ενός πίνακα έκτακτης ανάγκης: φυσικά, τόσο ο αριθμός των τάξεων που μελετώνται όσο και ο αριθμός των χαρακτηριστικών μπορεί να είναι μεγαλύτερος.

Για να ελέγξουμε τη μηδενική υπόθεση που αναφέρθηκε παραπάνω, πρέπει να γνωρίζουμε ποια θα ήταν η κατάσταση εάν τα αντισώματα δεν είχαν πραγματικά καμία επίδραση στην επιβίωση των ποντικών. Με άλλα λόγια, πρέπει να υπολογίσετε αναμενόμενες συχνότητεςγια τα αντίστοιχα κελιά του πίνακα απρόβλεπτων. Πως να το κάνεις? Στο πείραμα, πέθαναν συνολικά 38 ποντίκια, που είναι το 34,2% του συνολικού αριθμού των ζώων που συμμετείχαν. Εάν η χορήγηση αντισωμάτων δεν επηρεάζει την επιβίωση των ποντικών, θα πρέπει να παρατηρηθεί το ίδιο ποσοστό θνησιμότητας και στις δύο πειραματικές ομάδες, δηλαδή 34,2%. Υπολογίζοντας πόσο είναι το 34,2% του 57 και του 54, παίρνουμε 19,5 και 18,5. Αυτά είναι τα αναμενόμενα ποσοστά θνησιμότητας στις πειραματικές μας ομάδες. Τα αναμενόμενα ποσοστά επιβίωσης υπολογίζονται με παρόμοιο τρόπο: αφού συνολικά επέζησαν 73 ποντίκια, ή το 65,8% του συνολικού αριθμού, τα αναμενόμενα ποσοστά επιβίωσης θα είναι 37,5 και 35,5. Ας δημιουργήσουμε έναν νέο πίνακα έκτακτης ανάγκης, τώρα με τις αναμενόμενες συχνότητες:

Νεκρός

Επιζώντες

Σύνολο

Βακτήρια + ορός

Μόνο βακτήρια

Σύνολο

Όπως μπορούμε να δούμε, οι αναμενόμενες συχνότητες είναι αρκετά διαφορετικές από τις παρατηρούμενες, δηλ. Η χορήγηση αντισωμάτων φαίνεται να έχει επίδραση στην επιβίωση ποντικών που έχουν μολυνθεί με το παθογόνο. Μπορούμε να ποσοτικοποιήσουμε αυτήν την εντύπωση χρησιμοποιώντας τη δοκιμασία καλής προσαρμογής Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


όπου \(f_o\) και \(f_e\) είναι οι παρατηρούμενες και αναμενόμενες συχνότητες, αντίστοιχα. Η άθροιση εκτελείται σε όλα τα κελιά του πίνακα. Έτσι, για το υπό εξέταση παράδειγμα έχουμε

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Είναι η προκύπτουσα τιμή του \(\chi^2\) αρκετά μεγάλη για να απορρίψει τη μηδενική υπόθεση; Για να απαντηθεί αυτό το ερώτημα είναι απαραίτητο να βρεθεί η αντίστοιχη κρίσιμη τιμή του κριτηρίου. Ο αριθμός των βαθμών ελευθερίας για \(\chi^2\) υπολογίζεται ως \(df = (R - 1)(C - 1)\), όπου \(R\) και \(C\) είναι ο αριθμός γραμμών και στηλών στη σύζευξη του πίνακα. Στην περίπτωσή μας \(df = (2 -1)(2 - 1) = 1\). Γνωρίζοντας τον αριθμό των βαθμών ελευθερίας, μπορούμε τώρα να βρούμε εύκολα την κρίσιμη τιμή \(\chi^2\) χρησιμοποιώντας την τυπική συνάρτηση R qchisq():


Έτσι, με έναν βαθμό ελευθερίας, μόνο στο 5% των περιπτώσεων η τιμή του κριτηρίου \(\chi^2\) ξεπερνά το 3.841. Η τιμή που λάβαμε, 6,79, υπερβαίνει σημαντικά αυτήν την κρίσιμη τιμή, γεγονός που μας δίνει το δικαίωμα να απορρίψουμε τη μηδενική υπόθεση ότι δεν υπάρχει σύνδεση μεταξύ της χορήγησης αντισωμάτων και της επιβίωσης των μολυσμένων ποντικών. Απορρίπτοντας αυτή την υπόθεση, κινδυνεύουμε να κάνουμε λάθος με πιθανότητα μικρότερη από 5%.

Θα πρέπει να σημειωθεί ότι ο παραπάνω τύπος για το κριτήριο \(\chi^2\) δίνει ελαφρώς διογκωμένες τιμές όταν εργάζεστε με πίνακες έκτακτης ανάγκης μεγέθους 2x2. Ο λόγος είναι ότι η κατανομή του ίδιου του κριτηρίου \(\chi^2\) είναι συνεχής, ενώ οι συχνότητες των δυαδικών χαρακτηριστικών («πέθαναν» / «επιβίωσαν») είναι εξ ορισμού διακριτές. Από αυτή την άποψη, κατά τον υπολογισμό του κριτηρίου, συνηθίζεται να εισάγεται το λεγόμενο διόρθωση συνέχειας, ή Η τροπολογία του Yates :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearson "s Chi-squared test with Yates"δεδομένα διόρθωσης συνέχειας: ποντίκια Χ-τετράγωνο = 5,7923, df = 1, τιμή p = 0,0161


Όπως μπορούμε να δούμε, το R εφαρμόζει αυτόματα τη διόρθωση συνέχειας του Yates ( Διόρθωση συνέχειας του Pearson's Chi-squared with Yates».). Η τιμή του \(\chi^2\) που υπολογίστηκε από το πρόγραμμα ήταν 5,79213. Μπορούμε να απορρίψουμε τη μηδενική υπόθεση της μη επίδρασης αντισωμάτων με κίνδυνο να είμαστε λάθος με πιθανότητα λίγο πάνω από 1% (p-value = 0,0161).