Bài giảng Xác suất thống kê - Phần II: Thống kê

Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện
tượng ngẫu nhiên có tính chất số lớn trên cơ sở thu nhập và xử lý các
số liệu thống kê (các kết quả quan sát). Nội dung chủ yếu của thống kê
toán là xây dựng các phương pháp thu nhập và xử lý các số liệu thống
kê nhằm rút ra các kết luận khoa học và thực tiễn, dựa trên những
thành tựu của lý thuyết xác suất.
Việc thu thập, sắp xếp, trình bày các số liệu của tổng thể hay của một
mẫu được gọi là thống kê mô tả. Còn việc sử dụng các thông tin của
mẫu để tiến hành các suy đoán, kết luận về tổng thể gọi là thống kê
suy diễn.
Thống kê được ứng dụng vào mọi lĩnh vực. Một số ngành đã phát triển
thống kê ứng dụng chuyên sâu trong ngành như thống kê trong xã hội
học, trong y khoa, trong giáo dục học, trong tâm lý học, trong kỹ thuật,
trong sinh học, trong phân tích hóa học, trong thể thao, trong hệ thống
thông tin địa lý, trong xử lý hình ảnh…
pdf 76 trang thamphan 28/12/2022 2560
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xác suất thống kê - Phần II: Thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbai_giang_xac_suat_thong_ke_phan_ii_thong_ke.pdf

Nội dung text: Bài giảng Xác suất thống kê - Phần II: Thống kê

  1. CÁC ĐẶC TRƯNG CÁC ĐẶC TRƯNG CỦA MẪU CỤ THỂ CỦA MẪU TỔNG QUÁT TRUNG BÌNH MẪU Trung bình mẫu: n n 1 k 1 1 hay x nx X = Xi x x  ii n   i n i=1 n i 1 i 1 2 PHƯƠNG SAI MẪU Phương sai mẫu: s Độ lệch mẫu: s ct1 n 2 1 2 n 2 k 2 2 2 1 2 1 22 S (Xi -X) s () xx hay s nx x x x n   i  ii i=1 n i 1 n i 1 PHƯƠNG SAI MẪU Phương sai mẫu hiệu chỉnh: s2 HIỆU CHỈNH Độ lệch mẫu hiệu chỉnh: s n n 2 2 1 2 n 2 221ns ()xx s2 s S = (Xi -X) = S  i hay n-1i=1 n-1 n 1 i 1 n 1 TỈ LỆ MẪU Tỉ lệ mẫu: m M f = F= n N 17
  2. Ví dụ 1: Người ta lấy 16 mẫu nước trên 1 dòng sông để phân tích hàm lượng BOD ( đơn vị mg/l), kết quả thu được: 125 205 134 137 168 174 158 172 98 113 174 185 197 163 168 141 Hãy tìm các tham số mẫu: a) Trung bình mẫu ( TB cộng), trung vị mẫu và mod. b) Độ lệch mẫu và độ lệch mẫu hiệu chỉnh. Ví dụ 2: Khảo sát thời gian gia công của 1 số chi tiết máy được chọn ngẫu nhiên, người ta ghi nhận số liệu: Thời gian gia công (phút) 15-17 17-19 19-21 21-23 23-25 25-28 Số chi tiết máy tương ứng 11 32 54 32 23 22 a) Tính các đặc trưng mẫu sau: n;;;. x s s b) Tìm tỷ lệ các chi tiết được gia công dưới 19 phút.
  3. Neáu n 30 thì vôùi moät maãu cuï theå kích thöôùc n ta coù 2 s2 s2 Xa Do ñoù X ~ N(a, ) hay n ~ N(0,1) n s trong ñoù s2 laø phöông sai maãu hieäu chænh cuûa moät maãu kích thöôùc n baát kyø. Tröôøng hôïp n < 30, toång theå coù phaân phoái chuaån, ta coù Xa nn~ T( 1) s 3- Phaân phoái xaùc suaát cuûa phöông sai maãu Neáu toång theå coù phaân phoái chuaån thì ta coù nS2 n 11n S2 ( X X ) 2 ~ χ 2 ( n 1) 2 2 2  i    i 1
  4. Có nhiều cách chọn hàm ước lượng θ khác nhau, vì vậy người ta đưa ra một số tiêu chuẩn để đánh giá chất lượng của các hàm này, để từ đó lựa chọn được hàm “xấp xỉ một cách tốt nhất” tham số cần ước lượng. • Ước lượng không chệch: là ước lượng không chệch của  nếu E( ) = . • Ước lượng hiệu quả: là ước lượng hiệu quả của  nếu nó là ước lượng không chệch của  và có phương sai nhỏ nhất so với các ước lượng không chệch khác được xây dựng trên cùng mẫu đó. • Ước lượng vững: là ước lượng vững (hay ước lượng nhất quán) của  nếu hội tụ theo xác suất đến  khi n . • Ước lượng đủ: θ được gọi là ước lượng đủ nếu nó chứa toàn bộ các thông tin trong mẫu về tham số  của ước lượng. 23
  5. Bảng 1- Tóm tắt một số hàm ước lượng tham số thông dụng: Tính chất của ước Tham số  Chọn thống kê θ E[ ] D[ ] lượng cần ước để ước lượng lượng m p(1-p) Không chệch, Tỉ lệ p F = D(F)= n E(F) =p n vững, hiệu quả, (xác suất) đủ; hợp lý cực đại. n 2 Không chệch, Kỳ vọng 1 E X =a  X = Xi DX vững, hiệu quả, n  n a = E(X) i=1 đủ; hợp lý cực đại. 2 n 2 Chệch, vững, đủ; Phương sai 1 2 n-1 2 S = (X -X) E S =   i n hợp lý cực đại. 2 = D(X) n i=1 n Không chệch, 221 S = (X -X) 2 2  i ES  vững, đủ. n-1 i=1 25
  6. Phương pháp tìm khoảng tin cậy cho tham số  với độ tin cậy 1- cho trước: • Trước tiên ta tìm hàm ước lượng G = f(X1 , X2 , , Xn , ) sao cho quy luật phân phối xác suất của G hoàn toàn xác định, không phụ thuộc vào các đối số. Chọn cặp giá trị 1, 2 0 sao cho 1 + 2 = và tìm G 1, G 2 mà ( G G 2) = 2, suy ra P( G 1 < G < G 2) = 1 - . Biến đổi để tìm được các giá trị G1, G2 sao cho P(G1 <  < G2 ) = 1- . Khi đó khoảng (G1, G2) chính là một trong các khoảng tin cậy (confidence interval) cần tìm. • Theo nguyên lý xác suất lớn thì với độ tin cậy (1 - ) đủ lớn, hầu như chắc chắn biến cố (G1 <  < G2 ) sẽ xảy ra trong một phép thử. Vì vậy trong thực tế chỉ cần thực hiện phép thử để có được một mẫu cụ thể w = (x1, x2 , , xn) rồi tính giá trị của G1 và G2 ứng với mẫu đã cho sẽ cho ta một khoảng ước lượng thỏa yêu cầu. 27
  7. Người ta gọi  là sai số của ƯL hay độ chính xác của ƯL. Vậy khoảng ước lượng cho p là (F-; F+); có độ dài là 2. Tham khảo cách trình bày khác: Ta chọn F là để ước lượng cho tỉ lệ tổng thể p chưa biết (Bảng 1), và chọn khoảng ước lượng có dạng (F- , F +), còn gọi là khoảng tin cậy đối xứng. Vì thế ta sẽ tìm  sao cho: P (F-  < p < F +) = 1 - (1) Từ (1) suy ra P ( -  < F- p < ) = 1 - hay Fp P n n n 1-α . (2) f(1 f ) f (1 f ) f (1 f ) Fp Do hàm Zn N(0,1) ff(1 ) nên (2) P z Z z 1 2. (z ) 1 1 dẫn đến  ().z Tìm z bằng cách tra (ngược) bảng giá trị 2 z. f (1 f ) hàm tp Laplace (PLII), từ đó sẽ tìm được công thức  . n 29
  8. Bài toán minh họa 2: Giả sử tổng thể X có phân phối chuẩn, chưa biết trung bình tổng thể a và phương sai tổng thể 2. Từ tổng thể, người ta lấy được mẫu tổng quát với kích thước n, trung bình mẫu X và phương sai mẫu hiệu chỉnh S2. Tìm khoảng tin cậy cho trung bình tổng thể a với độ tin cậy 1- ; trong trường hợp mẫu có kích thước nhỏ. Xa Theo kết quả ở II.2, khi n <30 thì hàm: Q n T( n 1) s Chọn khoảng ước lượng đối xứng có dạng (;)XX  Dẫn đến bài toán tìm  để P( X  a X  ) 1 Xa  P( n Q n n ) 1 . Đặt : Tn s s s s Dựa vào bảng tra 1 phía trong Phụ lục VII cho hàm (n-1) Student, ta tìm được giá trị T = t /2 bằng cách tìm số nằm ở cột /2 , dòng thứ (n-1). Từ đó suy ra  cần tìm. (Nhắc lại: Khi n 30, phân phối Student xấp xỉ phân phối Chuẩn tắc.) 31
  9. Ví dụ 1: Tìm khoảng ƯL cho tỉ lệ hạt lúa nảy mầm với độ tin cậy 98% trên cơ sở gieo 1000 hạt thì có 140 hạt không nảy mầm. Hướng dẫn: Gọi p là tỉ lệ hạt nảy mầm của tổng thể (đề bài không nhắc đến phạm vi tổng thể). Tính các đặc trưng mẫu: n = 1000; f= 860/1000 = 0,86. Độ tin cậy 1 - = 0,98 (z ) = (1- )/2 = 0,49 z = 2,33. Tìm độ chính xác của ƯL: z f(1 f ) 2,33 0,86 0,14  0,0256 n 1000 KhƯL cho p: (f-; f+) = (0,8344; 0,8856) = (83,44%;88,56%) Lưu ý: Vì p là 1 số chứ không phải BNN nên chỉ xảy ra 1 trong 2 khả năng: - Nếu p (0,8344; 0,8856) _ tức là kết quả đưa ra đúng. - Nếu p ( 0,8344; 0,8856)_ kết quả sai. Khoảng ƯL trên không chứa p. 33
  10. Ví dụ 4: Người ta muốn ước lượng tỉ lệ phế phẩm trong một lô hàng mới nhập về với độ tin cậy 99% và sai số không vượt quá 3%. Hãy cho biết để thỏa yêu cầu đó người ta phải kiểm tra ít nhất bao nhiêu sản phẩm với mỗi giả thiết sau: a) Chưa có thông tin gì liên quan đến tỉ lệ phế phẩm của lô hàng; b) Người ta đã lấy một mẫu sơ bộ thì thấy tỉ lệ phế phẩm trong mẫu này là 20%. Ví dụ 5: Để nghiên cứu độ ổn định của 1 loại máy tiện người ta đo ngẫu nhiên đường kính (có phân phối chuẩn và đơn vị là mm) 24 trục máy do loại máy tiện này làm ra thì có kết quả dưới đây. Với độ tin cậy 98 %, hãy ước lượng đường kính trung bình và độ phân tán của đường kính trục máy. 24,1; 27,2; 26,7; 23,6; 24,6; 24,5; 26,4; 26,1; 25,8; 27,3; 23,2; 26,9; 27,1; 25,4; 23,3; 25,9; 22,7; 26,9; 24,8; 24,0; 23,4; 23,0; 24,3; 25,4. 35
  11. 2 z s z s b) Từ công thức:  n n N, (làm tròn lên) n  2 2,58 1,8969 Do ' 0,3 n ' 266,1251 n ' 267. 0,3 KQ: Cần khảo sát thêm 267 – 100 = 167 cửa hàng nữa. Lưu ý: Trong công thức trên, ’; z ’ và n’ là các kí hiệu trong mẫu cần tìm. Nhưng giá trị s’ được lấy bằng giá trị s từ mẫu ban đầu đã có, mẫu này gọi là mẫu sơ bộ. Ví dụ 7: Biết rằng thời gian thi công một chi tiết máy tuân theo quy luật phân phối chuẩn. Để định mức thời gian gia công một chi tiết máy, người ta theo dõi ngẫu nhiên quá trình thi công của 25 chi tiết và có được số liệu ở bảng sau: Thời gian gia công (phút) 15-17 17-19 19-21 21-23 23-25 25-27 Số chi tiết máy tương ứng 1 3 4 12 3 2 37
  12. Ví dụ 9: Trọng lượng sản phẩm do một máy đóng gói là biến ngẫu nhiên tuân theo quy luật chuẩn với độ lệch chuẩn là 2,5 gram. Để ước lượng trọng lượng trung bình, người ta cân ngẫu nhiên 36 sản phẩm thì có được số liệu: x 124,5 gram ; s 2,35 gram a) Hãy ước lượng trọng lượng trung bình của sản phẩm với độ tin cậy 95%. b) Nếu muốn độ dài khoảng tin cậy không vượt quá 0,4 gram thì cần phải cân bao nhiêu sản phẩm? c) Nếu người ta sử dụng mẫu đã có và tìm được độ dài khoảng ước lượng đối xứng là 1 gram thì độ tin cậy tương ứng là bao nhiêu? 39
  13. Vì ta sẽ dựa vào thông tin thực nghiệm của mẫu để kết luận xem có thừa nhận các giả thiết nêu trên hay không nên công việc này gọi là kiểm định thống kê. - Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0), xây dựng trên mẫu ngẫu nhiên W= ( X1, X2, , Xn ) và tham số 0 liên quan đến H0; Điều kiện đặt ra với thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định. - Miền bác bỏ giả thiết W là miền thỏa P(G W /H0 đúng) = . là một số khá bé, thường không quá 0,05 và gọi là mức ý nghĩa của kiểm định. Có vô số miền W như vậy. - Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn kiểm định là thống kê gqs = G(x1 , x2 , , xn , 0) . Theo nguyên lý xác suất bé, biến cố G W có xác suất nhỏ nên với 1 mẫu thực nghiệm, nó không thể xảy ra. Do đó: 41
  14. Ví dụ: Người bán hàng nói rằng tỉ lệ phế phẩm trong mỗi lô hàng không quá 5%. Người mua quyết đinh kiểm ngẫu nhiên 10 sản phẩm, nếu được cả 10 sản phẩm tốt thì mới mua lô hàng. Sai lầm loại I xảy ra khi người mua từ chối mua hàng trong khi thực sự lô hàng có không quá 5% phế phẩm; là mức rủi ro cho bên bán. Sai lầm loại II xảy ra khi người mua nhận hàng nhưng tỉ lệ phế phẩm thực ra trên 5%;  chính là mức rủi ro cho bên mua. Với một mẫu xác định, khi ta giảm đi thì đồng thời sẽ làm tăng  và ngược lại. Chỉ có thể cùng giảm ,  nếu tăng kích thước mẫu. Người ta thường có xu hướng coi trọng xác suất mắc sai lầm loại I nên sẽ hạn chế trước giá trị tùy thực tế, và sau đó phải tìm miền W sao cho xác suất mắc sai lầm loại II là nhỏ nhất. Miền W thỏa yêu cầu này được gọi là miền bác bỏ tốt nhất dựa trên các cơ sở toán học chặt chẽ. 43
  15. Ví dụ minh họa cho các miền bác bỏ khi tiêu chuẩn kiểm định Z có phân phối chuẩn N(0,1). 1. Miền bác bỏ 2 phía: W = (- , - Z )  ( Z , + ) ()1 ở đây ()Z 2 2. Miền bác bỏ bên trái: W = (- , - Z2 ) ()12 ở đây ()Z2 2 3. Miền bác bỏ bên phải: W = ( Z2 , + )
  16. Ví dụ 9: Theo số liệu công bố của một công ty dịch vụ tin học, tỷ lệ khách hàng hài lòng với dịch vụ của công ty là 85%. Một khảo sát độc lập cho thấy trong mẫu gồm 145 khách hàng của công ty có 120 khách hàng hài lòng. Với mức ý nghĩa 3%, có thể coi số liệu của công ty là đáng tin cậy không? Hướng dẫn: Gọi p là tỉ lệ khách hàng hài lòng với dịch vụ của CT. Kích thước mẫu: n = 145; Tỉ lệ mẫu: f = 120/145= 0,8276 GtKđ H0: p = 85% Giả thiết đối H1: p ≠ 85% + Mức ý nghĩa = 3% (z ) = (1- 0,03)/2 = 0,485 z = 2,17 Miền b/bỏ W = ( - , - z )( z ,+ ) = (- ; - 2,17)  ( 2,17 ; + ) + Tiêu chuẩn kđ: fp 0 0,8276 0,85 Znqs 145 0,7559 pp00 1 0,85 1 0,85 Do Zqs W nên ta không bác bỏ H0. Có thể xem như số liệu của công ty là đáng tin. 47
  17. Ví dụ 10: Tỉ lệ bệnh nhân bị bệnh T được chữa khỏi bệnh bằng thuốc A là 85%. Khi dùng thuốc B điều trị thì trong 1100 bệnh nhân bị bệnh T người ta thấy có 903 người khỏi bệnh. Có thể nói rằng thuốc B điều trị ít hiệu quả hơn thuốc A được không, kết luận với mức ý nghĩa 4%? Hướng dẫn: + Gọi p là tỉ lệ BN khỏi bệnh khi dùng thuốc B. Kích thước mẫu: n = 1100; Tỉ lệ mẫu: f = 903/1100 . GtKđ H0: p = 85% Giả thiết đối H1: p < 85% + Myn = 4% (z2 ) = (1- 2*0,04)/2 = 0,46 z2 = 1,75 Miền bác bỏ W = (- ; z2 ) = (- ; - 1,75 ) 903 + Tiêu chuẩn kđ: 0,85 fp 0 1100 Znqs 1100 2,7021 pp00 1 0,85 1 0,85 + Do Zqs W nên bác bỏ H0, chấp nhận H1. Xem như tỉ lệ BN khỏi bệnh khi dùng thuốc B là thấp hơn so với dùng thuốc A. 49
  18. III.2.2 Bài toán kiểm định trung bình: GT KĐ GT đối Tiêu chuẩn kiểm định Miền bác bỏ H0 với mức ý nghĩa H0 H1 -Tổng thể phân phối - Tổng thể phân phối chuẩn, đã biết 2. chuẩn; - Chưa biết 2. - Hoặc tt tùy ý, n 30 - n a 0 Wα = (z2α, + ) Wα = (t , + ) SV cần sử dụng bảng công thức kiểm định so sánh 2 trung bình (BT 2 mẫu) đầy đủ hơn trong file kèm theo: “Tóm tắt công thức bài toán kiểm định trung bình 2 tổng thể ” 51
  19. + Tiêu chuẩn kđ: xa ( 0,55) ( 0,545) Zn 0 25 3,125 qs  0,008 + Do Zqs W nên bác bỏ H0, chấp nhận H1. Ta kết luận lượng sữa công ty mới mua đã bị pha nước. Ví dụ 13 Người ta đã thực hiện một cải tiến kỹ thuật trong bộ hòa khí của xe ôtô với hy vọng sẽ tiết kiệm được xăng hơn. Cho xe chạy thử 12 lần thì họ có số km chạy được cho 1 lít xăng: 20,6 20,5 20,8 20,8 20,7 20,6 21 20,6 20,5 20,4 20,3 20,7 Nếu trước khi cải tiến, 1 lít xăng trung bình chạy được 20,4 km thì với số liệu này người ta đã có thể kết luận việc cải tiến mang lại hiệu quả đáng kể hay không, với mức ý nghĩa 5% ? 53
  20. Ví dụ 14 Ở một phân xưởng, người ta định mức thời gian gia công 1 chi tiết cho mỗi công nhân là 12 phút. Sau khi thay đổi nguyên liệu đầu vào, người ta khảo sát ngẫu nhiên quá trình gia công của 50 chi tiết và thu được số liệu: Th ời gian gia công 10-10,5 10,5-11 11-11,5 11,5-12 12-12,5 12,5-13 13-13,5 1 chi tiết (phút) Số chi tiết t/ư 4 12 26 37 43 28 10 Với mức ý nghĩa 5%, hãy quyết định xem có cần thay đổi định mức gia công ở phân xưởng này hay không? Hướng dẫn: + Gọi a là thời gian gia công TB 1 chi tiết ở thời điểm hiện tại. + GTKĐ H0: a = 12 phút. GTĐ H1: a ≠ 12 phút + Miền bác bỏ W = ( - ; - 1,96) ( 1,96; + ) xa 11,9594 12 + Tckđ: Zn 0 160 0,7163 qs s 0,7170 + Do Zqs W nên chấp nhận H0. Không cần thay đổi định mức. 55
  21. Ví dụ 16 (tham khảo cho BTL) Khảo sát thu nhập ( đơn vị: triệu đồng) trong 3 tháng đầu năm của các công nhân trong 2 nhà máy có điều kiện làm việc như nhau, người ta có được kết quả: Nhà máy 1 18.5 19 19.3 20 20.2 21 21.5 19 19.7 20 Nhà máy 2 17.3 18 19 20 20.6 20.9 18.2 19.6 20.8 Với mức ý nghĩa 5%, có thể cho rằng thu nhập trung bình của công nhân 2 nhà máy đó trong 3 tháng đầu năm là như nhau hay không, biết thu nhập của công nhân ở 2 nhà máy có phân phối chuẩn và có phương sai bằng nhau. Hướng dẫn: Đây là bài toán t-test với giả thiết 2 phương sai tổng thể như nhau. Gọi a1; a2 là thu nhập trung bình 3 tháng đầu năm của công nhân 2 nhà máy.
  22. III.2.3 Bài toán kiểm định phương sai: ĐK của PP Giả Giả Tiêu chuẩn Miền bác bỏ H0 với mức ý nghĩa thiết thiết tổng thể kiểm định KĐ H0 đối H1 BT 2 2   0 2 2 1 Wα = [0,  (n 1) )  (  (n 1) , + ) -Bất kỳ khi 2 1 mẫu 2 2 mẫu lớn. 2 (nS 1) 2 2  = 2 2  0 -PP chuẩn, qs 2 2   0 W = (  (n 1) , + ) α 2 2 -Bất kỳ khi  1  2 2 S f (nn 1; 1) BT mẫu lớn. 1 Wα = ( 12, + ) Fqs 2 2 2 2 -PP chuẩn, S 2  1= 2 2 2 khi n nhỏ. 2 mẫu  1> 2 Wα = ( f (nn12 1; 1) , + ) - Chưa biết Luôn lưu ý Tra bảng Fisher a1,a2. đặt S1 > S2 Bài toán so sánh phương sai 2 tổng thể chỉ sử dụng trong BTL. Để xác định Miền bác bỏ 1 cách đơn giản thì khi thực hành ta có thể chọn mẫu 1 là mẫu có phương sai mẫu hiệu chỉnh lớn hơn. 59
  23. Ví dụ 18: (tham khảo cho BTL) Một nhà máy đang thử nghiệm 2 quy trình khác nhau cùng sản xuất một loại sản phẩm. Để kiểm tra sự ổn định của hàm lượng chất A trong các sản phẩm ở 2 quy trình có như nhau không, người ta khảo sát 2 mẫu và có được kết quả: Quy trình 1: n1 = 41 Độ lệch mẫu HC: s1 = 2,889 Quy trình 2: n2 = 30 Độ lệch mẫu HC: s1 = 2,113 Với mức ý nghĩa 5%, hãy nêu kết luận về sự đồng đều của hàm lượng chất A trong các sản phẩm ở 2 quy trình trên. Hướng dẫn: 2 2 Gọi 1 ; 2 là phương sai của hàm lượng chất A trong sp ở Qt1; Qt2. 2 2 2 2 Giả thiết kiểm định H0: 1 = 2 H1: 1 > 2 Miền bác bỏ W = ( f (n1-1; n2-1) + ) = ( 1,8; + ) Tiêu chuẩn kiểm định: S 2 2,8892 1 Fqs 22 1,8694 W S2 2,113 Từ đó bác bỏ giả thiết H0, chấp nhận H1. Hàm lượng chất A trong các sản phẩm ở quy trình 1 kém đồng đều hơn so với quy trình 2. 61
  24. * Giả thiết kiểm định H0: X,Y độc lập. Giả thiết đối H1: X, Y không độc lập. 2 * Miền bác bỏ W = (  (số hàng-1)*(số cột-1) ; + ) * Do giả thiết X,Y độc lập nên xác suất tính theo l{ thuyết là n m p = P(X= A ; Y= B ) = P(X= A )*P(Y= B ) = i * j ij i j i j nn suy ra tần số l{ thuyết là: nm* tong hang i* tong cot j ij Eij = n*pij = n kichthuoc mau Tính tiêu chuẩn kiểm định: 22 O E Observed Expected 2 ij ij ij ij qs  i;; jEij i j Expected ij 2 2 nij hoặc: qs n.1  ij; nmij * B4: Kết luận. 63
  25. + Giả thiết kiểm định H0: X, Y độc lập H1: X,Y không độc lập. 2 + Miền bác bỏ: W = ( (3-1)*(3-1) ; + ) = ( 9,49; + ). + Tính tiêu chuẩn kiểm định: Cách 1: Bảng tần số thực nghiệm Oij Bảng tần số lý thuyết Eij 90*80 90*70 60 15 15 90 200 200 15 45 10 70 5 10 25 40 40*50 80 70 50 200 200 2 OE 2 ij ij qs  84,7513 Wα Cách 2: ij; Eij 602 15 2 25 2 2 qs 200 1 84,7513 Wα 90 80 90 70 40 50
  26. Các bước tiến hành chung: + B1: Đặt giả thiết kiểm định: H0: Tổng thể có phân phối F(x) H1: Tổng thể không có phân phối F(x). Tính các đặc trưng mẫu cần thiết ở dạng ước lượng hợp l{ cực đại. 2 + B2: Tìm miền bác bỏ. W = (  (k-r-1); + ) k: số hàng ( cột) được chia trong bảng dữ liệu mẫu. r: số tham số chưa biết của phân phối F(x).( chính là số tham số cần ước lượng từ mẫu để sử dụng trong công thức tính các2 pi ). k OE + B3: Tính tiêu chuẩn kiểm định: 2 ii ;  qs  i 1 Ei ở đây Oi = ni là tần số từ mẫu thực nghiệm; Ei là tần số theo l{ thuyết nếu giả thiết H0 đúng. 2 + B4: Kết luận. Nếu  qs Wα thì ta bác bỏ giả thiết H0. Chấp nhận H0 trong trường hợp ngược lại 67
  27. Tra bảng Chi-Bình-Phương với k= 6 ; r = 1 tìm được : 22  (kr 1) 0,05 (6 1 1) 9,49 Miền bb W = ( 9,49; + ) pi = P(X= xi) 2 2 Oi -Ei nii np x n  O  x n*p  E i i i e  i i i  = Ei npi (xi )! 0 135 0.1703 170.3 7.3293 1 344 0.3015 301.49 5.9941 2 257 0.2668 266.82 0.3613 3 165 0.1574 157.42 0.3647 4 78 0.0697 69.660 0.9986 5 21 0.0247 24.659 0.5430 n=1000 Tổng: 2 = 15.59106 qs 2 2 OEii Do qs  15,59106 W nên bác bỏ H0. i Ei Số tai nạn trong các gia đình không tuân theo phân phối Poisson.
  28. Miền bác bỏ W = ( 13,28; + ). Tính tiêu chuẩn kiểm định: pi = P( <X<) 2 2 Oi -Ei nii np Khoảng ni  Oi n*pi  Ei  β-a α-a E np ( ; ) =  -Φ i i σσ (- ; 15) 15-a 1.719326  - 0,5 = 0.0231 25 σ 19.24739 (15; 25) 25-a 15-a  -Φ = σσ 67 0.0956 79.34329 (25; 35) 191 0.2368 196.5558 (35; 45) 273 0.3146 261.1563 (45; 55) 202 0.2244 186.2239 (55; 65) 54 0.0858 71.2126 (65;+ ) 65-a 0,5 -Φ = 0.0196 16.26082 18 σ 2 n= 830 =1 Tổng:  qs= 10.01663
  29. Ví dụ 22: ( Kiểm định sự phù hợp ) Một công ty dược phẩm cho biết lượng thuốc cảm họ bán ra hàng năm thay đổi theo mùa. Lượng thuốc cảm bán ra vào mùa đông chiếm 40%; 30% lượng thuốc bán được vào mùa xuân, còn lại chia đều vào 2 mùa thu và mùa hè. Để đánh giá xem lượng thuốc năm nay có phân bố theo mùa như mọi năm hay không, người ta khảo sát ngẫu nhiên hồ sơ của 1000 lô thuốc được tiêu thụ trong năm và có số liệu: Được bán vào mùa Xuân : 282 hộp . Hè : 185 hộp . Thu : 159 hộp . Đông: 374 hộp Với mức ý nghĩa 1%, hãy nêu kết luận cho yêu cầu bài toán? 73
  30. Ví dụ 24: Kiểm định phân phối đều rời rạc. Để kiểm tra sự cân đối giữa các mặt của 1 con xúc xắc, người ta tung ngẫu nhiên con xúc xắc đó 120 lần và thống kê được kết quả sau: Mặt xuất hiện 1 2 3 4 5 6 Số lần xuất hiện 23 19 24 21 18 15 Với mức ý nghĩa 5%, có thể xem con xúc xắc này là cân đối hay không? Hướng dẫn: Gọi X là số chấm xuất hiện khi tung con xúc xắc. Giả thiết kiểm định H0: X có phân phối đều rời rạc, hay là con xúc xắc cân đối. Giả thiết đối H1: Con xúc xắc không cân đối. 75