Bài tập lớn Xác xuất thống kê - Nhóm 10

Bài làm:

  1. Dạng toán: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ
  2. Cơ sở lý thuyết:

Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).

Mô hình:

Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:

docx 38 trang thamphan 28/12/2022 1700
Bạn đang xem 20 trang mẫu của tài liệu "Bài tập lớn Xác xuất thống kê - Nhóm 10", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • docxbai_tap_lon_xac_xuat_thong_ke_nhom_10.docx

Nội dung text: Bài tập lớn Xác xuất thống kê - Nhóm 10

  1. Trường đại học Bách Khoa TPHCM KHOA KHOA HỌC ỨNG DỤNG oOo BÀI TẬP LỚN XÁC XUẤT THỐNG KÊ Nhóm 10 GVHD: PGS-TS NGUYỄN ĐÌNH HUY Người thực hiện: Lê Công Hậu MSSV: 51101058 NHÓM : 10
  2. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 Mô hình vuông la tinh ba yếu tố được trình bày như sau: Yếu tố C (T k. Ví dụ: T 1 = Y111 + Y421 + Y331 + Y241) Yếu tố B Yếu tố A B1 B2 B3 B4 A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1 A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2 A3 C3 Y313 C4 Y324 C1 Y331 C2 Y342 T3 A4 C4 Y414 C1 Y421 C2 Y432 C3 Y443 T4 T.i. T.1. T.2. T.3. T.4. Bảng ANOVA: Nguồn sai Bình phương Bậc tự do Tổng số bình phương Giá trị thống kê số trung bình Yếu tố A r T 2 T 2 SSR MSR i MSR= (r-1) SSR =  2 FR= (Hàng) i 1 r r (r 1) MSE Yếu tố B r T 2 T 2 SSC MSC . j. MSC= (r-1) SSC =  2 FC= (Cột) j 1 r r (r 1) MSE r T 2 T 2 SSF MSF k MSF= F= Yếu tố C (r-1) SSF =  2 k 1 r r (r 1) MSE SSE = SST – SSE Sai số (r-1)(r-2) MSE= (SSF + SSR + SSC) (r 1)(r 2) T 2 2 Y 2 Tổng cộng (r -1) SST =  ijk 2 i j r r LÊ CÔNG HẬU 51101058 3
  3. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 - Các giá trị T k Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3) Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4) Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5) Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2) - Giá trị T Chọn ô B10 và nhập biểu thức =SUM(B2:E5) Tính các giá trị G và G -Các giá trị G và G Chọn ô B10 và nhập biểu thức =SUMSQ(B7:E7) Dùng con trỏ kéo kí hiệu tự điền từ ô G7 tới G9 -giá trị G Chọn ô G10 và nhập biểu thức =POWER(B10,2) -giá trị G Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5) Tính các giá trị SSR. SSC. SSF. SST và SSE -Các giá trị SSR. SSC và SSF Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2) Dùng con trỏ kéo kí hiệu tự điền từ ô I7 tới I9 -Giá trị SST Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2) -Giá trị SSE Chọn ô I10 và nhập biểu thức =I11-SUM(J7:I9) Tính các giá trị MSR. MSC. MSF và MSE -Các giá trị MSR. MSC và MSF Chọn ô K7 và nhập biểu thức =K7/(4-1) Dùng con trỏ kéo kí hiệu tự điền từ ô K7 tới ô K9 -Giá trị MSE Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2)) Tính giá trị G và F Chọn ô M7 và nhập biểu thức =K7/0.3958 Dùng con trỏ kéo kí hiệu tự điền từ ô M7 tới ô M9 LÊ CÔNG HẬU 51101058 5
  4. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 Thời gian (phút) Nhiệt độ (0C) Hiệu suất (%) X1 X2 Y 15 105 1.87 30 105 2.02 60 105 3.28 15 120 3.05 30 120 4.07 60 120 5.54 15 135 5.03 30 135 6.45 60 135 7.26 Hãy cho biết yếu tố nhiệt độ và thời gian/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115 0C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu? Bài làm: 1. Dạng toán: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ 2. Cơ sở lý thuyết: Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập Xi (I = 1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản. Phương trình tổng quát: Ŷx0,x1, ,xk = B0 + B1X1 +B2X2 + + BkXk LÊ CÔNG HẬU 51101058 7
  5. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 H1: βi 0 “Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi”. Bậc tự do của giá trị F: v1 = 1, v2 = N – k – 1. 3. Phần mềm: Micsrosoft Excel 2010. 4. Chương trình: Regression. 5. Phương pháp giải bài toán trên Excel 2010. ✓ Bước 1:Nhập dữ liệu vào bảng tính: Dữ kiệu nhất thiết phải được nhập theo cột: ✓Bước 2 : Nếu trong menu Tools chưa có mục Data Analysis , tiến hành cài Analysis ToolPak như sau : Chọn File/Option/Add-Ins/Data Analysis Tool Pak /Go / Analysis Tool Pak /OK như trong hình : LÊ CÔNG HẬU 51101058 9
  6. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 µ Phương trình hồi quy Y X1 f (X1) µ 2 Y X1 = 2,73 + 0,04X1 (R = 0,21; S = 1.81) LÊ CÔNG HẬU 51101058 11
  7. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 Kết Luận: Yếu tố thời gian không liên quan tuyến tính tới hiệu suất của phản ứng tổng hợp. µ Phương trình hồi quy:Y X 2 f (X 2 ) µ 2 Y X 2 = 2,73 + 0.04X2 (R = 0,76; S = 0,99) LÊ CÔNG HẬU 51101058 13
  8. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 Kết Luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp. µ Phương trình hồi quy Y X1 ,X 2 f (X1, X 2 ) µ 2 Y X1 ,X 2 -12,70 + 0,04X1 + 0.13X2(R = 0,97; S = 0,33) LÊ CÔNG HẬU 51101058 15
  9. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 Vậy cả 2 hệ số -12.70 (B 0); 0,04 (B1) và 0,13(B2) của phương trình hồi quy µ Y X1 ,X 2 -12,70 + 0,04X1 + 0,13X2 đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này thích hợp. Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ. µ Sự tuyến tính của phương trình Y X1 ,X 2 -12,70 + 0,04X 1 + 0,13X2 có thể được trình bày trên biểu đồ phân tán (scatterplots): 8 7 6 5 4 3 2 dự đoán (Y') Hàm lượng 1 0 0 1 2 3 4 5 6 7 8 9 10 Hàm lượng thực nghiệm (Y) µ Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy : Y X1 ,X 2 - 12,70 + 0,04X1 + 0,13X2, bạn chỉ cần chọn một ô, ví dụ B21, sau đó nhập hàm và được kết quả như sau: Ghi chú: B17 tọa độ của B0, B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá trị của X1 (thời gian) và 115 là giá trị của X2 (nhiệt độ) LÊ CÔNG HẬU 51101058 17
  10. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 GIÁ TRỊ THỐNG KÊ: Gía trị R-bình phương (R-square): SSR R (100R2: % của biến đổi trên Y đượcgiải thích bởi X) SST Độ lệch chuẩn (Standard Error) n 1 2 S (Yi Y 'i ) N 2 i 1 (Sự phân tán của dữ liện càng ít thì giá trị của S càng gần zero). Trắc nghiệm thống kê: µ Đối với một phương trình hồi quy Y X B0 BX , ý nghĩa thống kê của các hệ số Bi (B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất thích hợp của phương trình Yµ X f (X ) được đánh giá bằng trắc nghiệm F (phân bố Fischer) Trắc nghiệm t: - Giả thiết: H0: βi = 0 “Hệ số hồi quy không có ý nghĩa” H0: βi ≠ 0 “Hệ số hồi quy có ý nghĩa” - Giá trị thống kê: B  S 2 B t i i ;S 2 2 n n 2 2 Sn Sn (X i X ) i 1 Phân bố Student  = N – 2 - Biện luận: Nếu t < tα (N - 2) chấp nhận giả thiết H0. Trắc nghiệm F: - Giả thiết: H0: βi = 0 “Hệ số hồi quy không thích hợp” H0: βi ≠ 0 “Hệ số hồi quy thích hợp” LÊ CÔNG HẬU 51101058 19
  11. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 ✓ Bước 3: Sử dụng “Regression” a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis b) Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK c) Trong hộp Regression, lần lượt ấn định các chi tiết: - Phạm vi của biến số Y (Input Y Range) - Phạm vi của biến số X (Input X Range) - Nhãn dữ liệu (Labels) - Mức tin cậy (Confidence Level) - Tọa độ đầu ra (Output Range) - Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (residuals plots ) LÊ CÔNG HẬU 51101058 21
  12. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 Kết luận: a) Đường hồi quy của Y đối với X: Yµ X 1.739476701 1.547892012X b) Sai số tiêu chuẩn 0.289645139 c) Tỷ số F = 12.6367483 Tra bảng phân phối Fisher với bậc tự do (3,4) ở mức 5% bằng cách nhập hàm c = FINV(0.05,1,7) ta được giá trị c = 5.591447851 Vì F > c nên ta bác bỏ Ho. Vậy ta khẳng định Hệ số góc α của đường thẳng hồi quy của Y đối với X khác 0 Câu 3: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ 50 – 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930. Nhóm tuổi Thu nhập 0 – 1 1 – 2 2 – 3 3 – 4 4 – 6 6 40 – 50 71 430 1072 1609 1178 158 50 – 60 54 324 894 1202 903 112 Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề hay không? Mức ý nghĩa = 2%. Bài làm: LÊ CÔNG HẬU 51101058 23
  13. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 k n j xij T xij i 1 j 1 x  n n n ở đó n = n 1 + n2 + + nk; T = T1 + T2 + + Tk. *) Tổng bình phương chung ký hiệu là SST (viết tắt là chữ Total Sum of Squares) được tính theo công thức sau: n1 n2 nk 2 2 2 STT  xi1 x  xi2 x   xik x i 1 i 1 i 1 n n k j 2  xij x j 1 i 1 có thể chứng minh rằng n1 n2 nk T2 STT x2 x2  x2  i1  i2  ik n i 1 i 1 i 1 2 2 T xij i,j n +) Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữ Sum of Squares for Factor) được tính theo công thức sau: k 2 SSF ni xi x i 1 T2 T2 T2 T 1 2  k 2 n1 n2 nk n +) Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ Sumof Squares for the Error) được tính theo công thức: n1 n2 nk 2 2 2 SSE  xi1 x  xi2 x2   xik xk i 1 i 1 i 1 n1 2 n2 2 nk 2 2 T1 2 T2 2 Tk xi1 xi2  xik i 1 n1 i 1 n2 i 1 nk T2 T2 x2 1  k  ij n1 nk Từ công thức trên ta thấy SST = SSF + SSE + Trung bình bình phương của nhân tố, ký hiệu là MSF (viết tắt của chữ Mean Square for Factor) được tính bởi công thức: LÊ CÔNG HẬU 51101058 25
  14. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 ✓ Bước 2: Áp dụng “ANOVA: Single Factor” a) Nhấp lần lượt đơn lện Tools và lệnh Data Analysis. b) Chọn chương trình ANOVA: Single Factor trong hộp thoại Data Analysis rồi nhấp nút OK c) Trong hộp thoại ANOVA: Single Factor, lần lượt ấn định: - Phạm vi đầu vào (Input Range) - Cách sắp xếp theo hàng hay theo cột (Group By) - Nhãn dữ liệu (Labels in First Row/ Column) LÊ CÔNG HẬU 51101058 27
  15. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 chính C. Dấu hiệu này nói chung thay đổi từ cá thể này sang cá thể khác. Nếu dấu hiệu này biểu thị được bởi một con số, hay nói cách khác có thể gán số đo cho dấu hiệu này lên các cá thể, thì ta nói dấu hiệu này là một biến lượng hay là một dấu hiệu định lượng. Chẳng hạn nếu cad thể là người thì biến lượng có thể là chiều cao, trong lượng, tuổi tuy nhiên trong thực tế có những dấu hiệu không thể đo đạc để biểu diễn bằng con số được. Chẳng hạn màu tóc, màu mắt của một người, cảm giác hạnh phúc, sự yêu thích một cuốn phim nào đó Đó đều là những dấu hiệu không đo đạc được. Ta gọi đó là những dấu hiệu định tính. Trong mục này ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài toán kiểm định tính độc lập của dấu hiệu định tính A và B. Ta chia dấu hiệu A ra làm r mức độ A 1, A2, , Ar, và chia đặc tính B làm k mức độ B1, B2, , Bk. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở mức Ai nào đó và mang dấu hiệu B ở mức B j nào đó. Giả sử nij là số cá thể có các dấu hiệu Ai và Bj. Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu (Contingency Table). A B B B Tổng B 1 2 k A1 n11 n12 n1k n10 A2 n21 n22 n2k n20 Ar nr1 nr2 nrk nr0 Tổng n01 n02 n0k n Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu A i và Bj ; pjo và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj. Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau: pij = pio.poj Các xác suất pio và poj được ước lượng bởi ˆ n p io , io n ˆ noj p oj n LÊ CÔNG HẬU 51101058 29
  16. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 ✓ Bước 1: Nhập dữ liệu vào bảng ✓ Bước 2: Tính tổng cột , tổng hàng Chọn ô B6 và nhập biểu thức =SUM(B3:B5) Dùng con trỏ kéo kí hiệu tự điền từ ô B6 đến ô D6 Chọn ô E3 và nhập biểu thức =SUM(B2:D2) Dùng con trỏ kéo kí hiệu tự điền từ ô E3 đến ô E6 ✓ Bước 3: Tính dữ liệu kỳ vọng  ij theo công thức:  ij = Tổng hàngi * Tổng cộtj / n Chọn ô B12 và nhập biểu thức = =B$6*$E3/$E$6 Dùng con trỏ kéo kí hiệu tự điền từ ô B12 đến ô D14 LÊ CÔNG HẬU 51101058 31
  17. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 c n jo  n jk k 1 r nok n jk j 1 n n jo nok j k n jk x jk xijk k i k x jo trung bình của mức Aj n jo n jo n jk x jk xijk j i j xok trung bình của mức Bk nok nok x jk x = trung bình chung =  x n ok Ta có bảng sau đây ghi các kết quả tính toán trên: A Trung bình B1 B2 Bk Bc B dòng Aj x A1 x11 x12 x1k 1c x10 x A2 x21 x22 x2k 2c x20 x x x x x Aj j1 j2 jk jc j0 x x x x x Ar r1 r2 rk rc ro Trung bình cột x o1 x o2 x oc x Bk + Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau: c r n jk 2 SST  xijk x k 1 j 1 i 1 + Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau: c 2 SSFB  nok xok x k 1 + Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức c r n jk 2 SSF  xijk x jk k 1 j 1 i 1 LÊ CÔNG HẬU 51101058 33
  18. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 + Nếu FA > f (r – 1, n – cr) thì ta bác bỏ giả thiết. A Ho : “Các mức A1, Ar có hiệu quả trung bình như nhau” + Nếu FB > f (c – 1, n – cr) thì ta bác bỏ giả thiết: B Ho : “Các mức B1, B2, Bc có hiệu quả trung bình như nhau” Nếu FAB > f ((r – 1)(c – 1), n – rc) Ta bác bỏ giả thiết: AB Ho : “Có sự tương tác giữa A và B”. Trên thực hành tính toán chúng ta thực hiện như sau: Giả sử Tjk là tổng các giá trị trong mẫu (j, k). Ký hiệu c r Tjo  Tjk , Tok Tjk k 1 j 1 c r n jo  n jk , nok n jk k 1 j 1 T Tjo Tok xijk n n jo nok 2 A xijk (3) Ta có các đẳng thức sau: T2 SST A (4) n r 2 2 Tjo T SSFA  (5) j 1 n jo n c 2 2 Tok T SSFB  (6) k 1 nok n c r T2 SSE A  jk (7) k 1 j 1 n jk SSI SST SSFA SSFB SSE (8) Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì: n jo cm, nok rm LÊ CÔNG HẬU 51101058 35
  19. BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012 c) Trong hộp thoại ANOVA: Two-Factor With Replication lần lượt ấn định các chi tiết: - Phạm vi đầu vào (Input Range) - Nhãn dữ liệu (Labels in First Row/Column) - Ngưỡng tin cậy (Alpha) - Phạm vi đầu ra (Output Range) LÊ CÔNG HẬU 51101058 37