Báo cáo bài tập lớn Xác suất thống kê

Bài 1:

Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:

1) Thực hiện phương pháp phân tổ dữ liệu (A).

2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với 

độ tin cậy 96% (A).

4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không.

docx 34 trang thamphan 28/12/2022 2600
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo bài tập lớn Xác suất thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • docxbao_cao_bai_tap_lon_xac_suat_thong_ke.docx
  • xlsxBáo cáo xác suất thống kê.xlsx

Nội dung text: Báo cáo bài tập lớn Xác suất thống kê

  1. ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN: TOÁN ỨNG DỤNG o0o BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ  GVHD: Nguyễn Kiều Dung Nhóm 9 - L08 1. Lê Quang Đức L08-A 1510787 2. Trần Văn Đức L08-A 1510818 3. Nguyễn Kinh Khoa L08-A 1411833 4. Nguyễn Trung Hiếu L08-A 1511027 5. Hoàng Thanh Huỳnh L08-B 1511330 6. Nguyễn Hoài Nam (NT) L08-B 1512083 7. Phan Thế Nam L08-B 1512100 8. Phan Phạm Quốc Thái L08-C 1513029 9.Phạm Minh Tuấn L08-C 1513862 1
  2. MỤC LỤC: Bài 1: 3 Bài 2: 15 Bài 3: 18 Bài 4: 23 Bài 5: 29 TÀI LIỆU THAM KHẢO: 34 3
  3. 1 + Xác định số tổ cần chia: k = (2 푛)3. Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3). Kết quả: 4.160167646 Chọn k = 4. ( ― 푖푛) + Xác định trị số khoảng cách h theo công thức: h = . Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4. Kết quả: 3.5 Chọn h =4. + Ta xác định được các cận trên và cận dưới các tổ lần lượt là: Tổ 1: 12 – 16. Tổ 2: 16 – 20. Tổ 3: 20– 24. Tổ 4: 24 - 28 Nhập vào các ô từ A8 đến A11 lần lượt các giá trị: Chọn chức năng Data/ Data Analysis/Histogram. + Input Range: địa chỉ tuyệt đối chứa dư liệu. + Bin Range: địa chỉ chứa bảng phân nhóm. + Output options: vị trí xuất kết quả. + Confidence Level for Mean: độ tin cậy cho trung bình. + Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số. 5
  4. _ Vẽ đa giác tần số: + Sử dụng bảng phân phối tần số của dữ liệu (A): + Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số: + Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert 7
  5. 3.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A). _ Nhập dữ liệu vào bảng tính: Chọn chức năng Data/Data Analysis/Descriptive Statistics. + Input Range: địa chỉ tuyệt đối chứa dư liệu. + Output options: vị trí xuất kết quả. + Confidence Level for Mean: độ tin cậy cho trung bình. 9
  6. 4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. a. Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên có thành thạo một ngôn ngữ lập trình nào đó hay không (1: thành thạo, 0: không thành thạo) 1 1 1 0 1 0 1 1 1 0 1 1 1 0 0 1 1 0 1 1 0 0 0 1 1 1 0 0 1 0 0 0 1 1 0 1 0 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0 0 0 0 0 1 • Bảng phân phối tần số, tần suất: x n f 0 23 0,383333 1 37 0,616667 ∑ 60 1 11
  7. 5. Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không. Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? (độ tin cậy 96%) Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn. Giả thuyết đối kiểm định H1: Mẫu không phù hợp với phân phối chuẩn. Tính các đặc trưng mẫu: n = 36 x = 19.4167 ^ s = 4.2582=(STDEVP(A1:A36)) + x là ước lượng hợp lý cực đại cho a => a=19.4167 + s^2 là ước lượng hợp lý cực đại cho  2 => σ = 4.2582 2 Với k = 4, r = 2 =>  (k r 1) = 4.2179 (=CHIINV(0.04,1) Miền bác bỏ: W = (4.2179; +∞) Tiêu chuẩn kiểm định:  a a Pi= P( ) – P( ) Khoảng ni   (Hàm NORMSDIST) (-∞;16) 11 =NORM.S.DIST((16-D5)/D6,TRUE)-0 =NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16- (16;20) 11 D5)/D6,TRUE) =NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20- (20;24) 10 D5)/D6,TRUE) (24;+∞) 4 =1 - NORM.S.DIST((24-D5)/D6,TRUE) 13
  8. Bài 2: Hai máy cùng gia công một loại chi tiết. Để kiểm tra xem 2 máy này có củng độ chính xác như nhau hay không, người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, đem đo và thu được kết quả sau (đơn vị mm): Máy A 137 138 135 140 138 137 139 Máy B 142 135 140 138 136 138 141 Có thể cho rằng 2 máy có độ chính xác như nhau hay không, với mức ý nghĩa 2%? Giả thiết rằng kích thước chi tiết có phân phối chuẩn. Bài làm: Cơ sở lý thuyết: Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể. Công cụ: F-Test Two-Sample for Variances. Khi cần kiểm định hai tổng thểcó mức độ đồng đều nhưnhau hay không chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau: 2 s1 F 2 s2 Trong đó: S1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1 S2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2. Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số,và như vậy mẫu tương ứng với phương sai đó là mẫu thứnhất. - Giả thiết đặt ra là kiểm định hai bên: 2 2 2 2 H0: 1  2 vàH1:1  2 Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng h ộ gi ả thuyết HoNếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (d 1=n1-1 gắn liền với mậu thứ nhất và bậc tự do mẫu số gắn liền với mẫu thứ hai (d 2=n2-1) 15
  9. Kết quả: 17
  10. X1 X2 Xk X11 X12 X1k X21 X22 X2k Xn(1)1 Xn(2)2 Xn(k)k Với mức ý nghĩa α ta kiểm định giả thiết: -H0: a1=a2= =ak H1: “Tồn tại j1≠j2 sao cho aj1≠aj2 Đặt: k Tổng quan sát: n n j j 0 Trung bình mẫu thứ j (j=1, 2, , k): n n j j 1 Tj x j  xij v ớiTj  xij n j j 1 n j i 1 Trung bình chung 1 k n j T k n j k x  xij v ớiT  xij Tj n j 1 i 1 n j 1 i 1 j 1 Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor: k 2 SSF n j (x j x) j 1 Tổng bình phương độ lệch do sai số Sum of Squares for Error k n j 2 SSE (xij x j ) j 1 i 1 Tổng bình phương độ lệch chung Total Sum of Squares: 19
  11. o Input Range: địa chỉ tuyệt đối chứa dữ liệu. o Output options: vị trí xuất kết quả. o Alpha: mức ý nghĩa α. Kết quả: • Biện luận: 21
  12. Bài 4: Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A,B,C,D,E. Người ta yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống. Kết quả được cho như sau: Thành phố Mức độ thỏa mãn Rất thỏa Tương đối Không mãn A 220 121 63 B 130 207 75 C 84 54 24 D 156 95 43 E 122 164 73 Với mức ý nghĩa = 3%. Hãy kiểm định xem mức độ thỏa mãn có phân bố giống nhau ở 5 thành phố trên hay không? Bài làm: •Dạng bài: kiểm định giả thiết về tỷ lệ. • Phương pháp giải: Áp dụng kiểm định chi bình phương χ2 • Công cụ giải: hàm CHITEST trên EXCEL. •Cơ sở lý thuyết: Theo thống kê, kiểm định chi bình phương hay kiểm tra χ2 (“đôi khi đọc là khi bình phương”) là một họ các phương pháp kiểm định giả thuyết thống kê trong đó thống kê kiểm định tuân theo phân bố χ2 nếu giả thuyết là không đúng.Chúng gồm: • Kiểm định chi bình phương Pearsom. • Kiểm định chi bình phương Yates. • Kiểm định chi bình phương Mantel-Haenszel. • . -Dạng thống kê kiểm định thông dụng nhất là: (o e)2  2 e -Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác. -Xét một bộ A gồm r tính trạng, A= ( 1, 2 , r), trong đó mỗi cá thể của tập hợp chính H có và chỉ có một trong các tính trạng (hay phạm trù ) i. 23
  13. r k n  i 1ni0  j 1n0 j là tổng số tất cả các cá thế của k mẫu đang xét - Nếu giả thuyết o là đúng nghĩa là: 1 2 1 = 1 = = 1 1 2 2 = 2 = = 2 1 2 푖 = 푖 = = 푖 = 푖 1 2 = = = = ^ ni0 -Thì các tỷ lệ chung p1 ,p2, pr được ước lượng bởi p . i n -Đo ước lượng cho xác suất để một cá thể có mang tính trang j.Khi đó số cá thể có tính trạng j trong mẫu thứ j sẽ xấp xỉ bằng: n n n^ n p^ oj io ij 0 j i n ^ -Các số nij (i 1,2, ,r; j 1,2, k) được gọi là các tần số lý thuyết(TSLT), cácsố 푛ijđược gọi là các tần số quan sát (TSQS). -Ta quyết định bác bỏ o khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây: (n n^ )2 (TSQS TSLT )2 T k r ij ij  f 1 i 1 ^  . nij TSLT -Người ta chứng minh được rằng nếu ođúng và các TSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ với (k-1).(r-1) bậc tự do. Thành thử miền bác bỏ có dạng {T>c} ở đó c được tìm từ điêu kiện P{T>c} = 훼. Vậy c là phân vị mức 훼 của phân bố χ2với (k-1).(r-1) bậc tự do. 25
  14. Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng. 1: Chọn B13: nhập =E3*$B$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17. 2: Chọn C13: nhập =E3*$C$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17. 3: Chọn D13: nhập =E3*$D$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17. o Áp dụng hàm số CHITEST tính giá trị 푃( >휒2). o Chọn A20, nhập =CHITEST(B3:D7,B13:D17), rồi Enter. 27
  15. Bài 5: Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu: 1) Tìm hệ số tương quan giữa X, Y. 2) Quan hệ giữa X, Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X. 3) Tìm sai số chuẩn của ước lượng. Dữ liệu sử dụng: Khảo sát lượng dầu tiêu thụ trung bình của một động cơ làm việc trong 14 lần khác nhau. ( mặc định độ tin cậy 95%). Thời gian Lượng dầu (phút) tiêu thụ (ml) 20 250 30 400 22 260 26 320 26 320 27 340 29 380 35 500 34 480 25 300 33 460 31 420 28 360 32 440 29
  16. 2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X. ➢ Cơ sở lý thuyết: Giả thiết H0: X và Y không có tương quan tuyến tính: 푅 푛 ― 2 = 1 ― 푅2 ➢ Thực hiện trên Excel: • Tính T: chọn ô F4 và nhập biểu thức =F3*SQRT(14-2)/SQRT(1-F3^2). • Tính c: chọn ô F5 và nhập biểu thức =TINV(0.05,12) (c là phân vị mức α/2=0.025 của phân bố Student với n-2=12 bậc tự do). Vì |T| > c nên bác bỏ giả thiết H0. Vậy: X và Y có tương quan tuyến tính. Ước lượng đường hồi quy tuyến tính Y theo X. ➢ Cơ sở lý thuyết: • Phương trình hồi quy tuyến tính: 푆 = + , = , = ― 푠 푆 • Kiểm định hệ số a, b: + Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0). + H1: Hệ số hồi quy có ý nghĩa (≠0). + Trắc nghiệm t < t ,n-2: chấp nhận H0. • Kiểm định phương trình hồi quy: 31
  17. Kết quả: ➢ Biện luận: Phương trình hồi quy: Y = −133,786 + 17.84676x Hệ số hồi quy: 1,49E-05=1,49.10-5 < 0.05 Hệ số tự do không có ý nghĩa. 4,6E-12 = 4,6.10-12< 0.05 Hệ số của x không có ý nghĩa. Phương trình hồi quy tuyến tính này không thích hợp vì 4,6E- 12=4,6.10-12 < 0.05. 3) Tìm sai số chuẩn của ước lượng: Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số. chuẩn của ước lượng: - Đối với biến tự do: SE = 19,1892. - Đối với biến X: SE = 0,6675. 33