Báo cáo Bài tập lớn Xác suất thống kê - Nguyễn Kiều Dung

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:

1) Thực hiện phương pháp phân tổ dữ liệu (A).

2) Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ mật độ với dữ liệu (A).

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 95% với dữ liệu (A).

4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không (lưu ý phải sử dụng các hàm thống kê trong excel).

52 trang thamphan 8460

Download

Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Bài tập lớn Xác suất thống kê - Nguyễn Kiều Dung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

bao_cao_bai_tap_lon_xac_suat_thong_ke_nguyen_kieu_dung.docx

Nội dung text: Báo cáo Bài tập lớn Xác suất thống kê - Nguyễn Kiều Dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM Khoa Kỹ Thuật Xây Dựng BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ HK 182 Giáo viên hướng dẫn: Nguyễn Kiều Dung Nhóm 05 Đề tài 05
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1) Thực hiện phương pháp phân tổ dữ liệu (A). 2) Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ mật độ với dữ liệu (A). 3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 95% với dữ liệu (A). 4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. 5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không (lưu ý phải sử dụng các hàm thống kê trong excel). Tài liệu tham khảo chính cho các yêu cầu từ 1) - 4) là sách Thống kê ứng dụng, Chương số 3. Số các khoảng chia theo hướng dẫn của sách là một công thức để tham khảo. Khái niệm biểu đồ mật độ không được trình bày trong sách này. Bài làm Dạng bài: Thống kê mô tả. Dữ liệu (A): Khảo sát thời gian tự học của 36 sinh viên trong một ngày ta có bảng số liệu: Thời gian (phút) 120 240 60 60 60 120 240 240 180 60 240 240 240 60 120 60 180 480 120 60 120 180 480 180 120 360 120 60 60 60 120 120 60 120 240 60
- Ta xác định được các cận trên và cận dưới các tổ lần lượt là: • Tổ 1: 60 – 165 • Tổ 2: 165 – 270 • Tổ 3: 270 – 375 • Tổ 4: 375 – 480 - Nhập vào các ô từ A12 đến A16 lần lượt các giá trị - Chọn chức năng Data/ Data Analysis/Histogram. Trong đó: + Input Range: Địa chỉ tuyệt đối chứa dư liệu. + Bin Range: Địa chỉ chứa bảng phân nhóm. + Output options: Vị trí xuất kết quả. + Confidence Level for Mean: Độ tin cậy cho trung bình. + Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số. - Ta được kết quả:
- Kết quả: b. B i ể u đ ồ t ích lũy tần số - Chọn quét bảng tần số từ C2 đến C5 - Dùng chức năng Insert Line trên menu Insert
+ Output options: vị trí xuất kết quả. + Confidence Level for Mean: độ tin cậy cho trung bình. - Kết quả:
- Biểu đồ cột: - Quét chọn cột từ A2 đến B7 - Dùng chức năng Insert /Insert Column Chart/2-D Column trên menu Insert. - Kết quả - Biểu đồ tròn: - Quét cột A2 đến C7 - Dùng chức năng Insert/Insert Pie/2-D Pie trên menu Insert.
Bài 2: Theo dõi doanh số bán hàng trong mỗi ngày của 2 cửa hàng, người ta thu được kết quả sau: Cửa 8.8 8.3 5.4 6.2 5.6 6.3 7.4 8.4 7.9 7.2 6.5 6.2 7.4 7.5 hàng 1 Cửa 8.8 9.0 5.1 4.2 4.1 5.8 6.3 6.7 5.6 6.7 8.7 7.6 hàng 2 Với mức ý nghĩa 3%, có thể cho rằng doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau hay không? Giả thiết doanh số bán hàng mỗi ngày của các cửa hàng tuân theo quy luật chuẩn. BÀI LÀM - Dạng bài: Kiểm định giả thuyết cho phương sai 2 tổng thể - Công cụ: F-Test Two-Sample for Variances - Cơ sở lý thuyết: + Khi cần kiểm định 2 tổng thể có biến động như nhau hay không ta dùng phương pháp kiểm định định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau: 2 푠1 퐹 = 2 푠2 2 Với: 푠1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1 2 푠2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2 + Để xác định mẫu thứ nhất, mẫu thứ hai ta làm như sau: Khi tính F, giá trị phương sai lớn hơn sẽ được đặt ở tử số, như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất. + Giả thiết đặt ra là kiểm định hai bên: 2 2 0: 휎1 = 휎2
THỰC HIỆN BÀI TOÁN BẰNG EXCEL - Nhập dữ liệu vào bảng tính: - Vào Data/ Data Analysis/ F-Test Two-Sample for Variances. - Chọn các mục như hình: + Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2 + Output options: vị trí xuất kết quả. + Apha: mức ý nghĩa
BÀI 3: Doanh số bán hàng (triệu đồng) của 4 cửa hàng trong 6 tuần đầu của mùa hè được cho trong bảng số liệu sau: Tuần Tuần Tuần Tuần Tuần 1 1430 980 1780 2300 2 2200 1400 2890 2682 3 1140 1200 1500 2000 4 880 1300 1470 1900 5 1670 1350 2380 1540 6 990 650 1930 1900 Hãy sử dụng mức ý nghĩa 5% để so sánh doanh thu của các cửa hàng có như nhau không; Hãy kết luận bằng giá trị P. Tìm hệ số xác định R2 của bài toán. BÀI LÀM: So sánh doanh thu các cửa hàng. ⁂ Cơ sở lý thuyết: Dạng bài toán: Kiểm định về giá trị trung bình (Kiểm định giả thuyết có tham số) Phương pháp: PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ +Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các số trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểm định giả thuyết để kết luận về sự bằng nhau của các số trung bình này. +Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên nhân (dạng biến dữ liệu định tính) đến một yếu tố kết quả (dạng biến dữ liệu định lượng) đang nghiên cứu.
- H0: “Các giá trị trung bình bằng nhau”. - H1: “Ít nhất có hai giá trị trung bình khác nhau”. MSF · Giá trị thống kê: F MSE · Biện luận: Nếu F chấp nhận giả thiết H0 ⁂ Bài làm: Giả thiết: *H0: Doanh thu của các cửa hàng là như nhau. *H1: Ít nhất có hai giá trị trung bình doanh thu khác nhau. ⁂ Thực hiện bài toán trên excel Nhập bảng dữ liệu: Áp dụng “Anova: Single Factor” +++Vào Data/ Data Analysis/Anova: Single Factor. +++ Trong hộp thoại Anova: Single Factor lần lượt ấn định các chi tiết:
Từ giá trị trong bảng Anova: F=6.16276>Fcrit=3.098391 => Không chấp nhận H0 KẾT LUẬN: Doanh số bán hàng giũa các cửa hàng là không giống nhau Tính hệ số xác định R2 (R Square): Từ bẳng “Anova: Single Factor” ta tính được hệ số tương quan R 2 theo công thức: R2=SSF/SST =>Thực hiện trên Excel: Chọn ô B26 nhập công thức: =B21/B24
Năm 2018 2017 2016 Ngành Máy tính 270 270 330 Điện - Điện tử 380 640 810 Hóa 400 410 430 Quản lý công nghiệp 85 130 160 Với mức ý nghĩa = 1%, hãy so sánh phân bố tỉ lệ tuyển sinh của trường đại học Bách Khoa TPHCM qua các năm. BÀI LÀM: ➢ Dạng bài: Kiểm định giả thiết về tỉ lệ. ➢ Phương pháp giải: Áp dụng Kiểm định chi bình phương 2. ➢ Công cụ giải: hàm CHITEST trên Excel. ➢ Cơ sở lý thuyết: - Trong thống kê, kiểm định chi bình phương hay kiểm tra 2. (đôi khi đọc là "khi bình phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê kiểm định tuân theo phân bố  2 nếu giả thuyết không là đúng. Chúng gồm: • Kiểm định chi bình phương Pearson • Kiểm định chi bình phương Yates • Kiểm định chi bình phương Mantel-Haenszel • - Dạng thống kê kiểm định thông dụng nhất là:
Giả sử trong mẫu ngẫu nhiên thứ i: Cón1i cá thể có tính trạng A1 n2i cá thể có tính trạng A2 nri cá thể có tính trạng Ar k r n n Ký hiệu: io  ij ; noj  nij j 1 i 1 Như vậy n 0j là kích thước của mẫu thứ j, còn nio là tổng số cá thể có tính trạng Ai trong toàn bộ k mẫu đang xét: r k n nio noj là tổng số tất cả các cá thể của k mẫu đang xét. i 1 j 1 ▪ Nếu giả thiết H0 là đúng nghĩa là: 1 2 k p1 p1  p1 p1 p1 p2  pk p 2 2 2 2 1 2 k pi pi  pi pi 1 2 k pr pr  pr pr  nio thì các tỷ lệ chung p1, p2, pr được ước lượng bởi: p i n Đó ước lượng cho xác suất để một cá thể có mang tính trạng A i. khi đó số cá thể có tính trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:   nojnio nij n p oj i n
• Tính tổng các hàng và các cột. • Tính các tần số lý thuyết: tần số lý thuyết = (Tổng hàng ×Tổng cột)/(Tổng cộng): • Sử dụng hàm CHITEST tính xác suất P(X> 2 ):
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ. 3) Tìm sai số chuẩn của ước lượng. b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính đa biến. Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp. Bài làm I. Cơ sở lý thuyết: 1.Tìm hệ số tương quan giữa X và Y Hệ số tương quan mẫu là một số đo về sự hiệp biến tuyến tính của các biến số, nghĩa số đo về mức độ kết hợp tuyến tính giữa các biến số. Được xác định bởi: ∑ 푖 푗 + ∑ 푖 ∑ 푖 Hệ số tương quan 푅 = 2 2 2 2 푛 ∑ 푖 ― ( ∑ 푖 ][푛 ∑ 푖 ― ∑ 푖 ] Nếu 푅 > 0 thì , 푌 tương quan thuận. Nếu 푅 0.8: tương quan tuyến tính rất mạnh |푅| = 0.6 ― 0.8: tương quan tuyến tính mạnh |푅| = 0.4 ― 0.6: có tương quan tuyến tính |푅| = 0.2 ― 0.4: tương quan tuyến tính yếu |푅| < 0.2: tương quan tuyến tính rất yếu hoặc không có tương quan tuyến tính
Lượng mưa năm 2016 Độ ẩm năm 2016 29,3 66 0 62 0 67 0 68 162,1 70 195,9 78 191,4 76 427,1 79 500,4 77 491,7 83 181,2 76 128,6 78 1)Tìm hệ số tương quan giữa X,Y Công cụ thực hiện: Áp dụng “Correlation” Nhập dữ liệu vào trang tính:
• Phần “Input” (phạm vi đầu vào) có mục “Input Range” là địa chỉ tuyệt đối chứa dữ liệu tương ứng của mẫu: quét khối dữ liệu để chọn hoặc nhập $A$1:$B$16 • Phần “Grouped By” chọn “Columns” • Chọn mục Labels in first row (nhãn dữ liệu) để hiển thị nhãn • Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$1 Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả: => Ta có hệ số tương quan là R = 0.8126 chứng tỏ giữa lượng mưa năm 2016 và độ ẩm năm 2016 thu được có quan hệ khá chặt chẽ và có tương quan thuận. 2) Kiểm định quan hệ tuyến tính và ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ. Kiểm định quan hệ tuyến tính
- Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khối chọn dữ liệu hoặc nhập $A$1:$A$16 • Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậy bằng 95%) • Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề • Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$8 • Line Fit Plots: Xuất ra đồ thị Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:
600 500 Lượng mưa năm 2016 400 300 Predicted Lượng mưa năm 200 2016 100 Linear (Lượng mưa năm 0 2016) Lượng mưa2016 năm 0 20 40 60 80 100 -100 Linear (Predicted Lượng -200 mưa năm 2016) Độ ẩm năm 2016 + Biện luận: Phương trình hồi quy: y x = -1528.1791 + 23.4612x Hệ số hồi quy: 0.0029<0.05 Hệ số tự do có ý nghĩa. 0.0013 < 0.05 Hệ số của x có ý nghĩa. 3) Tìm sai số chuẩn của ước lượng: - Đối với biến tự do: SE = 391.5688 - Đối với biến X: SE = 5.3207 b) Khảo sát đường dài 10m ta thấy được mối quan hệ giữa tốc độ pha  với tần số của sóng và độ thẩm điện của môi trường. Khảo sát với các mốc tần số 5, 10, 15, 20
4.5 15 67.15 4.5 20 88.71 Dạng bài: Hồi quy tuyến tính đa tham số Công cụ: Sử dụng “Regression” Thực hiện bài tập trên excel Nhập dữ liệu vào trang tính: Vào Data/Data Analysis/Regression.
• Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậy bằng 95%) • Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề • Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $E$1 • Line Fit Plots: Xuất ra đồ thị Nhấn chọn OK ta được kết quả:
Tìm các hệ số hồi quy tuyến tính mẫu: Phương trình hồi quy tuyến tính mẫu: Y |X1X 2 21.11895833 8.158333333X1 3.26665X2 Biện luận sự thích hợp: * PV 0 0.0003208 0.05  Hệ số tự do có ý nghĩa. * PV1 4.204E 06 0.05  Hệ số của X1 có ý nghĩa.
X12 X22 Xk2 X1n X2n Xkn Tổng cộng T1 T2 Tk T Trung bình 1 2 X Bảng ANOVA Nguồn sai Tổng bình phương Bậc tự do Bình phương Giá trị số SS df trung bình MS thống kê F Yếu tố SSF (SSA) k-1 푆푆퐹 푆퐹 푆퐹 = 퐹 = ― 1 푆 Sai số SSE = SST - SSF n-k 푆푆 푆 = 푛 ― Tổng cộng SST n-1 Trắc nghiệm Giả thiết: 0: 1= 2=  “Các giá trị trung bình bằng nhau” 0: 1 ≠  “Ít nhất có hai giá trị trung bình khác nhau” 푆퐹 Giá trị thống kê: 퐹 = 푆 Biện luận: Nếu 퐹훼( ― 1; ― 1) => Chấp nhận giả thiết 0 Ví dụ phân tích phương sai một yếu tố Bảng thống kê dưới đây so sánh độ galactose trong 3 nhóm bệnh nhân:
1343 1264 1809 2850 1393 1314 1926 2964 1420 1399 2283 2973 1641 1605 2384 3171 1897 2385 2447 3257 2160 2511 2479 3271 2169 2514 2495 3288 2279 2767 2525 3358 2890 2827 2541 3643 2895 2769 3657 3011 Chạy Data Analysis : Single factor Chọn các mục + Input Range: địa chỉ tuyệt đối chứa dư liệu, (quét các ô) + Output options: vị trí xuất kết quả (quét ô định trả kết quả) + Apha: mức ý nghĩa , cho = 0.05 Kết quả sau khi chạy Data Analysis/Single factor
Với số liệu nghiên cứu trên, chúng ta có những tóm tắt thống kê như sau Nhóm Số đối tượng 푛푗 Trung bình Phương sai mẫu hiệu chỉnh 2 1—Crohn 푛1 = 9 1 = 1910 푆1 = 265944 2 2—Viêm ruột 푛2 = 11 2 = 2226 푆2 = 473387 2 3—Đối chứng 푛3 = 20 3 = 2804 푆3 = 277500 Toàn bộ mẫu n=40 =2444 Với mức ý nghĩa ta kiểm định giả thiết Giả thiết: 0: 1= 2=  “Các giá trị trung bình bằng nhau” 0: 1 ≠  “Ít nhất có hai giá trị trung bình khác nhau” Bảng Anova Nguồn sai Tổng bình phương Bậc tự Bình phương trung Giá trị thống số SS do df bình MS kê F Yếu tố SSF k-1 푆푆퐹 푆퐹 푆 = 퐹 = ― 1 푆 Sai số SSE = SST - SSF n-k 푆푆 푆 = 푛 ― Tổng cộng SST n-1 Đặt:
푛푗 2 푆 = ( 푖푗 ― ) 푗=1 푖=1 푆 = (1343 ― 2444)2 + (1393 ― 2444)2 + .(3657 ― 2444)2 = 17815090 • Tổng bình phương độ lệch riêng của các nhóm (phản ánh độ khác nhau giữa các nhóm): 푛푗 2 2 푆푆퐹 = ( 푖 ― ) = 푛푗 푗 ― 푗=1 푖=1 푗=1 푆푆퐹 = 9(1910 ― 2444)2 + 11(2226 ― 2444)2 + 20(2804 ― 2444)2 = 5681168 • Tổng bình phương độ lệch phản ánh độ lệch trong mỗi nhóm (phản ánh độ khác nhau giữa các nhóm): 푛푗 2 2 푆푆 = 푖푗 ― 푗 = (푛푗 ― 1)푆푗 푗=1 푖=1 푗=1 푆푆 = (9 ― 1)265944 + (11 ― 1)473387 + (20 ― 1)277500 = 12133922 Hoặc có thể tính SSW theo quan hệ sau: 푆푆 = 푆 ― 푆푆퐹 SSE được tính từ mỗi bệnh nhân trong 3 nhóm, cho nên trung bình bình phương (độ lệch) cho từng nhóm (Mean square – MSE): 푆푆 12133922 푆 = = = 327944 푛 ― 40 ― 3 Trung bình bình phương (độ lệch) giữa các nhóm là: 푆푆퐹 5681168 푆퐹 = = = 2840584 ― 1 3 ― 1 Giá trị thống kê F