Báo cáo bài tập lớn Xác suất thống kê - Đề tài 9

Bài 1:

Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:

1) Thực hiện phương pháp phân tổ dữ liệu (A).

2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với

độ tin cậy 96% (A).

4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

31 trang thamphan 8060

Download

Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo bài tập lớn Xác suất thống kê - Đề tài 9", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

bao_cao_bai_tap_lon_xac_suat_thong_ke_de_tai_9.docx

Nội dung text: Báo cáo bài tập lớn Xác suất thống kê - Đề tài 9

1 TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HỒ CHÍ MINH KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG .oOo . BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Đề tài 9 GVHD: NGUYỄN KIỀU DUNG Nhóm: 9 1. Nguyễn Đức Duy - 1410579 - L06 2. Bùi Duy Khánh - 1411750 - L01 3. Hồ Việt Long - 1412075 - L01 4. Ngô Quang Nghĩa - 1414919 -L01 5. Trần Minh Nhựt - 1412783 -L01 6. Lương Ngọc Thuận - 91303997 - L01 7. Ngô Điền Trung - 1414289 - L01 8. Trần Tri Văn -1414609 - L01 1
3 Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1) Thực hiện phương pháp phân tổ dữ liệu (A). 2) Vẽ đồ thị phân phối tần số và đa giác tần số (A). 3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A). 4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. Bài làm: _ Dạng bài: Thống kê mô tả. _ Dữ liệu (A): Khảo sát số testcase(testcase: các trường hợp để kiểm tra code của sinh viên trong bài tập) đúng của 40 sinh viên khoa máy tính khi học Kĩ thuật lập trình ta có bảng số liệu: _ Dữ liệu (B): Phân ngành sinh viên khoa Máy tinh K14 trường Đại học Bách Khoa thành phố Hồ Chí Minh. 1) Thực hiện phương pháp phân tổ dữ liệu A: _ Nhập dữ liệu (A) vào Excel: 3
5 + Output options: vị trí xuất kết quả. + Confidence Level for Mean: độ tin cậy cho trung bình. + Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số.  Kết quả(đã chỉnh lại các tên miền): 2) Vẽ đồ thị phân phối tần số và đa giác tần số (A): _ Vẽ đồ thị phân phối tần số: + Quét chọn bảng tần số B2:B5 5
7 + Quét chọn B2:B7, dùng chức năng Insert Line Chart trên menu Insert  Kết quả sau chỉnh sửa 3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 95% (A). _ Nhập dữ liệu vào bảng tính: 7
9  Kết quả nhận được: 4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. _ Nhập dữ liệu vào bảng tính: 9
11  Kết quả thu được: _ Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành. + Quét chọn cột Số sinh viên (C3:C9) + Dùng chức năng Insert/Insert Pie/2-D Pie trên menu Insert  Kết quả thu được: 11
13 đặt ở tử số,và như vậy mẫu tương ứng với phương sai đó là mẫu thứnhất. - Giả thiết đặt ra là kiểm định hai bên: 2 2 2 2 H0: 1  2 vàH1:1  2 - Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng h ộ gi ả thuyết HoNếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (d 1=n1-1 gắn liền với mậu thứ nhất và bậc tự do mẫu số gắn liền với mẫu thứ hai (d 2=n2-1) Quy tắc thực sự để bác bỏ o với kiểm định hai bên khi d 1=n1-1 và d 2=n2-1 mức ý nghĩa α là: giả thiết 0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên FU=Fdf1;df2;α/2 của phân phối F hoặc bé hơn giá trị tới hạn dưới FL=Fdf1;df2;α/2 tức là Ftt Fdf1;df2;α/2 - Nếu chúng ta kiểm định bên phải: 2 2 2 2 H0 : 1  2 vàH1:1  2 Quy tắc bác bỏ o là khi Ftt>FU(n1-1;n2-1;α) ❖ Giá trị thống kê: ❖Giả thiết: 2 = 2 và 2 > 2 H0 : σ 1 σ2 H1 : σ1 σ 2 Phân phối Fischer: . Y1=N1 -1 Y2=N2 -1 ❖ Biện luận: Nếu F <Fα(Y1 ;Y2) Chấp nhận giả thuyết Ho với xác xuất (1-α)100%.  Nhập dữ liệu vào bảng tính: 13
15  Chọn các mục như hình: + Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2. + Output options: vị trí xuất kết quả. + Apha:mức ý nghĩa α (chọn tại ô alpha)  Kết quả 15
17 X1 X2 Xk X11 X12 X1k X21 X22 X2k Xn(1)1 Xn(2)2 Xn(k)k Với mức ý nghĩa α ta kiểm định giả thiết: -H0: a1=a2= =ak H1: “Tồn tại j1≠j2 sao cho aj1≠aj2 Đặt: k - Tổng quan sát: n n j j 0 - Trung bình mẫu thứ j (j=1,2, ,k): n j n j 1 Tj x j  xij v ớiTj  xij n j j 1 n j i 1 - Trung b ìnhchung 1 k n j T k n j k x  xij v ớiT  xij Tj n j 1 i 1 n j 1 i 1 j 1 - Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor: k 2 SSF n j (x j x) j 1 - Tổng bình phương độ lệch do sai số Sum of Squares for Error k n j 2 SSE (xij x j ) j 1 i 1 - Tổng bình phương độ lệch chung Total Sum of Squares: k n j 2 SST (xij x) hay SST=SSF+SSE j 1 i 1 - Trung bình bình phương của nhân tố Mean Square for Error: SSF MSF k 1 - Trong đó, k-1 là bậc tự do của nhân tố. - Trung bình bình phương của sai số Mean Square for Error: 17
19 - Input Range: địa chỉ tuyệt đối chứa dữ liệu. - Output options: vị trí xuất kết quả. - Alpha: mức ý nghĩa α. 19
21 Vậy hệ số xác định R2 = 0.138309371. Điều đó có nghĩa là nhân tố nơi lấy mẫu để đo chỉ ảnh hưởng 13.8% đến mức tiêu thụ nhiên liệu của các loại xe. Bài 4: Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A,B,C,D,E. Người ta yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống. Kết quả được cho như sau: Thành phố Mức độ thỏa mãn Rất thỏa mãn Tương đối Không A 220 121 63 B 130 207 75 C 84 54 24 D 156 95 43 E 122 164 73 Với mức ý nghĩa = 3%, Hãy kiểm định xem mức độ thỏa mãn có phân bố giống nhau ở 5 thành phố trên hay không? Bài làm : •Dạng bài : kiểm định giả thiết về tỷ lệ. • Phương pháp giải : Áp dụng kiểm định chi bình phương χ2 • Công cụ giải : hàm CHITEST trên EXCEL. •Cơ sở lý thuyết: Theo thống kê,kiểm định chi bình phương hay kiểm tra χ2 (“đôi khi đọc là khi bình phương”) là một họ các phương pháp kiểm định giả thuyết thống kê trong đó thống kê kiểm định tuân theo 21
23 Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên chọn từ tập hợp chính i được gọi là ngẫu nhiên thứ i (i = 1,2, k). Giả sử trong mẫu ngẫu nhiên thứ i: Có 푛1i cá thể có tính trạng 1 푛2icá thể có tính trạng 2 푛ri cá thể có tính trạng r k r Ký hiệu: n  i 1nij ;n0 j  i 1nij Như vậy 푛0j là kích thước của mẫu thứ j, còn 푛j0 là tổng số cá thể có tính trạng I trong toàn bộ k mẫu đang xét: r k n  i 1ni0  j 1n0 j là tổng số tất cả các cá thế của k mẫu đang xét - Nếu giả thuyết o là đúng nghĩa là: 1 2 k p1 = p1 = = p1 1 2 k p2 = p2 = = p2 . 1 2 k pi = pi = =pi = pi . 1 2 k pr = pr = =pr =pr ^ ni0 Thì các tỷ lệ chung p1 ,p2, pr được ước lượng bởi p i n Đo ước lượng cho xác suất để một cá thể có mang tính trang j.Khi đó số cá thể có tính trạng j trong mẫu thứ j sẽ xấp xỉ bằng: n n n^ n p^ oj io ij 0 j i n ^ Các số nij (i 1,2, ,r; j 1,2, k) được gọi là các tần số lý thuyết(TSLT), cácsố 푛ijđược gọi là các tần số quan sát (TSQS). Ta quyết định bác bỏ o khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây: 23
25 nút tự điều khiển từ điền từ H78 đến H82. + Tổng cột: Chọn E83, nhập =SUM(E78:E82), rồi Enter, dùng con trỏ kéo nút tự điều khiển từ E83 đến G83. + Tổng cộng: chọn H83 và nhập =SUM(H78:H82). • Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng + 1: Chọn E90: nhập =H78*$E$83/$H$83, rùi Enter, dùng con trỏ kéo nút tự điều khiển từ E90 đến E94. + 2: Chọn F90: nhập =H78*$F$83/$H$83, rồi Enter, dùng con trỏ kéo nút tự điều khiển từ F90 đến F94. + 3: Chọn G90: nhập =H78*$G$83/$H$83, rồi Enter, dùng con trỏ kéo nút tự điều khiển từ G90 đến G94. • Áp dụng hàm số CHITEST tính giá trị 푃( >휒2) • Chọn B15, nhập =CHITEST(E78:G82;E90:G94), rồi Enter. 25
27 ∑ 푖 푖 ― ∑ 푖 ∑ 푖 R = [푛 ∑ 푖2 ― ( ∑ 푖 )2) ][푛 ∑ 푖2 ― ( ∑ 푖 )2) ] + Nếu R > 0 thì X,Y tương quan thuận. + Nếu R < 0 thì X,Y tương quan nghịch. + Nếu R = 0 thì X,Y không tương quan. + Nếu |R|=1 thì X,Y có quan hệ hàm bậc nhất. + Nếu |R|→1 thì X, Y có tương quan chặt (tương quan mạnh). + Nếu |R|→0 thì X, Y có tương quan không chặt (tương quan yếu). _ Thực hiện trên Excel: + Nhập số liệu vào bảng tính: Chọn chức năng Data/Data Analysis/Correlation.  Kết quả: 27
29 + H1: Hệ số hồi quy có ý nghĩa (≠0). + Trắc nghiệm t < t α,n-2: chấp nhận H0 Kiểm định phương trình hồi quy: + Giả thiết H0: “Phương trình hồi quy tuyến tính không thích hợp”. H1: “Phương trình hồi quy tuyến tính thích hợp”. + Trắc nghiệm F < F α,1,n-2: chấp nhận H0 _ Thực hiện trên Excel: + Nhập số liệu vào bảng tính: + Dùng chức năng Data/Data Analysis/Regression 29
31 Biện luận: _ Phương trình hồi quy: yx = −196.6187 + 10.7616 _ Hệ số hồi quy: 0.0710 > 0.05 => Hệ số tự do có ý nghĩa. 1.105xE-09 Hệ số của x không có ý nghĩa. => Phương trình hồi quy tuyến tính này không thích hợp vì 0.002198 < 0.05 3) Tìm sai số chuẩn của ước lượng: Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai sốchuẩn của ước lượng: - Đối với biến tự do: SE = 97.3596 - Đối với biến X: SE = 0.5028 31