Bài toán So sánh mở rộng

§ 1. SO SÁNH NHIỀU TỶ LỆ

         Trong chương trước chúng ta đã xét bài toán so sánh tỷ lệ cá thể có đặc tính A trong hai tập hợp chính. bấy  giờ chúng ta sẽ mở rộng bài toán này bằng cách xét bài toán so sánh đồng thời tỷ lệ cá thể có đặc tính A giữa nhiều tập hợp chính.

         Giả sử ta có k tập hợp chính  H1, H2,... Hk. Mỗi cá thể của chúng có thể mang hay không mang đặc tính A.

         Gọi p1 là tỷ lệ có thể mang đặc tính A trong tập hợp chính Hi (i = 1, 2, ...k).

         Các tỷ lệ này được gọi là các tỷ lệ lý thuyết mà chúng ta chưa biết.

         Ta muốn kiểm định giả thiết sau:

         Ho: p1 = p2 = ... = pk (tất cả các tỷ lệ này bằng nhau).

doc 48 trang thamphan 28/12/2022 2620
Bạn đang xem 20 trang mẫu của tài liệu "Bài toán So sánh mở rộng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • docbai_toan_so_sanh_mo_rong.doc

Nội dung text: Bài toán So sánh mở rộng

  1. Nguồn Các mức nhân tố Tổng số 1 2 3 4 12 12 9 12 10 16 7 8 7 15 16 8 8 9 11 10 9 7 14 ni 6 4 5 4 n = 19 Ti 60 52 40 38 T = 190 Bước 1. 602 522 402 382 1902 SSF 6 4 5 4 19 1957 1900 57 Bước 2. 1902 SST 122 102 72  122 82 82 102 19 148 57 91 Bước 4. SSF 57 MSF 19 k 1 3 Bước 5. SSE 148 148 MSE 6,04 n k 19 4 15 Bước 6. MSF 19 F 3,13 MSE 6,07 Ta trình bày các kết quả tính toán trên trong bảng ANOVA. Tổng bình Trung bình Bậc tự do Tỷ số F Nguồn phương bình phương Nhân tố 57 3 19 F = 3,13 15
  2. là Minitab sẽ cho hiện lên màn hình bảng ANOVA tính trên dữ liệu đã đưa vào. Ví dụ 7. Tiến hành phân tích phương sai bằng máy tính (sử dụng Minitab) bảng số liệu sau: Điểm của các giáo sư An Vân Ba Bình 56 61 58 68 64 66 60 74 67 52 65 59 61 48 49 54 70 47 75 66 56 64 Giải MTB > Mame C1 “An” MTB > Mame C2 “Van” MTB > Mame C3 “Ba” MTB > Mame C4 “Binh” MTB > Set C1 DATA > 56, 64, 67, 61, 70 DATA > End MTB > Set C2 DATA > 61, 66, 52, 48, 47, 56 DATA > End MTB > Set C3 DATA > 58, 60, 65, 79, 75 DATA > End MTB > Set C4 DATA > 68, 74, 59, 54, 66, 64 DATA > End MTB > AOVONEWAY C1 – C4 17
  3. c n jo  n jk k 1 r nok n jk j 1 n n jo nok j k n jk x jk xijk k i k x jo trung bình của mức Aj n jo n jo n jk x jk xijk j i j xok trung bình của mức Bk nok nok x jk x = trung bình chung =  x n ok Ta có bảng sau đây ghi các kết quả tính toán trên: A Trung bình B1 B2 Bk Bc B dòng Aj A1 x11 x12 x1k x1c x10 A2 x21 x22 x2k x2c x20 Aj xj1 xj2 xjk xjc xj0 Ar xr1 xr2 xrk xrc xro Trung bình x o1 x o2 x oc x cột Bk + Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau: c r n jk 2 SST  xijk x k 1 j 1 i 1 + Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau: 19
  4. MSF F A A MSE Tương tự tỷ số F cho nhân tố B, FB được tính bởi MSF F B B MSE và tỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính bởi: MSI F AB MSE Với mức ý nghĩa đã cho ta ký hiệu f (u, v) là phân vị mức của phân bố Fisher với bậc tự do (u, v). Ta có quy tắc quyết định như sau: + Nếu FA > f (r – 1, n – cr) thì ta bác bỏ giả thiết. A Ho : “Các mức A1, Ar có hiệu quả trung bình như nhau” + Nếu FB > f (c – 1, n – cr) thì ta bác bỏ giả thiết: B Ho : “Các mức B1, B2, Bc có hiệu quả trung bình như nhau” Nếu FAB > f ((r – 1)(c – 1), n – rc) Ta bác bỏ giả thiết: AB Ho : “Có sự tương tác giữa A và B”. Trên thực hành tính toán chúng ta thực hiện như sau: Giả sử Tjk là tổng các giá trị trong mẫu (j, k). Ký hiệu c r Tjo  Tjk , Tok Tjk k 1 j 1 c r n jo  n jk , nok n jk k 1 j 1 T Tjo Tok xijk n n jo nok 2 A xijk (3) 21
  5. PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY § 1 PHÂN TÍCH TƯƠNG QUAN TUYẾN TÍNH Giả sử X và Y là hai biến lượng (hay còn gọi là hai ĐLNN). Chúng ta đã biết rằng X và Y được gọi là độc lập nếu việc ĐLNN này nhận một giá trị nào đó (bất kỳ) cũng không ảnh hưởng gì đến phân bố xác suất của ĐLNN kia. Tuy nhiên trong nhiều tình huống thực tế, X và Y không độc lập với nhau. Điều này thường gặp, chẳng hạn khi X và Y là hai ghép đo nào đó tiến hành trên cùng một cá thể. Ví dụ X là chiều dài cánh tay Y là chiều cao của một người; hoặc X là điểm thi tốt nghiệp tú tài và Y là điểm thi vào đại học của cùng một học sinh. Để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, người ta đưa ra khái niệm hệ số tương quan. Hệ số tương quan lý thuyết của X và Y, ký hiệu là , được định nghĩa bởi công thức E(X  )(Y  ) x Y , XY ở đó X, X là giá trị trung bình và độ lêchhj tiêu chuẩn của X, và Y, Y là giá trị trung bình và độ lệch tiêu chuẩn của Y. Người ta đã chứng minh được là một số nằm trong giai đoạn [–1,1]. Khi = 0 thì không có tương quan tuyến tính giữa X và Y. Đặc biệt nếu (X,Y) có phân bố chuẩn thì = 0 khi và chỉ khi X, Y độc lập. Khi | | càng gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng mạnh. Nếu | | = 1 thì Y thì một hàm tuyến tính cảu X. Muốn biết được chúng ta cần biết phân bố của tập hợp chính bao gồm tất cả các giá trị của cặp (X, Y). Tuy nhiên thông tin này thường là khó nắm bắt. Vì vậy, tương tự như vấn đề ước lượng và kiểm định giá trị trung bình hay phương sai đã xét ở các chương trước, chúng ta có bài toán ước lượng và kiểm định hệ số tương quan căn cứ trên một mẫu quan sát (x1, y1) (x1, y2), , (xn, yn) các giá trị của (X, Y). Đại lượng sau đây được sử dụng như một ước lượng cho : 23
  6. Nếu có phần mềm Minitab ta sẽ tính hệ số tương quan chỉ bằng một lệnh đơn giản CORRELATION C2 C1 Trong đó có hai dãy số liệu (x1) (y1) được nhập tương ứng vào các cột C1 và C2. Ví dụ 2. Một nhà nghiên cứu quan tâm tới mối liên hệ giữa tuổi và mạch đập của phụ nữ. Trong một mẫu quan sát gồm 5 phụ nữ chọn được ngẫu nhiên có số liệu sau, ở đó X là tuổi, Y là nhịp mạch đập. X Y XY X2 Y2 23 210 4830 529 44100 39 185 7215 1521 34255 19 220 4180 361 48400 44 164 7216 1936 26896 51 123 6273 2601 15129 Tổng 176 902 29714 6948 168750 Nếu tính bằng ta thì nxy (x).(y) 5(29174) (176).(902) 148570 158752 10182 nx2 (x)2 34740 30976 3764 ny2 (y)2 843750 813604 30146 10182 10182 r 0, 956 3764 30146 (61, 35).(173, 62) Nếu sử dụng Minitab ta sẽ gõ các lệnh sau MTB > SET C1 DATA > 23 39 19 44 51 DATA > END MTB > SET C2 DATA > 210 185 220 164 123 DATA > END MTB > CORRELATION C1 C2 25
  7. Với đối thiết H1: 0 Việc xây dựng quy tắc kiểm định bài toán trên dựa vào định lý sau. Định lý. Nếu (X, Y) có phân bố chuẩn hai chiều thì dưới giả thiết Ho, ĐLNN r n 2 T 1 r2 có phân bố Student với n –2 bậc tự do. Thành thử test thống kê thích hợp cho bài toán kiểm định này là r n 2 T 1 r2 Ta sẽ bác bỏ Ho nếu |T| > c, ở đó c là phân vị mức của phân bố 2 Student với n – 2 bậc tự do. Ví dụ 3. Trong một mẫu gồm 42 quan sát (xi, yi) rút ra từ tập hợp chính các giá trị của (X, Y), chúng ta tính được hệ số tương quan mẫu là r = 0,22. Với mức ý nghĩa = 5%, có thể kết luận rằng X và Y có tương quan hay không? 0, 22 40 0, 22 Giải. Ta có T 1, 43 1 (0, 22)2 0,154 Với bậc tự do 40, = 5%, ta tìm được hàng số c là 2,021. Vậy ta chưa có cơ sở bác bỏ Ho, nghĩa là chưa kết luận được X và Y có tương quan. Với bài toán kiểm định giả thiết Ho : = o H1 : o ở đó o là một giá trị khác không cho trước, ta sẽ xây dựng test thống kê u m T  1 1 r ở đó u ln 2 1 r 27
  8. 1 1  0, 43 49 7 u m Vì T có phân bố chuẩn tắc, do đó với c là phân vị mức của  2 phân bố chuẩn tắc N(0,1), ta có P{|T| < c} = 1– . Với 1 – = 0,95 suy ra = 0,05, ta có c = 1,96. Vậy với xác suất 0,95 ta có –c < u – m < c u – c < m < m + c Thay giá trị của u, c,  vào ta được 0,31 < m < 0,87 1 1 hay 0,31 ln o 0,87 2 1 o 1 0, 62 ln o 1,74 1 o 1 e0,62 o e1,74 1 o 1 1, 858 o 5,7 1 o Từ bất đẳng thức trên dễ dàng tìm được 0,3 < o < 0,7. Đó là khoảng tin cậy cho o.  Cuối cùng ta cần lưu ý một số điểm sau. Chú thích. 1) Hệ số tương quan chỉ là một số đo mối quan hệ tuyến tính giữa X và Y. 2) Nếu X và Y độc lập thì hệ số tương quan giữa chúng bằng 0. Điều ngược lại chưa chắc đúng (trừ khi X và Y có phân bố chuẩn đồng thời). Có thể xảy ra trường hợp X và Y không tương quan ( = 0) nhưng Y lại là một hàm của X (tức là giữa X và Y có sự phụ thuộc hàm). 29
  9. Đó đều là những dấu hiệu không đo đạc được. Ta gọi đó là những dấu hiệu định tính. Trong mục này ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài toán kiểm định tính độc lập của dấu hiệu định tính A và B. Ta chia dấu hiệu A ra làm r mức độ A1, A2, , Ar, và chia đặc tính B làm k mức độ B1, B2, , Bk. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở mức Ai nào đó và mang dấu hiệu B ở mức Bj nào đó. Giả sử nij là số cá thể có các dấu hiệu Ai và Bj. Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu (Contingency Table). A B1 B2 Bk Tổng B A1 n11 n12 n1k n10 A2 n21 n22 n2k n20 Ar nr1 nr2 nrk nr0 Tổng n01 n02 n0k n Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj ; pjo và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj. Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau: pij = pio.poj Các xác suất pio và poj được ước lượng bởi ˆ n p io , io n ˆ noj p oj n Do đó Ho đúng thì ˆ ˆ ˆ nio.noj pij pio.poj , n2 và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng 31
  10. Tổng số 405 155 560 Có thể chấp nhận hai đặc tính về hoa và lá nói trên là độc lập hay không? Hay là giữa chúng có sự liên kết? Giải. Ta có 328 122 560 77 33 T 0, 368 (450).(110).(405).(155) Với mức ý nghĩa 5%, tra bảng phân bố  2 với bậc tự do ta tìm được c = 2  0,05 = 3,841. T nhỏ hơi c, vậy ta chấp nhận giả thiết: Hai đặc tính về hoa và là nói trên độc lập.  Tiêu chuẩn 2 nói trên còn có thể áp dụng để kiểm định tính độc lập của một dấu hiệu định tính A và một dấu hiệu định lượng (biến lượng) X. Khi đó ta cần chia miền giá trị của X thành k khoảng B1, B2, , Bk và nếu cá thể có số đo xi rơi vào khoảng Bj thì ta xem như cá thể đó có dấu hiệu Bj. Tương tự như vậy ta có thể dùng tiêu chuẩn 2 nói trên để kiểm tra tính độc lập của hai ĐLNN X và Y (Lưu ý rằng nếu X và Y không tương quan thì chưa chắc X và Y đã độc lập). Muốn vậy ta cần chia miền giá trị của X thành k khoảng B1, B2, , Bk còn miền giá trị của Y thành r khoảng A1, , Ar. Nếu cá thể có số đo (x,y) trong đó x Bi, y Aj, thì ta coi như cá thể đó có các dấu hiệu Bi và Aj. Ví dụ 7. Một con ốc sên rừng có thể có màu vỏ là vàng hoặc hồng. Số vạch trên vỏ của nó có thể là 0, 1, 2, 3, 4, 5. Ở đây dấu hiệu A (màu đỏ) là dấu hiệu định tính với hai mức vàng, hồng còn số vạch trên vỏ X là một dấu hiệu định lượng (hay X là một ĐLNN rời rạc). Ta muốn kiểm định xem A và X có độc lập hay không. Giải. Ta chia tập giá trị của X làm các mức B1 = {không có vạch} B2 = {1 hay 2 vạch} B3 = {3 hay 4 vạch} B4 = {5 vạch} 33
  11. Tổng số 16 68 61 55 200 102 202 502  Ta có: T 200  1 22,53 (16)(46) (68)(46) (55)(154)  Với mức ý nghĩa = 1%, tra bảng phân bố 2 với bậc tự do là (2 – 1)(4 2 – 1) = 3, ta tìm được c 0,01 11,345 . Vì T > c nên ta bác bỏ Ho và kết luận: Giữa huyết áp và trọng lượng trẻ 14 tuổi có sự phụ thuộc lẫn nhau. * § 3. PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN Như đã nói trong §1, hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN. Như thế chúng ta còn chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung. Cần nhớ rằng nếu hệ số tương quan giữa X và Y rất bé hay thậm chí bằng 0 thì giữa X và Y vẫn có thể có một mối liên hệ phi tuyến rất chặt chẽ. Để đo mức độ phụ thuộc nói chung của ĐLNN Y vào ĐLNN X, người ta đưa ra khái niệm tỷ số tương quan. Tỷ số tương quan lý thuyết của Y theo X 2 được ký hiệu bởi Y / X là một số không âm xác định theo công thức sau đây. E(Y E(Y / X))2 DY E(Y E(Y / X))2 2 1 Y / X DY DY trong đó E[Y/X] ký hiệu kỳ vọng của Y tính trong điều kiện X cố định một giá trị. E[Y/X] gọi là kỳ vọng của Y với điều kiện X. Người ta đã chứng minh được rằng 2 2 2 0 Y / X 1 và Y / X 2 2 Hiệu số Y / X đo mức độ phụ thuộc phi tuyến giữa Y và X. 2 2 Nếu hiệu số Y / X càng lớn thì có nghĩa là có sự tương quan phi tuyến càng mạnh. Bay giờ ta xét vấn đề ước lượng và kiểm định giả thiết về tỷ số tương quan. Giả sử (x1, y1), (x2, y2), , (xn, yn) là một mẫu gồm n quan sát độc lập rút ra từ tập hợp chính các giá trị của (X, Y). Chúng ta cần giả thiết rằng trong dãy các giá trị của X: xi, x2, xn, mỗi giá trị xi đều được lặp lại ít nhất một lần. Giả sử x(1) < x(2) < x(k) là các giá trị khác nhau trong dãy (xi). Ta sẽ trình bày dãy số liệu (xi, yi) thành bảng sau đây, được gọi là bảng tương quan. 35
  12. Người ta đã chứng minh được rằng 2 0 r2  ở đó r là hệ số tương quan. Bình phương của hệ số tương quan r2 được gọi là hệ số xác định. 2 Tỷ số tương quan  được lý giải như là tỷ lệ biến động của Y do có sự phụ thuộc của Y vào X. Hệ số xác định r2 được lý giải như là tỷ lệ biến động của Y do có sự phụ thuộc tuyến tính của Y vào X. Ví dụ 9. Cho mẫu quan sát sau đây của cặp ĐLNN (X, Y): (8, 82); (8, 78); (12, 65); (12, 50); (20, 60); (20, 47); (24, 52); (24, 41); (8, 87); (8, 58); (8, 70); (12, 62); (12, 55); (12, 52); (20, 44); (20, 66); (20, 41); (24, 57); (24, 50); (24, 47); (8, 65); (12, 49); (20, 57); (24, 65). Hãy tính hệ số tương quan hệ số xác định và tỷ số tương quan của Y đối với X. Giải. Trước hết ta cần trình bày các số liệu trên dưới dạng bảng tương quan sau đây: X 8 12 20 24 Y 82 65 60 52 78 50 47 41 87 62 44 57 58 55 66 50 70 52 41 63 65 49 57 ni 6 6 6 6 n = 24 Ti 440 333 315 310 T = 1398 + Tính hệ số tương quan Ta có 37
  13. 2 2  r 2 2  r n k F k 2 2 2 1  1  (k 2) n k Người ta đã chứng minh được rằng nếu Ho đúng thì F sẽ có phân Fisher với bậc tự do là (k – 2, n – k). Thành thử giả thiết Ho: “Không có tương quan phi tuyến” sẽ bị bác bỏ ở mức nếu F lớn hơn hằng số c là phân vị mức của phân bố Fisher với bậc tự do là (k – 2, n – k). Ví dụ 10. Trở lại ví dụ trên ta muốn kiểm tra xem liệu có tương quan phi tuyến của Y đối với X hay không. (0,5378 0,37) (24 4) (0,1678)(20) Ta có F 3,63 (1 0,5378) (4 2) (0,4622).2 Tra bảng phân bố Fisher với bậc tự do (2, 20) ở mức 5%, ta được c = 3,49. Vì F > c nên ta bác bỏ Ho. Vậy ta khẳng định có tồn tại mối tương quan phi tuyến của Y đối với X. xác suất sai lầm của khẳng định này là 5%. § 4. PHÂN TÍCH HỒI QUY TUYẾN TÍNH Giả sử X là một biến nào đó (có thể là biến ngẫu nhiên hay không ngẫu nhiên), còn Y là một ĐLNN phụ thuộc vào X theo cách sau đây. Nếu X nhận giá trị x, X = x, thì Y sẽ có kỳ vọng là ax + , ở đó và  là hằng số và phương sai là  2 (không phụ thuộc x). Khi đó ta nói Y có hồi quy tuyến tính theo X, và đường thẳng hồi quy lý thuyết của Y đối với X. các hệ số ,  được gọi là các hệ số hồi quy lý thuyết. X được gọi là biến độc lập, còn Y được gọi là biến phụ thuộc. Bài toán đặt là hãy ước lượng các hệ số quy lý thuyết và  trên một mẫu quan (x1, y1), , (xn, yn). Ước lượng và  dựa trên phương pháp bình phương bé nhất. a và b sẽ được chọn làm ước lượng cho và  nếu nó làm cực tiểu tổng sau đây: n 2 Q(A,B)  yi Axi B i 1 Hệ phương trình để tìm điểm dừng (a, b) của hàm Q(A, B) có dạng: 39
  14. F 500 46 Hãy tìm đường thẳng hồi quy của Y theo X căn cứ trên số liệu nói trên. Giải. Ta có: xy 138 800; x 3000; y 276; x2 1540 000; y2 12718 Từ đó nxy x y a 2 nx2 x 6(138800) (3000)(276) 6(1540000) (3000)2 4800 0,02; 240000 y a x 276 (0,02)(3000) b   36 n 6 Vậy đường thẳng hồi quy là y = 0,02x + 36 Ngoài việc ước lượng hệ số hồi quy và , ta còn quan tâm tới ước lượng  2,  2 là một con số đo sự phân tán của Y xung quanh đường thẳng 2 2 hồi quy. Ước lượng cho  , ký hiệu bởi sY.X , được cho theo công thức sau: 1 n s2 y ax b 2 Y.X n 2  i i i i 1 Dạng khác của công thức trên là y2 a xy b y s2    Y.X n 2 41
  15. 1 (x x)2 y ts o o X.Y n ( x)2 x2   n Ví dụ 13. Trở lại ví dụ 11 ta muốn dự báo về giá bán của một cuốn sách với 450 trang. Giải: Giá cuốn sách đó được dự báo là y 0, 02.(450) 36 45 (nghìn) Khoảng tin cậy 95% cho giá của một cuốn sách 450 trang sẽ là 1 (450 500)2 45 t.(1, 22) 1 6 (3000)2 154000 6 1 0, 95 ở đó t là phân vị mức 0, 025 của phân bố Student với 6 – 2 = 4 bậc tự do. 2 Tra bảng ta tìm được t = 2,776 Thay vào công thức trên ta được khoảng tin cậy cần tìm là 45 3,77 hay 41,23 < yo < 48,77 Vậy với độ tin cậy 95%, cuốn sách với 450 trang sẽ được bán với giá trong khoảng từ 41230 đồng đến 48770 đồng.  Ví dụ 14. Trở lại ví dụ 13 ta muốn dự báo giá bán trung bình của tất cả các cuốn sách 450 trang. Giải. Giá trung bình được sự báo là  0, 02.(450) 36 45 Khoảng tin cậy 95% cho giá trung bình của tất cả các cuốn sách 450 trang là 43
  16. 0, 02 Vậy: T = 3, 33 0, 006 Với mức ý nghĩa = 5%, tra bảng phân bố Student với 4 bậc tự do, ta tìm được c = t0,025 = 2,776. Ta có T c , do đó ta bác bỏ Ho. Vậy hệ số góc của đường thẳng hồi quy lý thuyết của Y đối với X là khác không.  Chú thích về sử dụng Minitab Ta nhập các số liệu của biến độc lập (xi) vào cột C1 và các số liệu của biến phụ thuộc (yi) vào cột C2. Sau đó ta gõ lệnh REGRESS C2 1 C1 Minitab sẽ cho ta trên màn hình phương trình đường thẳng hồi quy mẫu và một bảng phân bố phương sai của bài toán hồi quy. Bảng đó có dạng sau: Tổng bình Trung bình bình Nguồn Bậc tự do (DF) Tỷ số F phương (SS) phương (MS) MSR Hồi quy 1 SSR MSR F MSE Sai số n – 2 SSE MSE Tổng cộng n – 1 SST Ở đây SST là tổng bình phương chung ( y)2 SST (y y)2 y2   i  n SSR là tổng bình phương do hồi quy n 2 SSR  (axi b y) i 1 còn SSE là tổng bình phương do sai số n 2 SSE  (yi axi b) i 1 Ta có: SST = SSR + SSE Có thể chứng minh được rằng: 45
  17. phi tuyến đối với X. Việc kiểm định xem có hồi quy phi tuyến hay không chúng ta đã trình bày ở mục '3. Bài toán đặt ra tiếp theo là hãy “ước lượng” hàm hồi quy (x) căn cứ trên một mẫu số liệu quan sát được. Hàm hồi quy ước lượng (x) sẽ phải chọn sao cho nó “gần” với đám mây điểm nhất. Chẳng hạn nếu đám mây điểm có dạng như sau: ta có thể dự đoán rằng hàm hồi quy (x) có dạng một parabol (x) = Ax2 + Bx + C Ta sẽ dùng phương pháp bình phương bé nhất để ước lượng các hằng số A, B, C. Một phương pháp khác cũng hay được áp dụng là phương pháp tuyến tính hóa; giả sử hàm hồi quy lý thuyết có dạng (x) = Axm + B Đặt Z = xm, ta sẽ có hồi quy tuyến tính của Y đối với Z. Dựa trên số liệu {x1, y1), , (xn, yn)} ta biến đổi thành số liệu m m (x1 , y1 ), , (xn , yn ) (z1, y1 ), , (zn , yn ) ta sẽ ước lượng các hằng số A, B. Theo công thức hệ số hồi quy tuyến tính. Ví dụ 16. Giả sử hàm hồi quy lý thuyết của Y theo X có dạng sau (x) = Ax2 + B Hãy ước lượng (x) dựa trên mẫu quan sát sau đây gồm 30 số liệu (xi, yi): 2 xi yi Tần số zi = xi 1 7 4 1 47