Hỏi đáp

Mô hình hồi quy tuyến tính là gì

Bạn đang quan tâm đến Mô hình hồi quy tuyến tính là gì phải không? Nào hãy cùng VCCIDATA đón xem bài viết này ngay sau đây nhé, vì nó vô cùng thú vị và hay đấy!

XEM VIDEO Mô hình hồi quy tuyến tính là gì tại đây.

Trong bài viết này, tôi sẽ giới thiệu một trong những thuật toán cơ bản nhất của học máy. đây là một thuật toán hồi quy tuyến tính thuộc nhóm học có giám sát (có giám sát). Hồi quy tuyến tính là một phương pháp rất đơn giản nhưng đã được chứng minh là hữu ích cho một số lượng lớn các tình huống. trong bài viết này, bạn sẽ khám phá chính xác cách hoạt động của tuyến tính. Trong phân tích dữ liệu, bạn sẽ bắt gặp thuật ngữ “hồi quy” khá thường xuyên. Trước khi chúng ta đi sâu vào hồi quy tuyến tính, trước tiên chúng ta hãy hiểu khái niệm về hồi quy. hồi quy sơ cấp là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một tập hợp các biến độc lập. ví dụ:

ở đây, chúng tôi đang thiết lập mối quan hệ giữa chiều cao & amp; trọng lượng của một người so với tuổi của họ. đây là một ví dụ rất cơ bản về hồi quy.

Bạn đang xem: Mô hình hồi quy tuyến tính là gì

hồi quy tuyến tính đơn giản

phần giới thiệu

“Hồi quy tuyến tính” là một phương pháp thống kê để hồi quy dữ liệu với các biến phụ thuộc có giá trị liên tục, trong khi các biến độc lập có thể có giá trị liên tục hoặc giá trị phân phối. Nói cách khác, “hồi quy tuyến tính” là một phương pháp dự đoán biến phụ thuộc (y) dựa trên giá trị của biến độc lập (x). có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một đại lượng liên tục. ví dụ: dự đoán lưu lượng truy cập trong một cửa hàng bán lẻ, dự đoán thời gian người dùng ở trên một trang nhất định hoặc số lượng trang đã truy cập trên một trang web nhất định, v.v.

chuẩn bị

Để bắt đầu với hồi quy tuyến tính, hãy xem lại một số khái niệm toán học về thống kê.

  • tương quan (r): giải thích mối quan hệ giữa hai biến có giá trị có thể nằm trong khoảng từ -1 đến +1
  • phương sai (σ2): tính toán độ phân tán dữ liệu của bạn
  • độ lệch chuẩn (σ) – tính toán mức chênh lệch trong dữ liệu của bạn (căn bậc hai của phương sai)
  • phân phối chuẩn
  • lỗi (error) – {giá trị thực – giá trị dự đoán

giả định

Không có một kích thước nào phù hợp với tất cả, điều này cũng áp dụng cho hồi quy tuyến tính. Để đáp ứng hồi quy tuyến tính, dữ liệu phải thỏa mãn một số giả định quan trọng. nếu dữ liệu của bạn không tuân theo các giả định, kết quả của bạn có thể sai và gây hiểu nhầm.

  1. tuyến tính & amp; thêm: phải có mối quan hệ tuyến tính giữa biến độc lập và biến không độc lập và ảnh hưởng của sự thay đổi giá trị của các biến độc lập phải ảnh hưởng nhiều hơn đến biến phụ thuộc.
  2. tính chuẩn mực của phân phối sai số: chênh lệch giữa giá trị thực và giá trị dự đoán (sai số) phải được phân phối chuẩn.
  3. sự tương đồng: phương sai của lỗi phải là một giá trị không đổi so với,
  • thời gian
  • dự đoán
  • giá trị của các biến độc lập
  1. sự độc lập về mặt thống kê của các lỗi: các lỗi (còn lại) không được có bất kỳ mối tương quan nào với nhau. ví dụ: trong trường hợp dữ liệu chuỗi thời gian, không được có mối tương quan giữa các lỗi liên tiếp.

hồi quy tuyến tính

Sử dụng hồi quy tuyến tính, mục tiêu của chúng tôi là thu được một đường thẳng để tạo ra phân phối gần nhất với hầu hết các điểm. do đó giảm khoảng cách (lỗi) của các điểm dữ liệu đến dòng đó.

XEM THÊM:  Tháng 4 âm lịch 2022 là tháng gì

alt

Ví dụ: các dấu chấm trong hình trên (bên trái) đại diện cho các điểm dữ liệu khác nhau và đường (bên phải) biểu thị một giá trị gần đúng có thể giải thích mối quan hệ giữa x & amp; Y. thông qua hồi quy tuyến tính, chúng tôi cố gắng tìm một đường như vậy. Ví dụ: nếu chúng ta có một biến phụ thuộc y và một biến độc lập x, mối quan hệ giữa x và y có thể được biểu diễn dưới dạng phương trình sau:

tại đây,

  • y = biến phụ thuộc
  • x = biến độc lập
  • Β0 = hằng số
  • Β1 = hệ số quan hệ giữa x và y

một số thuộc tính của hồi quy tuyến tính

  • đường hồi quy luôn đi qua giá trị trung bình của biến độc lập (x) cũng như giá trị trung bình của biến phụ thuộc (y)
  • đường hồi quy tối thiểu tổng diện tích ” “tổng sai số”. Đó là lý do tại sao phương pháp hồi quy tuyến tính được gọi là “bình phương nhỏ nhất thông thường (OLS)”
  • Β1 giải thích sự thay đổi của y với sự thay đổi của x bằng một đơn vị. Nói cách khác, nếu chúng ta tăng giá trị của x lên một đơn vị, nó sẽ làm thay đổi giá trị của y

tìm hồi quy tuyến tính

Sử dụng các công cụ thống kê, ví dụ: excel, r, sas … bạn sẽ trực tiếp tìm thấy các hằng số (b0 và b1) là kết quả của hồi quy tuyến tính. giống như lý thuyết trước, nó hoạt động dựa trên khái niệm ols và cố gắng giảm vùng lỗi, những công cụ này sử dụng các gói phần mềm để tính toán các hằng số này.

Ví dụ: giả sử chúng ta muốn dự đoán y từ x trong bảng sau và giả sử phương trình hồi quy của chúng ta sẽ giống như y = b0 + b1 * x

tại đây,

nếu chúng ta phân biệt các tổng còn lại của vùng lỗi (rss) tương ứng với b0 & amp; b1 và tương đương với kết quả bằng không, kết quả là chúng ta thu được các phương trình sau:

nhập các giá trị từ bảng 1 vào các phương trình trên,

do đó, phương trình lạc hậu nhất trở thành –

hãy xem, dự đoán của chúng tôi là gì khi sử dụng phương trình này

chỉ với 10 điểm dữ liệu vừa với một dòng, dự đoán của chúng tôi sẽ rất chính xác, nhưng nếu chúng tôi thấy mối tương quan giữa ‘y-real’ và “y-dự đoán”, thì triển vọng rất cao, vì vậy cả hai chuỗi di chuyển cùng nhau và đây là biểu đồ để hiển thị giá trị dự đoán:

alt

hiệu suất mô hình

khi bạn xây dựng mô hình, câu hỏi tiếp theo xuất hiện trong đầu bạn là liệu mô hình của bạn có đủ để dự đoán tương lai hay không hoặc liệu mối quan hệ bạn đã xây dựng giữa các biến phụ thuộc và tính độc lập đã đủ chưa?

vì mục đích này, có nhiều chỉ số mà chúng ta phải tham khảo

Xem thêm: 2 cách làm bánh xèo miền Tây thơm ngon giòn rụm

công thức cho r ^ 2 sẽ là:

  • tổng diện tích (tss) : tss là thước đo tổng biến động trong tỷ lệ phản hồi / biến phụ thuộc y và có thể được coi là số lượng biến động vốn được bao gồm trong phản hồi trước khi thực hiện hồi quy.
  • tổng bình phương (rss) : rss đo lượng biến thể vẫn không giải thích được sau khi thực hiện hồi quy. quy định.
  • (tss – rss) đo lường mức độ thay đổi trong phản ứng được giải thích (hoặc loại bỏ) bằng cách chạy một hồi quy

trong đó n là số lượng quan sát được sử dụng để phù hợp với mô hình, σx là độ lệch chuẩn của x và σy là độ lệch chuẩn của y.

  • r2 nằm trong khoảng từ 0 đến 1.
  • r2 của 0 có nghĩa là biến phụ thuộc không thể được dự đoán từ biến độc lập
  • r2 của 1 có nghĩa là biến phụ thuộc biến có thể được dự đoán mà không có lỗi từ biến độc lập
  • r2 từ 0 đến 1 cho biết biến phụ thuộc có thể được dự đoán ở mức độ nào. r2 là 0,20 có nghĩa là 20% phương sai của y có thể được dự đoán từ x; r2 là 0,40 có nghĩa là 40% có thể dự đoán được, v.v. …
XEM THÊM:  Hero Team Là Ai? Số Điện Thoại Của Hero Team Là Gì ?

lỗi bình phương trung bình căn (rmse) rmse cho biết mức độ lan truyền của các giá trị được dự đoán từ các giá trị thực tế. công thức để tính rmse là

n: tổng số quan sát

Mặc dù rmse là một ước tính sai số tốt, nhưng vấn đề là nó rất dễ bị ảnh hưởng bởi phạm vi của biến phụ thuộc của bạn. nếu biến phụ thuộc của bạn có phạm vi hẹp, rmse của bạn sẽ thấp và nếu biến phụ thuộc của bạn có phạm vi rộng, rmse của bạn sẽ cao. do đó, rmse là một số liệu tốt để so sánh giữa các lần lặp lại khác nhau của mô hình

nghĩa là lỗi phần trăm tuyệt đối (bản đồ)

Để khắc phục những hạn chế của rmse, các nhà phân tích thích sử dụng mape thay vì rmse. mape đưa ra lỗi theo tỷ lệ phần trăm và do đó có thể so sánh giữa các mô hình. công thức tính mape có thể được viết như sau:

n: tổng số quan sát

hồi quy tuyến tính đa biến

Cho đến nay, chúng ta đã thảo luận về trường hợp chúng ta chỉ có một biến độc lập. nếu chúng ta có nhiều hơn một biến độc lập, phương pháp thích hợp nhất là “hồi quy tuyến tính bội số”.

sự khác biệt

Về cơ bản không có sự khác biệt giữa hồi quy tuyến tính ‘đơn giản’ và ‘đa biến’. cả hai đều hoạt động theo nguyên tắc ols và thuật toán để có được đường cong hồi quy tối ưu nhất là tương tự nhau. trong trường hợp thứ hai, phương trình hồi quy sẽ có dạng như sau:

tại đây,

bi: các hệ số khác nhau xi: các biến độc lập khác nhau

chạy hồi quy tuyến tính bằng python scikit-learning

ở trên, bạn đã biết rằng hồi quy tuyến tính là một kỹ thuật phổ biến và bạn cũng có thể xem các phương trình toán học của hồi quy tuyến tính. nhưng bạn có biết cách thực hiện hồi quy tuyến tính trong python không? có một số cách bạn có thể làm điều đó, bạn có thể thực hiện hồi quy tuyến tính bằng cách sử dụng các mô hình thống kê, học numpy, scipy và sckit. nhưng trong bài học này, chúng ta sẽ sử dụng sckit learning để thực hiện hồi quy tuyến tính.

scikit-learning là một mô-đun python mạnh mẽ dành cho học máy. chứa các hàm hồi quy, phân loại, phân cụm, lựa chọn mô hình và giảm kích thước. chúng ta sẽ khám phá mô-đun sklearn.linear_model chứa “các phương thức để thực hiện hồi quy, trong đó giá trị đích sẽ là sự kết hợp tuyến tính của các biến đầu vào”.

Trong bài đăng này, chúng tôi sẽ sử dụng Bộ dữ liệu nhà ở Boston, bộ dữ liệu này chứa thông tin về giá trị nhà ở ngoại ô Boston. tập dữ liệu này ban đầu được lấy từ thư viện statlib được duy trì tại trường đại học carnegie mellon và hiện có sẵn trong kho lưu trữ học máy uci.

khám phá tập dữ liệu của boston house

Bộ dữ liệu về nhà ở của boston bao gồm giá nhà ở các khu vực khác nhau của boston. Cùng với giá cả, tập dữ liệu cũng cung cấp các thông tin như tội phạm (tội phạm), các khu vực kinh doanh phi bán lẻ trong thành phố (indus), tuổi của chủ nhà (tuổi) và nhiều thuộc tính. các tài sản khác có sẵn ở đây. bản thân bộ dữ liệu có thể được tải xuống từ đây. tuy nhiên, vì chúng tôi sử dụng scikit-learning nên chúng tôi có thể nhập nó từ scikit-learning.

XEM THÊM:  Tôi học chuyên ngành tiếng anh là gì

Đầu tiên, chúng tôi sẽ nhập tập dữ liệu nhà ở boston và lưu trữ nó trong một biến có tên là boston. để nhập nó từ scikit-learning, chúng tôi sẽ cần chạy mã này.

biến boston là một từ điển, vì vậy chúng tôi có thể kiểm tra khóa của nó bằng cách sử dụng mã bên dưới.

sẽ trả lại thông tin sau

tiếp tục,

trước tiên, chúng tôi có thể dễ dàng kiểm tra hình dạng của nó bằng cách gọi boston.data.shape và nó sẽ trả về kích thước của tập dữ liệu với kích thước của cột.

Xem thêm: Bảo hiểm hàng hóa là gì? Bảo hiểm hàng hóa trong thương mại quốc tế?

như chúng ta có thể thấy, nó trả về (506, 13), có nghĩa là có 506 hàng dữ liệu với 13 cột. bây giờ chúng ta muốn biết 13 cột là gì. Chúng tôi sẽ thực thi đoạn mã sau:

bạn có thể sử dụng lệnh print (boston.descr) để kiểm tra mô tả dữ liệu thay vì mở web để đọc.

tiếp tục, chuyển đổi dữ liệu sang gấu trúc! rất đơn giản, hãy gọi pd.dataframe () và chuyển boston.data. chúng ta có thể kiểm tra 5 dữ liệu đầu tiên bằng bos.head ().

alt

hoặc bạn có thể sử dụng lệnh sau để hiển thị tên cột

alt

Dường như không có cột nào có tên là giá cả.

chúng tôi sẽ thêm nó bằng cách sử dụng mã trên

alt

nếu bạn muốn xem tổng hợp thống kê, hãy chạy mã sau.

alt

chia nhỏ dữ liệu cho chuyến tàu thử nghiệm

Về cơ bản, trước khi tách dữ liệu thành tập dữ liệu để huấn luyện – kiểm tra, chúng ta cần chia dữ liệu thành hai giá trị: giá trị mục tiêu và giá trị dự báo. chúng ta hãy gọi giá trị mục tiêu là y và các giá trị dự đoán là x. vì vậy,

Giờ đây, chúng tôi có thể chia nhỏ dữ liệu để đào tạo và kiểm tra bằng đoạn mã sau.

Nếu chúng tôi kiểm tra hình dạng của từng biến, chúng tôi nhận được tập dữ liệu với tập dữ liệu thử nghiệm với tỷ lệ 66,66% cho dữ liệu tàu và 33,33% cho dữ liệu thử nghiệm.

hồi quy tuyến tính

Tiếp theo, chúng tôi sẽ chạy hồi quy tuyến tính.

Đoạn mã trên sẽ phù hợp với mô hình dựa trên x_train và y_train. bây giờ chúng tôi có một mô hình tuyến tính, chúng tôi sẽ cố gắng dự đoán nó cho x_test và các giá trị dự đoán sẽ được lưu trữ trong y_pred. để hình dung sự khác biệt giữa giá thực tế và giá trị dự đoán, chúng tôi cũng tạo một bảng.

alt

Trên thực tế, đồ thị ở trên đáng lẽ phải tạo ra một đường thẳng như chúng ta đã thảo luận trong lý thuyết ở trên. tuy nhiên, mô hình không khớp 100% nên không thể tạo đường cong tuyến tính.

vùng lỗi trung bình

Để kiểm tra mức độ lỗi trong một mô hình, chúng tôi có thể sử dụng sai số bình phương trung bình. đây là một trong những phương pháp để đo sai số bình phương trung bình. về cơ bản nó kiểm tra sự khác biệt giữa giá trị thực tế và giá trị dự đoán. Để sử dụng nó, chúng ta có thể sử dụng hàm lỗi bình phương trung bình của scikit-learning bằng cách thực thi mã này

kết quả nhận được

Xem ngay: Bơm bong bóng bay nên sử dụng khí Heli hay Hidro? Vietxuangas

tham khảo và dịch

Vậy là đến đây bài viết về Mô hình hồi quy tuyến tính là gì đã dừng lại rồi. Hy vọng bạn luôn theo dõi và đọc những bài viết hay của chúng tôi trên website VCCIDATA.COM.VN

Chúc các bạn luôn gặt hái nhiều thành công trong cuộc sống!

Related Articles

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Back to top button