ຮຽນຮູ້ແນວໃດ Regression Linear ງ່າຍແລະວິທີການເຮັດວຽກ

ວິທີການວິເຄາະສະຖິຕິຂັ້ນພື້ນຖານໃນການວິເຄາະຂໍ້ມູນປະລິມານ

Courtesy Colin Broug, ຊ່າງຖ່າຍພາບ June 10,2010 Stockxchng

ຕົວແບບການກະຕຸ້ນເສັ້ນໄລຍະແມ່ນໃຊ້ເພື່ອສະແດງຫລືຄາດເດົາຄວາມສໍາພັນລະຫວ່າງສອງ ຕົວແປຫລືປັດໃຈ . ປັດໄຈທີ່ຖືກຄາດຄະເນ (ປັດໃຈທີ່ສົມເຫດສົມຜົນ ສໍາລັບ ) ເອີ້ນວ່າ dependent variable ປັດໄຈທີ່ຖືກນໍາໃຊ້ເພື່ອການຄາດຄະເນມູນຄ່າຂອງຕົວແປທີ່ຂຶ້ນກັບແມ່ນເອີ້ນວ່າຕົວແປອິສະລະ.

ຂໍ້ມູນທີ່ດີບໍ່ໄດ້ບອກເລື່ອງຄົບຖ້ວນ. ການວິເຄາະຄວາມຖີ່ແມ່ນຖືກນໍາໃຊ້ໂດຍທົ່ວໄປໃນການຄົ້ນຄ້ວາຍ້ອນວ່າມັນສ້າງຄວາມສໍາພັນລະຫວ່າງຕົວແປ.

ແຕ່ ຄວາມກ່ຽວຂ້ອງບໍ່ແມ່ນຄືກັນກັບເຫດຜົນ . ເຖິງແມ່ນວ່າເສັ້ນໃນການກະຕຸ້ນເສັ້ນແບບງ່າຍດາຍທີ່ເຫມາະສົມກັບຈຸດຂໍ້ມູນທີ່ດີອາດຈະບໍ່ເວົ້າວ່າບາງສິ່ງບາງຢ່າງທີ່ແນ່ນອນກ່ຽວກັບສາຍພົວພັນໃນເຫດຜົນແລະຜົນ.

ໃນການກະຕຸ້ນເສັ້ນແບບງ່າຍດາຍ, ແຕ່ລະ ການສັງເກດການ ປະກອບດ້ວຍສອງຄຸນຄ່າ. ຫນຶ່ງໃນມູນຄ່າແມ່ນສໍາລັບຕົວແປທີ່ຂຶ້ນກັບແລະຄ່າຫນຶ່ງແມ່ນສໍາລັບຕົວແປອິສະລະ.

Simple Linear Regression Model

ຕົວແບບການສືບທອດເສັ້ນແບບງ່າຍດາຍແມ່ນຕົວຢ່າງນີ້: y = ( β 0 + β 1 + Ε

ໂດຍການສົນທະນາຄະນິດສາດ, ທັງສອງປັດໄຈທີ່ກ່ຽວຂ້ອງກັບການວິເຄາະການກະຕຸ້ນເສັ້ນທ່ຽງແບບງ່າຍດາຍແມ່ນ x ແລະ y ກໍານົດ.

ສະມະການທີ່ອະທິບາຍວ່າ y ແມ່ນກ່ຽວຂ້ອງກັບ x ແມ່ນເປັນ ຕົວແບບ regression . ຮູບແບບການກະຕຸ້ນເສັ້ນທາງຍັງມີຂໍ້ຄວາມທີ່ຜິດພາດເຊິ່ງເປັນຕົວແທນໂດຍ Ε , ຫຼືຈົດຫມາຍເອ ເລັກໂຕຣນິກ ເຣັກ. ໄລຍະຄວາມຜິດພາດຖືກນໍາໃຊ້ເພື່ອບັນຊີສໍາລັບການປ່ຽນແປງໃນ y ທີ່ບໍ່ສາມາດອະທິບາຍໄດ້ໂດຍການ ພົວພັນທາງເສັ້ນ ລະຫວ່າງ x ແລະ y .

ມີຕົວກໍານົດທີ່ເປັນຕົວແທນຂອງປະຊາກອນທີ່ຖືກສຶກສາ. ຕົວກໍານົດ ເຫຼົ່ານີ້ ຂອງຕົວແບບ ທີ່ຖືກສະແດງໂດຍ ( β 0+ β 1 x ).

Simple Linear Regression Model

ສົມຜົນ regression ເສັ້ນທັມແບບງ່າຍດາຍແມ່ນຕົວແທນນີ້: Ε ( y ) = ( β 0 + β 1 x ).

ສົມຜົນສະຖຽນລະພາບທາງເສັ້ນແບບງ່າຍດາຍແມ່ນເສັ້ນທາງເສັ້ນຊື່.

( β 0 ແມ່ນ intercept y ຂອງເສັ້ນ regression ໄດ້.

1 ແມ່ນຂີ້ເຫຍື້ອ.

Ε ( y ) ແມ່ນຄ່າເສລີ່ຍຫຼືຄາດວ່າຂອງ y ສໍາລັບຄ່າຂອງ x .

ເສັ້ນຄ່ອຍໆສາມາດສະແດງໃຫ້ເຫັນສາຍພົວພັນທາງເສັ້ນທາງບວກ, ສາຍພົວພັນທາງລົບທີ່ບໍ່ດີ, ຫຼືບໍ່ມີຄວາມສໍາພັນ. ຖ້າເສັ້ນລຽບໃນບັນທັດຊ້ໍາແບບງ່າຍດາຍແມ່ນແປ (ບໍ່ແມ່ນເປີ້ນ), ບໍ່ມີຄວາມສໍາພັນລະຫວ່າງສອງຕົວແປ. ຖ້າເສັ້ນຄ່ອຍໆຊ້າລົງກັບເສັ້ນຕ່ໍາສຸດຂອງເສັ້ນຢູ່ທີ່ຈຸດສູນກາງ y ຂອງກາຟແລະເສັ້ນທາງເທິງສຸດຂອງເສັ້ນທາງກ້າວຂຶ້ນສູ່ສະຫນາມກາຟ, ຫ່າງຈາກຈຸດສູນກາງ ( x ) ທີ່ຢູ່ ຖ້າເສັ້ນ regression ຫຼຸດລົງກັບເສັ້ນເທິງຂອງເສັ້ນຢູ່ທີ່ຈຸດສູນກາງ y ຂອງກາຟແລະເສັ້ນຕ່ໍາຂອງເສັ້ນທີ່ຂະຫຍາຍລົງໄປໃນພາກສະຫນາມກາຟໄປຫາເຈາະ intercept ( x ) ເຊິ່ງມີສາຍພົວພັນທາງລົບທີ່ມີທາງລົບ.

Estimated Linear Regression Equation

ຖ້າຫາກວ່າ ຕົວກໍານົດຂອງປະຊາກອນ ໄດ້ເປັນທີ່ຮູ້ຈັກ, ສົມຜົນສະຖຽນລະພາບທາງເສັ້ນແບບງ່າຍດາຍ (ສະແດງໃຫ້ເຫັນຂ້າງລຸ່ມນີ້) ສາມາດຖືກນໍາໃຊ້ເພື່ອຄໍານວນຄ່າເສລີ່ຍຂອງ y ສໍາລັບຄ່າທີ່ຮູ້ຈັກຂອງ x .

( y ) = (0 + 1 x ).

ຢ່າງໃດກໍ່ຕາມ, ໃນປະຕິບັດ, ຄ່າພາລາມິເຕີແມ່ນບໍ່ຮູ້, ດັ່ງນັ້ນພວກເຂົາຕ້ອງໄດ້ຮັບການຄາດຄະເນໂດຍການນໍາໃຊ້ ຂໍ້ມູນຈາກຕົວຢ່າງ ຂອງປະຊາກອນ. ຕົວກໍານົດການປະຊາກອນຖືກຄາດຄະເນໂດຍການນໍາໃຊ້ສະຖິຕິຕົວຢ່າງ . ສະຖິຕິຕົວຢ່າງ ແມ່ນຕົວເລກໂດຍ b 0 + b 1. ເມື່ອສະຖິຕິຕົວຢ່າງຖືກແທນທີ່ຕົວກໍານົດຂອງປະຊາກອນ, ສົມຜົນສະຖຽນລະພາບທີ່ຄາດວ່າຈະຖືກສ້າງຂຶ້ນ.

ສົມຜົນ regression ຄາດຄະເນສະແດງໃຫ້ເຫັນຂ້າງລຸ່ມນີ້.

( ) = (0 + 1 x

( ½ ) ແມ່ນ pronounced y hat .

ກາຟຂອງສົມຜົນ regression ງ່າຍດາຍທີ່ຄາດວ່າຈະຖືກເອີ້ນວ່າເສັ້ນ regression ຄາດ.

b 0 ແມ່ນ intercept y.

b 1 ແມ່ນຂີ້ເຫຍື້ອ.

ω ) ແມ່ນມູນຄ່າປະມານຂອງ y ສໍາລັບມູນຄ່າຂອງ x .

ຫມາຍເຫດສໍາຄັນ: ການວິເຄາະຄວາມຖີ່ບໍ່ໄດ້ຖືກນໍາໃຊ້ເພື່ອຕີຄວາມ ສໍາພັນ ລະຫວ່າງ ເຫດຜົນແລະຜົນກະທົບ ລະຫວ່າງຕົວແປ. ແນວໃດກໍ່ຕາມ, ການວິເຄາະຄວາມຖີ່ສາມາດ ສະແດງໃຫ້ເຫັນວ່າວິທີທີ່ກ່ຽວຂ້ອງມີຄວາມກ່ຽວຂ້ອງ ຫຼື ກ່ຽວ ກັບອັດຕາ ສ່ວນທີ່ກ່ຽວຂ້ອງ ກັບກັນ.

ໃນການດໍາເນີນການດັ່ງນັ້ນ, ການວິເຄາະການກະຕຸ້ນເຕືອນມັກຈະເຮັດໃຫ້ສາຍພົວພັນທີ່ສໍາຄັນທີ່ຮັບປະກັນໃຫ້ນັກຄົ້ນຄວ້າທີ່ມີຄວາມຮູ້ຄວາມ ເຂົ້າໃຈໃກ້ຊິດ .

ຍັງໄດ້ຖືກເອີ້ນວ່າ: ການຖົດຖອຍຂອງ bivariate, ການວິເຄາະການກະຕຸ້ນ

ຕົວຢ່າງ: ວິທີ ການຂະຫນາດ ນ້ອຍ ແມ່ນຂັ້ນຕອນສະຖິຕິສໍາລັບ ການນໍາໃຊ້ຂໍ້ມູນຕົວຢ່າງ ເພື່ອຊອກຫາມູນຄ່າຂອງສົມຜົນ regression ຄາດ. ວິທີການຮຽບຮ້ອຍຮຸ້ນໄດ້ຖືກສະເຫນີໂດຍ Carl Friedrich Gauss, ຜູ້ທີ່ເກີດມາໃນປີ 1777 ແລະໄດ້ເສຍຊີວິດໃນປີ 1855. ວິທີການຮຽບຮ້ອຍທີ່ສຸດແມ່ນຍັງໃຊ້ກັນຢ່າງກວ້າງຂວາງ.

ແຫຼ່ງຂໍ້ມູນ:

Anderson, DR, Sweeney, DJ, ແລະ Williams, TA (2003). ສິ່ງສໍາຄັນຂອງສະຖິຕິສໍາລັບທຸລະກິດແລະເສດຖະກິດ (3rd ed.) Mason, Ohio: ທິດຕະວັນຕົກສຽງໃຕ້, Thompson Learning.

______ (2010) ອະທິບາຍ: ການວິເຄາະຄວາມຖີ່. MIT News

McIntyre, L (1994) ການນໍາໃຊ້ຂໍ້ມູນຢາສູບສໍາລັບການນໍາສະເຫນີການລອກຄາບຫລາຍ. ວາລະສານສະຖິຕິການສຶກສາ, 2 (1).

Mendenhall, W. , ແລະ Sincich, T. (1992). ສະຖິຕິສໍາລັບວິສະວະກໍາແລະວິທະຍາສາດ (3rd ed.), ນິວຢອກ, NY: Dellen Publishing Co.

Panchenko, D. 18.443 ສະຖິຕິສໍາລັບຄໍາຮ້ອງສະຫມັກ, ຫຼຸດລົງ 2006, ພາກ 14, Simple Linear Regression. (Massachusetts Institute of Technology: MIT OpenCourseWare)