تعاریف و تنظیم داده های آماری :
تعاریف و توزیعهای آماری
تعریف علم آمار :
قبل از آنکه علم آمار تعریف گردد لازم است کمی راجع به تاریخچه آن سخن به میان بیاید تاریخچه علم آماررا می توان از بدو تشکیل دولتها آغاز کرد ، زیرا کلمه آمار Statusticesاز کلمه State به معنی دولت گرفته شده است . دولتهای اولیه نیز برای پی بردن به سلطه و قلمروخود احتیاج به آن داشتند . البته در آن زمان منظور از آمار ارقام و اطلاعات مورد نیاز دولتها برای گرفتن مالیات و سربازی و سایر امور مربوطه به کشورداری و سیاست بوده است .
از چند هزار سال قبل از مسیح در کشورهای مصر و چین و هندوستان قدیم سرشماری نفوس و همچنین اندازه میزان – دارائی تحت نفوذ دولتها انجام گردیده است و یا اینکه اغلب به طور ناقص انجام گردیده است ، با این حال همین شمارش های ابتدائی پایه و اساس آمار امروزی را بنیان نهاده است ولی تقریباً در نیم قرن اخیر همراه با سایر علوم ، علم آمار نیز سیر صعودی را پیموده و گاهی پیشتاز و پیش قراول بعضی از علوم بوده است ، که با استفاده از آن بود که اغلب علوم چند برابر سرعت سیر عادی خود را گرفتند ، زیرا روشها و فنونی که برای تحقیقات علمی ضروری هستند از علم آمار بدست میآید ، بخصوص در علوم فیزیکی و زیست شناسی و اجتماعی و اقتصادی بکار برده می شود . ناگفته نماند گاه ممکن است که یک روش معین تنها به منظور استفاده در یک رشته خاص پژوهش علمی طرح ریزی شده باشد . این بدان معنی نیست که در آن رشته بخصوص آمار کاربرد زیادی دارد .
از آنجائیکه علم آمار ریشه و علایقش به کلیه علوم بشری رسیده است ، امروزه در تمامی دانشگاههای جهان در اکثر رشته های مختلف دانشگاهی اعم از رشته های پزشکی ، فنی ، کشاورزی و برنامه ریزی و… تدریس می شود . برای آنکه هدف این درس بهتر معلوم شود ، لازم است بدواً علم آمار را تعریف نمائیم .
حال چند تعریف را از بین کلیه تعاریف که جامع تر به نظر می آید بیان می کنیم . لازم به تذکر است که برای علم آمار تعاریف زیادی شده است .
آمار علمی است که خواص جامعه را مورد بررسی قرار می دهد .
-
-(معادله در فایل اصلی موجود است)
4-3- واریانس 1
در میانگین قدر مطلق انحرافات برای اینکه انحرافات مثبت و منفی یکدیگر را خنثی نکنند آن را به صورت قدر مطلق بیان کردیم . این منظور از راه مجذور کردن انحرافات نیز ممکن بود تا فرمول از حالت جبری خارج نشود . بدین طریق مشخص کننده جدیدی از پراکندگی که از هر حیث بر مشخص کننده های قبلی برتری دارد بدست خواهد آمد که آن را واریانس می نامند و یا ، نمایش می دهند . ( واریانس واقعی جامعه را با نشان می دهند )
و عادتاً در این کتاب آن را با نشان خواهیم داد .
در صورتیکه داده های آماری به صورت جدول توزیع فراوانی باشد به بیان دیگر فراوانیهای مقادیر صفت یکسان نباشد ( مانند میانگین حسابی سا ده و میانگین وزنی ) فرمول واریانس به صورت زیر خواهد بود .
معمولا صورت واریانس یعنی مجموع مجذور و انحرافات از میانگین را با (2) و به طور خلاصه با SS نمایش می دهند در نتیجه فرمول واریانس در حالت کلی به زیر خواهد بود .
چو ن محاسبه واریانس به این صورت خالی از اشکال نیست (چرا ؟) بدین جهت صورت کسر واریانس (SS) را بسط داده به صورت زیر در می آیند .
(اثبات این فرمول بعهده دانشجویان گذارده می شود )
در نتیجه فرمول کلی واریانس عبارت خواهد بو د:
وگاهی را با علامت اختصاری یعنی عامل تصحیح (Correction Factor)
نشان می دهند .
و با استفاده از نتیج می شود که
در نتیجه فرمول عبارت خواهد بود از :
و فرمول واریانس نیز به صورت زیر در می آید .
ویا
در صورتی که داده های آماری به صورت فراوانی نسبی بیان شود فرمول واریانس برابر خواهد بود
مانند تمام مشخص کننده های پیش بهتر است محاسبه آن به کمک جدول انجام گیرد . یادآور می شود که در مقایسه دو یا چند جامعه ، جامعه ایکه واریانس آن کمتر است مقادیر صفت متغیر مورد مطالعه آن جامعه یکنواخت تر از جامعه های دیگر می باشد .
تبصره ((در مواردی که تعداد نمونه نسبت به تعداد کل جامعه خیلی کوچک باشد واریانس را از فرمول بدست می آورند ))
4-3-1- خواص واریانس
چون فرمول واریانس به صورت جبری بیان گردیده است لذا با توجه به فرمول آن می توان خواص زیر را بیان کرد و این خواص به ما کمک می کند که محاسبات را آسان تر بدست آوریم .
اگر از تمامی مقادیرصفت یک مقدار ثابت a کسر یا اضافه نمائیم مقدار آن تغییر نمی کند .
اگر تمام مقادیر صفت را بر مقدار ثابت تقسیم (یا ضرب ) نمائیم واریانس متغیر اصلی برابر کوچکتر ( اگر ضرب شود برابر بزرگتر) می شود .
اگر کلیه فراوانیها را به یک عدد ثابت تقسیم نمائیم مقدار وایانس تغییر نمی کند ( مانند میانگین )
اگر k جامعه به حجمهای و میانگین یا واریانسهای را باهم جمع نمائیم واریانس جامعه کل که از ترکیب شدن آنها تشکیل شده است مساوی است با میانگین واریانس های جامعه های جزء ، بعلاوه واریانس میانگینهای آنها در حول میانگین کل یعنی :
که در آن میانگین کل می باشد .
مثال 11- واریانس توزیعهای زیر را محاسبه نموده و بیان کنید که کد ام یک یکنواخت تر است .
(معادله در فایل اصلی موجود است)
برای حل توزیع Y از کلیه مقادیر صفت (y) 1000 کم کرده و فراوانیها را بر 100 تقسیم می کنیم طبق خواص واریانس مقدار آن تغییر نمی کند و در نتیجه خواهیم داشت :
(معادله در فایل اصلی موجود است)
چون کوچکتر از است در نتیجه جامعه x یکنواخت تر از جامعه y می باشد .
مثال 12- برای جدول توزیع فراوانی زیر واریانس را محاسبه نمائید (مثل 6 میانگین )
4-4- انحراف معیار 1
یکی دیگر از مشخص کننده های پراکندگی انحراف معیار است ، این مشخص کننده بر سایر مشخص کننده های پراکندگی رجحان دارد . در پاراگراف زیر راجع به انحراف معیار سخن می رانیم .
انحراف معیار عبارت است از جذر واریانس و آن را با علامت S یا نمایش می دهند وقتی از جامعه نمونه انتخاب شود انحراف معیار نمونه ها از فرمول
محاسبه می شود .
حال بیان می کنیم که چرا این مشخص کننده بر دیگر مشخص کننده های پراکندگی برتری دارد ، اگر صف متغییر X مثلا بیانگر ساعت باشد در این صورت واریانس مساوی است با مجذور ساعت . و یا اگر گویای مزد کارگران باشد واریانس مساوی با مجذور تومان می شود . این مطلب هرگز صحیح نیست و تصور گمراه کننده ای ایجاد می کند . اینجاست که باید گفت مقیاس پارامتر پراکندگی باید بر حسب همان واحدی بیان گردد که مقادیر متغییر (داده های آماری ) بر حسب آن واحد اندازه گیری می شود . بدین دلیل جذر واریانس به عنوان یک مشخص کننده برتر نسبت به سایر مشخص کننده ها ی پراکندگی به کار برده می شود .
در اینجا بیان این نکته ضروری است که انحراف معیار هرگز از انحراف متوسط کوچکتر نمی شود( ) و برای نمونه های بزرگتر اگرتوزیع مقادیر نرمال نزدیکتر باشد می توان گفت که نسبت انحراف معیار بر انحراف متوسط تقریباً برابر با 25/1 می باشد به عنوان مثال واریانس را که قبلاً محاسبه کرده بودیم ، انحراف معیار آن را محاسبه می کنیم :
لازم است گفته شود که برای این دادها میانگین قدر مطلق انحرافات نیز قبلا محاسبه گردیده است به طوری که ملاحظه می شود می باشد .
7- ضریب همبستگی 1
ضریب همبستگی که آن را با r و یا با p نشان می دهند شاخصی است که به منظور تعیین نوع همبستگی و میزان درجه رابطه بین صفات بکار برده می شود و مقدار آن بین یک و منهای یک نوسان می کند یعنی اگر بیان کننده این است که بین متغیر های همبستگی به طور کامل ولی معکوس وجود دارد که البته این دو حالت بندرت پیش می آید ولی اگر باشد معنی و مفهوم آن این است که بین دو متغیر مورد مطالعه مطلقاً همبستگی وجود ندارد وقتی r منفی باشد بیانگر این مطلب است که در معادله مقدار a مثبت است .()
فرمول ضریب همبستگی عبارت است از
که آن را ضریب همبستگی پیرسون می نامند . که در آن قبلا گفته شده و نیز عبارت است از
یعنی صورت کسر واریانس x و y تواما می باشد که آن را کواریانس (Covariance) y و X می نامند . و فرمول آن عبارت است از :
البته کواریانس عبارت است از مشخص کننده ای است که برای تعیین جهت همبستگی بکار برده می شود .
با توجه به اینکه مخرج r یا P عبارت است از در نتیجه ضریب همبستگی را می توان چنین نیز نوشت :
کواریانس
(معادله در فایل اصلی موجود است)
میانگین هندسی واریانس
(معادله در فایل اصلی موجود است)
می توان آن را به صورت ساده زیر نشان داد :
لازم به یاد آوری است که اگر جدول مورد مطالعه ( داده های آماری ) دو بعدی باشد مجموع حاصل ضرب های یعنی چنین خواهد بود :
مجذور را ضریب تعیین می نامند که راجع به آن بعداً سخن به میان خواهد آمد .