
UG-PSYCHOLOGY, SEMESTER-3, MJC-3, UNIT-2
UNIT-2 (2.1) Basic concept of Descriptive and Inferential statistics.
वर्णनात्मक और अनुमानात्मक सांख्यिकी की मूल अवधारणाएँ
परिचय
सांख्यिकी (Statistics) गणित की एक शाखा है, जो डेटा के संग्रहण, विश्लेषण, व्याख्या और प्रस्तुति से संबंधित है। यह व्यवसाय, स्वास्थ्य, मनोविज्ञान, सामाजिक विज्ञान और इंजीनियरिंग सहित विभिन्न क्षेत्रों में महत्वपूर्ण भूमिका निभाती है। सांख्यिकी को मुख्य रूप से दो भागों में विभाजित किया जाता है:
- वर्णनात्मक सांख्यिकी (Descriptive Statistics) – यह डेटा को सारांशित और व्यवस्थित करने का कार्य करती है।
- अनुमानात्मक सांख्यिकी (Inferential Statistics) – यह एक छोटे नमूने (Sample) से पूरे जनसंख्या (Population) के बारे में निष्कर्ष निकालने में मदद करती है।
दोनों प्रकार के सांख्यिकी डेटा विश्लेषण में अलग-अलग कार्य करते हैं, लेकिन वे आपस में जुड़े हुए हैं। इस निबंध में इनकी मूल अवधारणाओं, अंतर, तकनीकों और अनुप्रयोगों का विस्तार से अध्ययन किया जाएगा।
1. वर्णनात्मक सांख्यिकी (Descriptive Statistics)
परिभाषा
वर्णनात्मक सांख्यिकी वे विधियाँ होती हैं, जो किसी डेटा को सारांशित (Summarize) और व्यवस्थित (Organize) करके उसे समझने योग्य बनाती हैं। यह डेटा का केवल वर्णन करती है और उसके आधार पर कोई निष्कर्ष या पूर्वानुमान नहीं लगाती।
मुख्य विशेषताएँ
- बड़े डेटा सेट को सारांशित करती है तालिकाओं, ग्राफ़ और संख्यात्मक मापों के माध्यम से।
- कोई निष्कर्ष या पूर्वानुमान नहीं लगाती, केवल डेटा का वर्णन करती है।
- पैटर्न और संबंध खोजने के लिए उपयोग की जाती है।
वर्णनात्मक सांख्यिकी के प्रकार
1.1 केंद्रीय प्रवृत्ति के माप (Measures of Central Tendency)
ये माप डेटा के केंद्र को दर्शाते हैं:
- माध्य (Mean): सभी मूल्यों का योग, कुल मूल्यों की संख्या से विभाजित।
- उदाहरण: किसी कक्षा के छात्रों की औसत ऊँचाई।
- माध्यिका (Median): डेटा को बढ़ते क्रम में व्यवस्थित करने के बाद मध्य में स्थित मान।
- उदाहरण: एक समूह की औसत आय।
- बहुलक (Mode): सबसे अधिक बार आने वाला मान।
- उदाहरण: एक परीक्षा में सबसे ज्यादा स्कोर किया गया अंक।
1.2 प्रसार के माप (Measures of Dispersion)
ये माप यह दर्शाते हैं कि डेटा कितना फैला हुआ है।
- परास (Range): सबसे बड़ा मान – सबसे छोटा मान।
- उदाहरण: यदि परीक्षा में उच्चतम अंक 95 और न्यूनतम 55 हैं, तो परास 40 होगा।
- विचलन (Variance): माध्य से डेटा की भिन्नता को दर्शाता है।
- मानक विचलन (Standard Deviation): विचलन का वर्गमूल, डेटा की फैलावट को मापने के लिए।
- उदाहरण: यदि दो कक्षाओं में औसत अंक समान हैं, लेकिन एक में मानक विचलन अधिक है, तो उस कक्षा के अंकों में अधिक विविधता होगी।
1.3 डेटा का ग्राफ़िकल प्रतिनिधित्व
डेटा को ग्राफ़ के रूप में प्रस्तुत करने से उसे समझना आसान हो जाता है।
- हिस्टोग्राम (Histogram): डेटा की आवृत्ति (Frequency) को दर्शाता है।
- बार ग्राफ़ (Bar Graph): विभिन्न श्रेणियों की तुलना करता है।
- पाई चार्ट (Pie Chart): विभिन्न श्रेणियों का अनुपात दर्शाता है।
- बॉक्स प्लॉट (Box Plot): माध्य, क्वार्टाइल और बाह्य मूल्यों (Outliers) को दिखाता है।
वर्णनात्मक सांख्यिकी के अनुप्रयोग
- शिक्षा: छात्रों के परीक्षा परिणामों का विश्लेषण।
- व्यवसाय: ग्राहकों की प्राथमिकताओं को समझना।
- स्वास्थ्य: मरीजों के स्वास्थ्य रिकॉर्ड का सारांश बनाना।
- खेल: खिलाड़ियों की प्रदर्शन सांख्यिकी की तुलना करना।
उदाहरण के लिए, एक कंपनी अलग-अलग शहरों में मासिक बिक्री के औसत की गणना करने के लिए वर्णनात्मक सांख्यिकी का उपयोग कर सकती है।
2. अनुमानात्मक सांख्यिकी (Inferential Statistics)
परिभाषा
अनुमानात्मक सांख्यिकी वह विधियाँ होती हैं, जो एक छोटे नमूने (Sample) के आधार पर पूरी जनसंख्या (Population) के बारे में निष्कर्ष निकालती हैं।
मुख्य विशेषताएँ
- नमूने के आधार पर जनसंख्या का पूर्वानुमान करती है।
- संभाव्यता सिद्धांत (Probability Theory) पर आधारित होती है।
- परिकल्पना परीक्षण (Hypothesis Testing) और विश्वास अंतराल (Confidence Intervals) का उपयोग करती है।
अनुमानात्मक सांख्यिकी के प्रकार
2.1 नमूकरण और जनसंख्या (Sampling and Population)
- जनसंख्या (Population): संपूर्ण समूह जिसका अध्ययन किया जा रहा है।
- नमूना (Sample): जनसंख्या का एक छोटा भाग, जिस पर अध्ययन किया जाता है।
- यादृच्छिक नमूकरण (Random Sampling): सुनिश्चित करता है कि प्रत्येक व्यक्ति को चुने जाने का समान अवसर मिले।
2.2 परिकल्पना परीक्षण (Hypothesis Testing)
यह परीक्षण यह निर्धारित करने में मदद करता है कि कोई धारणा सही है या नहीं।
- शून्य परिकल्पना (H₀): कहती है कि कोई महत्वपूर्ण अंतर या प्रभाव नहीं है।
- वैकल्पिक परिकल्पना (H₁): कहती है कि कोई महत्वपूर्ण अंतर या प्रभाव है।
उदाहरण:
यदि एक कंपनी दावा करती है कि उसका नया आहार पूरक 1 महीने में 5 किलो वजन कम करता है, तो इस दावे की वैधता परिकल्पना परीक्षण द्वारा सत्यापित की जा सकती है।
2.3 विश्वास अंतराल (Confidence Interval)
यह अनुमान लगाता है कि किसी आबादी का मापित मूल्य किसी सीमा के भीतर कितना सटीक है।
उदाहरण:
यदि एक सर्वेक्षण से पता चलता है कि 60% लोग किसी नेता का समर्थन करते हैं और विश्वास अंतराल ±3% है, तो सही समर्थन स्तर 57% से 63% के बीच होगा।
2.4 सहसंबंध और प्रतिगमन (Correlation and Regression)
- सहसंबंध (Correlation): दो चरों के बीच संबंध को मापता है।
- प्रतिगमन (Regression): एक चर के आधार पर दूसरे का अनुमान लगाता है।
उदाहरण:
एक अध्ययन में पाया गया कि अध्ययन के घंटे और परीक्षा स्कोर के बीच सकारात्मक सहसंबंध (r = 0.85) है, यानी अधिक अध्ययन करने वाले छात्रों के अंक अधिक होते हैं।
2.5 t-परीक्षण और ANOVA (Analysis of Variance)
- t-परीक्षण (t-Test): दो समूहों की औसत तुलना करता है।
- ANOVA: तीन या अधिक समूहों की औसत तुलना करता है।
उदाहरण:
t-परीक्षण का उपयोग यह जांचने के लिए किया जा सकता है कि पुरुष और महिला कर्मचारियों के वेतन में कोई महत्वपूर्ण अंतर है या नहीं।
अनुप्रयोग
- चिकित्सा: किसी नई दवा की प्रभावशीलता जांचना।
- अर्थशास्त्र: भविष्य में मुद्रास्फीति दर की भविष्यवाणी करना।
- विपणन: उपभोक्ता व्यवहार का विश्लेषण करना।
- राजनीति: चुनाव परिणामों का पूर्वानुमान लगाना।
3. वर्णनात्मक और अनुमानात्मक सांख्यिकी में अंतर
| विशेषता | वर्णनात्मक सांख्यिकी | अनुमानात्मक सांख्यिकी |
| उद्देश्य | डेटा का सारांश देना | निष्कर्ष निकालना |
| डेटा उपयोग | पूरे डेटा का उपयोग | नमूने पर आधारित |
| तकनीकें | माध्य, माध्यिका, बहुलक | परिकल्पना परीक्षण, प्रतिगमन |
निष्कर्ष
वर्णनात्मक और अनुमानात्मक सांख्यिकी डेटा विश्लेषण के दो आवश्यक भाग हैं। वर्णनात्मक सांख्यिकी डेटा को सारांशित करती है, जबकि अनुमानात्मक सांख्यिकी पूर्वानुमान और निष्कर्ष निकालने
में मदद करती है। दोनों का उपयोग विज्ञान, व्यापार, चिकित्सा और अन्य क्षेत्रों में किया जाता है, जिससे डेटा-संचालित निर्णय लेने में सहायता मिलती है।
UNIT-2 (2.1) Basic concept of Descriptive and Inferential statistics.
Introduction
Statistics is a branch of mathematics that deals with collecting, analyzing, interpreting, and presenting data. It plays a crucial role in various fields, including business, healthcare, psychology, social sciences, and engineering. Broadly, statistics is divided into two major types:
- Descriptive Statistics – It deals with summarizing and organizing data.
- Inferential Statistics – It involves making predictions and generalizations from a sample to a population.
Both types serve different purposes but are interconnected in data analysis. This essay explores their fundamental concepts, differences, techniques, and applications.
1. Descriptive Statistics
Definition
Descriptive statistics refers to the methods used to summarize and organize data in a meaningful way. It provides simple summaries and graphical representations of data but does not allow for generalizations beyond the specific dataset.
Key Features
- Summarizes large data sets using tables, graphs, and numerical measures.
- No conclusions or predictions about the population, only describes the data.
- Used in raw data analysis to find patterns and relationships.
Types of Descriptive Statistics
Descriptive statistics can be divided into three main categories:
1.1 Measures of Central Tendency
These measures represent the center or typical value of a dataset.
- Mean (Arithmetic Average): Sum of all values divided by the total number of observations.
- Example: The average height of students in a class.
- Median: The middle value when data is arranged in ascending order.
- Example: The median income of a group of people.
- Mode: The most frequently occurring value in a dataset.
- Example: The most common exam score in a classroom.
1.2 Measures of Dispersion (Variability)
These measures show how much the data varies or spreads out.
- Range: The difference between the highest and lowest value.
- Example: If the highest test score is 95 and the lowest is 55, the range is 40.
- Variance: The average squared difference from the mean, showing how spread out the data is.
- Standard Deviation: The square root of variance, used to measure data dispersion.
- Example: If two groups have the same average score but different standard deviations, the group with a higher standard deviation has more variation.
1.3 Graphical Representation of Data
Visual representation makes data easier to understand.
- Histograms: Used for frequency distribution.
- Bar Graphs: Used for categorical data comparisons.
- Pie Charts: Show proportions of categories.
- Box Plots: Show median, quartiles, and outliers.
Applications of Descriptive Statistics
- Education: Analyzing student performance.
- Business: Understanding customer preferences.
- Healthcare: Summarizing patient health records.
- Sports: Comparing player statistics.
For example, a company may use descriptive statistics to determine the average monthly sales in different regions.
2. Inferential Statistics
Definition
Inferential statistics involves making predictions or inferences about a population based on a sample. It helps researchers determine the probability that their conclusions apply to a larger group.
Key Features
- Uses sample data to make predictions about a population.
- Involves probability theory to determine the reliability of results.
- Can be used for hypothesis testing and confidence intervals.
Types of Inferential Statistics
Inferential statistics primarily includes hypothesis testing and estimation techniques to draw conclusions.
2.1 Sampling and Population
- Population: The entire group being studied.
- Sample: A smaller subset of the population used for analysis.
- Random Sampling: A method to ensure every individual has an equal chance of selection.
For example, to estimate the average height of all university students, a researcher might measure a sample of 500 students.
2.2 Hypothesis Testing
Hypothesis testing determines whether an assumption (hypothesis) about a population is true.
- Null Hypothesis (H₀): States there is no significant difference or effect.
- Alternative Hypothesis (H₁): Suggests a significant difference or effect exists.
Example:
A company claims that their new diet pill helps people lose 5 kg in a month. A study with 100 participants is conducted to test whether this claim is statistically significant.
2.3 Confidence Intervals
A confidence interval estimates the range in which a population parameter (e.g., mean) is likely to fall.
Example:
A survey finds that 60% of voters support a candidate, with a 95% confidence interval of ±3%. This means the true support level is likely between 57% and 63%.
2.4 Correlation and Regression Analysis
- Correlation: Measures the relationship between two variables (e.g., height and weight).
- Regression: Predicts the value of one variable based on another.
Example:
A study finds a positive correlation (r = 0.85) between hours studied and exam scores, meaning students who study more tend to score higher.
2.5 t-Test and ANOVA (Analysis of Variance)
- t-Test: Compares the means of two groups.
- ANOVA: Compares the means of three or more groups.
Example:
A t-test could compare the average salary of male and female employees to determine if there is a significant difference.
Applications of Inferential Statistics
- Medicine: Determining if a new drug is effective.
- Economics: Predicting future inflation rates.
- Marketing: Analyzing customer behavior trends.
- Political Science: Predicting election results.
For instance, political analysts use inferential statistics to predict election outcomes based on pre-election surveys.
3. Differences Between Descriptive and Inferential Statistics
| Feature | Descriptive Statistics | Inferential Statistics |
| Purpose | Summarizes and describes data | Makes predictions and generalizations |
| Data Usage | Uses the entire dataset | Uses a sample to infer about a population |
| Techniques | Measures of central tendency, dispersion, graphs | Hypothesis testing, confidence intervals, regression |
| Example | Average test score of students in one school | Predicting national student performance based on a sample |
For example, calculating the average salary of employees in a company is descriptive statistics, but using a sample to predict the national average salary is inferential statistics.
4. Importance of Descriptive and Inferential Statistics
Both descriptive and inferential statistics are essential for decision-making and research:
- In Science and Research: Helps in analyzing experiments and drawing conclusions.
- In Business and Marketing: Assists in understanding market trends and customer behavior.
- In Healthcare: Used for clinical trials and medical research.
- In Education: Helps evaluate student performance and teaching methods.
- In Government and Policy Making: Guides policy decisions and economic planning.
For example, the COVID-19 pandemic saw extensive use of descriptive statistics (tracking daily cases) and inferential statistics (predicting future infection rates).
Conclusion
Descriptive and inferential statistics are two fundamental branches of statistical analysis. Descriptive statistics helps summarize data, while inferential statistics allows us to make predictions and draw conclusions. Both are widely used in various fields, from research and medicine to business and social sciences. Understanding these concepts enables researchers and professionals to make informed, data-driven decisions.
By applying the right statistical methods, we can gain valuable insights from data, ultimately leading to better planning, innovation, and problem-solving in diverse fields.
UNIT-2 (2.2) Frequency distribution of data and Graphic presentation: Histogram, Polygon and Ogive.
डेटा का आवृत्ति वितरण और उसका ग्राफ़िक प्रस्तुतीकरण: हिस्टोग्राम, पॉलीगॉन और ओगिव
परिचय
सांख्यिकी में, डेटा को अक्सर बड़ी मात्रा में एकत्र किया जाता है, जिससे इसे सीधे समझना और विश्लेषण करना मुश्किल हो सकता है। इसलिए, डेटा को आवृत्ति वितरण (Frequency Distribution) में व्यवस्थित किया जाता है और उसे विभिन्न ग्राफ़िक विधियों (Graphical Methods) जैसे हिस्टोग्राम (Histogram), आवृत्ति बहुभुज (Frequency Polygon), और ओगिव (Ogive) द्वारा प्रदर्शित किया जाता है।
ये ग्राफ़ डेटा की प्रवृत्ति, वितरण और पैटर्न को आसानी से समझने में मदद करते हैं। इस निबंध में हम आवृत्ति वितरण की अवधारणा, इसके प्रकार, निर्माण की विधियाँ, और इसके ग्राफ़िक प्रतिनिधित्व को विस्तार से समझेंगे।
1. डेटा का आवृत्ति वितरण (Frequency Distribution of Data)
परिभाषा
आवृत्ति वितरण एक सांख्यिकीय तकनीक है, जिसमें डेटा को अलग-अलग वर्गों (Classes) या समूहों (Groups) में विभाजित किया जाता है और हर वर्ग में आने वाले मानों की संख्या (Frequency) को दर्ज किया जाता है। यह बड़ी मात्रा में डेटा को संक्षेप में प्रस्तुत करने में मदद करता है।
मुख्य विशेषताएँ
- कच्चे (Raw) डेटा को एक व्यवस्थित तालिका में बदलता है।
- यह दिखाता है कि डेटा के विभिन्न मान कितनी बार दोहराए गए हैं।
- डेटा पैटर्न और रुझानों को समझने में मदद करता है।
- विभिन्न ग्राफ़िक विधियों द्वारा इसे प्रदर्शित किया जा सकता है।
आवृत्ति वितरण के प्रकार
1.1 असमूहीकृत आवृत्ति वितरण (Ungrouped Frequency Distribution)
जब डेटा के मान कम होते हैं, तो उन्हें व्यक्तिगत रूप से सूचीबद्ध किया जाता है।
उदाहरण:
10 छात्रों के परीक्षा अंकों का डेटा:
{85, 90, 78, 85, 88, 92, 78, 85, 90, 88}
इसका आवृत्ति वितरण तालिका:
| अंक (x) | आवृत्ति (f) |
| 78 | 2 |
| 85 | 3 |
| 88 | 2 |
| 90 | 2 |
| 92 | 1 |
1.2 समूहीकृत आवृत्ति वितरण (Grouped Frequency Distribution)
जब डेटा बड़ा होता है, तो इसे कुछ वर्गों (Class Intervals) में विभाजित किया जाता है।
उदाहरण:
अगर किसी कक्षा में छात्रों के अंक 40 से 100 के बीच हैं, तो उन्हें 10 के अंतराल (Class Width) में विभाजित किया जा सकता है।
| वर्ग अंतराल (Class Interval) | आवृत्ति (f) |
| 40 – 49 | 3 |
| 50 – 59 | 5 |
| 60 – 69 | 8 |
| 70 – 79 | 10 |
| 80 – 89 | 7 |
| 90 – 99 | 4 |
आवृत्ति वितरण तालिका बनाने की प्रक्रिया
- डेटा एकत्र करना – अध्ययन के लिए आवश्यक डेटा प्राप्त करें।
- सीमा (Range) ज्ञात करें – अधिकतम और न्यूनतम मानों के बीच का अंतर निकालें।
- वर्गों की संख्या तय करें – आमतौर पर 5 से 10 वर्गों का चयन किया जाता है।
- वर्ग चौड़ाई तय करें – सीमा को वर्गों की संख्या से विभाजित करें।
- वर्ग अंतराल बनाएँ – प्रत्येक वर्ग को एक निश्चित श्रेणी में रखें।
- प्रत्येक वर्ग की आवृत्ति गिनें – यह निर्धारित करें कि प्रत्येक वर्ग में कितने डेटा अंक आते हैं।
2. डेटा का ग्राफ़िक प्रस्तुतीकरण (Graphical Presentation of Frequency Distribution)
2.1 हिस्टोग्राम (Histogram)
परिभाषा
हिस्टोग्राम एक प्रकार का बार ग्राफ़ (Bar Graph) है, जो किसी डेटा के आवृत्ति वितरण को दर्शाता है। इसमें बार्स (Bars) जुड़े हुए होते हैं, जिससे यह दर्शाया जाता है कि डेटा सतत (Continuous) है।
मुख्य विशेषताएँ
- x-अक्ष (Horizontal Axis) पर वर्ग अंतराल होते हैं।
- y-अक्ष (Vertical Axis) पर आवृत्ति होती है।
- बार्स के बीच कोई अंतर (Gap) नहीं होता।
हिस्टोग्राम बनाने की विधि
- x-अक्ष पर वर्ग अंतराल चिह्नित करें।
- y-अक्ष पर प्रत्येक वर्ग की आवृत्ति को दर्शाएँ।
- प्रत्येक वर्ग के लिए आयत (Rectangles) बनाएँ, जिनकी ऊँचाई आवृत्ति के बराबर हो।
हिस्टोग्राम के उपयोग
- यह डेटा वितरण को दर्शाने में मदद करता है।
- यह सामान्य (Normal), असामान्य (Skewed) या द्विक पर्वतीय (Bimodal) वितरण को दिखाता है।
- यह व्यवसाय, विज्ञान और अनुसंधान में व्यापक रूप से प्रयोग किया जाता है।
2.2 आवृत्ति बहुभुज (Frequency Polygon)
परिभाषा
आवृत्ति बहुभुज (Frequency Polygon) एक रेखा ग्राफ़ (Line Graph) होता है, जो वर्ग अंतरालों के मध्य बिंदुओं (Midpoints) को आवृत्ति के अनुसार जोड़कर बनाया जाता है।
मुख्य विशेषताएँ
- x-अक्ष पर वर्ग मध्यबिंदु होते हैं।
- y-अक्ष पर आवृत्तियाँ होती हैं।
- बिंदुओं को रेखाओं द्वारा जोड़ा जाता है।
आवृत्ति बहुभुज बनाने की विधि
- प्रत्येक वर्ग का मध्यबिंदु (Midpoint) निकालें: मध्यबिंदु=निम्न सीमा+उच्च सीमा2\text{मध्यबिंदु} = \frac{\text{निम्न सीमा} + \text{उच्च सीमा}}{2}
- प्रत्येक मध्यबिंदु के लिए आवृत्ति बिंदु (Points) बनाएँ।
- बिंदुओं को रेखा द्वारा जोड़ें।
- बहुभुज को दोनों सिरों पर x-अक्ष से मिलाएँ।
आवृत्ति बहुभुज के उपयोग
- यह डेटा वितरण को स्पष्ट रूप से दर्शाता है।
- यह विभिन्न डेटा समूहों की तुलना करने के लिए उपयोगी होता है।
- यह समय-श्रृंखला (Time-Series) डेटा में बदलाव को दिखाने में मदद करता है।
2.3 ओगिव (Ogive या Cumulative Frequency Curve)
परिभाषा
ओगिव (Ogive) एक वक्र (Curve) होता है, जो संचयी आवृत्तियों (Cumulative Frequencies) को प्रदर्शित करता है।
ओगिव के प्रकार
- Less than Ogive: इसमें उन मूल्यों की कुल संख्या होती है जो किसी वर्ग सीमा से कम होते हैं।
- More than Ogive: इसमें उन मूल्यों की कुल संख्या होती है जो किसी वर्ग सीमा से अधिक होते हैं।
ओगिव बनाने की विधि
- संचयी आवृत्ति तालिका बनाएँ।
- वर्ग सीमाओं के खिलाफ संचयी आवृत्तियों को प्लॉट करें।
- एक चिकनी वक्र (Smooth Curve) बनाएँ।
ओगिव के उपयोग
- यह माध्यिका (Median) और प्रतिशतक (Percentiles) को निर्धारित करने में मदद करता है।
- यह डेटा संचय (Cumulative Growth) को दिखाता है।
निष्कर्ष
आवृत्ति वितरण डेटा को व्यवस्थित करने का एक महत्वपूर्ण तरीका है, जिससे डेटा को आसानी से समझा और विश्लेषण किया जा सकता है। हिस्टोग्राम, आवृत्ति बहुभुज और ओगिव जैसे ग्राफ़िक उपकरण डेटा वितरण के पैटर्न को स्पष्ट रूप से प्रदर्शित करते हैं। इन तकनीकों का उपयोग विभिन्न क्षेत्रों जैसे शिक्षा, व्यापार, चिकित्सा, और अनुसंधान में किया जाता है ताकि निर्णय लेने में सहायता मिल सके।
UNIT-2 (2.2) Frequency distribution of data and Graphic presentation: Histogram, Polygon and Ogive.
Introduction
In statistics, data is often collected in large quantities, making it difficult to analyze or interpret in its raw form. To make sense of data, statisticians organize it into a structured form known as a frequency distribution and represent it visually using different graphs, including histograms, frequency polygons, and ogives. These graphical representations help in understanding patterns, trends, and distributions of data effectively.
This essay explores the concept of frequency distribution, its types, methods of construction, and its graphical representations, specifically histogram, frequency polygon, and ogive.
1. Frequency Distribution of Data
Definition
A frequency distribution is a systematic way of arranging data into classes or groups along with their corresponding frequencies (the number of times a particular value or group of values appears). It helps in summarizing large datasets for easier analysis.
Key Features
- Organizes raw data into a structured format.
- Displays the frequency (count) of values in each group.
- Helps identify trends and patterns in data.
- Useful for statistical analysis and graphical representation.
Types of Frequency Distribution
- Ungrouped Frequency Distribution
- Used when data values are few and can be listed individually.
- Example: Test scores of 10 students – {85, 90, 78, 85, 88, 92, 78, 85, 90, 88}.
- Frequency table:
| Score (x) | Frequency (f) |
| 78 | 2 |
| 85 | 3 |
| 88 | 2 |
| 90 | 2 |
| 92 | 1 |
- Grouped Frequency Distribution
- Used for large datasets by dividing data into class intervals.
- Example: Student test scores ranging from 40 to 100, grouped in class intervals of 10.
| Class Interval | Frequency (f) |
| 40 – 49 | 3 |
| 50 – 59 | 5 |
| 60 – 69 | 8 |
| 70 – 79 | 10 |
| 80 – 89 | 7 |
| 90 – 99 | 4 |
Steps to Construct a Frequency Distribution Table
- Collect the data – Gather the dataset to be analyzed.
- Determine the range – Find the difference between the highest and lowest values.
- Select the number of class intervals – Typically between 5 and 10 for readability.
- Determine class width – Divide the range by the number of intervals.
- Create class intervals – Ensure they are mutually exclusive and exhaustive.
- Count the frequency – Record how many values fall into each interval.
2. Graphical Presentation of Frequency Distribution
Graphical representation makes it easier to visualize data patterns. The three primary graphs for frequency distributions are histograms, frequency polygons, and ogives.
2.1 Histogram
Definition
A histogram is a bar graph that represents the frequency distribution of a dataset. Unlike bar charts, histograms have adjacent bars, showing that the data is continuous.
Features of a Histogram
- The x-axis (horizontal axis) represents the class intervals.
- The y-axis (vertical axis) represents the frequency of occurrences.
- Bars are adjacent, indicating continuous data.
Steps to Construct a Histogram
- Draw x-axis and label it with class intervals.
- Draw y-axis and label it with frequencies.
- Draw rectangular bars for each class interval, where the height represents the frequency.
- Ensure there are no gaps between bars.
Example
| Class Interval | Frequency (f) |
| 40 – 49 | 3 |
| 50 – 59 | 5 |
| 60 – 69 | 8 |
| 70 – 79 | 10 |
| 80 – 89 | 7 |
| 90 – 99 | 4 |
In the histogram, the bars for each class interval would have the following heights: 3, 5, 8, 10, 7, and 4.
Uses of Histogram
- Helps in understanding the distribution shape (normal, skewed, bimodal, etc.).
- Useful in statistical analysis for large datasets.
- Commonly used in quality control and research studies.
2.2 Frequency Polygon
Definition
A frequency polygon is a line graph that connects the midpoints of the tops of histogram bars, providing a smoother representation of data distribution.
Features of a Frequency Polygon
- The x-axis represents class midpoints.
- The y-axis represents frequencies.
- A continuous line is drawn through plotted points.
Steps to Construct a Frequency Polygon
- Find the midpoints of each class interval: Midpoint=Lower Bound+Upper Bound2\text{Midpoint} = \frac{\text{Lower Bound} + \text{Upper Bound}}{2}
- Plot the midpoints against the frequencies.
- Connect the points using straight lines.
- Extend the polygon to the x-axis at both ends for closure.
Example Calculation for Midpoints
| Class Interval | Midpoint | Frequency (f) |
| 40 – 49 | 44.5 | 3 |
| 50 – 59 | 54.5 | 5 |
| 60 – 69 | 64.5 | 8 |
| 70 – 79 | 74.5 | 10 |
| 80 – 89 | 84.5 | 7 |
| 90 – 99 | 94.5 | 4 |
Uses of Frequency Polygon
- Shows overall trends in data distribution.
- Easier to compare multiple distributions on the same graph.
- Useful in understanding fluctuations over intervals.
2.3 Ogive (Cumulative Frequency Curve)
Definition
An ogive is a graph that represents cumulative frequencies, showing how data accumulates over intervals. There are two types:
- Less than ogive: Plots cumulative frequencies of values less than class limits.
- More than ogive: Plots cumulative frequencies of values greater than class limits.
Features of an Ogive
- The x-axis represents class boundaries.
- The y-axis represents cumulative frequencies.
- A smooth curve is drawn through the plotted points.
Steps to Construct an Ogive
- Create a cumulative frequency table:
| Class Interval | Frequency (f) | Cumulative Frequency (Less than) |
| 40 – 49 | 3 | 3 |
| 50 – 59 | 5 | 3 + 5 = 8 |
| 60 – 69 | 8 | 8 + 8 = 16 |
| 70 – 79 | 10 | 16 + 10 = 26 |
| 80 – 89 | 7 | 26 + 7 = 33 |
| 90 – 99 | 4 | 33 + 4 = 37 |
- Plot cumulative frequencies against the class boundaries.
- Draw a smooth curve through the points.
Uses of Ogive
- Helps in determining median and percentiles.
- Useful in comparing distributions.
- Shows cumulative trends effectively.
Conclusion
Frequency distributions and their graphical representations—histograms, frequency polygons, and ogives—are essential tools in statistics. They provide insights into data distribution, trends, and patterns, making it easier to interpret and analyze large datasets. These methods are widely used in research, business, healthcare, and other fields to make data-driven decisions. Understanding how to construct and interpret these graphs is fundamental for statistical analysis and real-world applications.
UNIT-2(2.3) Measures of Central tendency: Calculation of Mean, Median and Mode.
केन्द्रीय प्रवृत्ति के माप: माध्य, माध्यिका और बहुलक की गणना
परिचय
सांख्यिकी (Statistics) में, केन्द्रीय प्रवृत्ति के माप (Measures of Central Tendency) का उपयोग डेटा के केंद्रीय या सामान्य मान को समझने के लिए किया जाता है। तीन प्रमुख केन्द्रीय प्रवृत्ति के माप होते हैं:
- माध्य (Mean) – सभी मानों के योग को कुल मानों की संख्या से विभाजित करके प्राप्त किया जाता है।
- माध्यिका (Median) – जब डेटा को क्रमबद्ध किया जाता है, तो यह मध्य मान होता है।
- बहुलक (Mode) – डेटा में सबसे अधिक बार आने वाला मान।
ये तीनों माप डेटा के वितरण को अलग-अलग तरीकों से व्याख्या करने में मदद करते हैं। इस निबंध में हम माध्य, माध्यिका और बहुलक की परिभाषा, सूत्र और उनकी गणना को विस्तृत रूप से समझेंगे।
1. माध्य (Mean)
परिभाषा
माध्य को आमतौर पर औसत (Average) कहा जाता है। यह सभी डेटा मानों के योग को कुल मानों की संख्या से विभाजित करके प्राप्त किया जाता है।
माध्य के सूत्र
(क) असमूहीकृत डेटा के लिए माध्य
माध्य(Xˉ)=∑XN\text{माध्य} (\bar{X}) = \frac{\sum X}{N}
जहाँ,
- ∑X\sum X = सभी मानों का योग
- NN = कुल मानों की संख्या
(ख) समूहीकृत डेटा के लिए माध्य
माध्य(Xˉ)=∑fX∑f\text{माध्य} (\bar{X}) = \frac{\sum fX}{\sum f}
जहाँ,
- ff = प्रत्येक वर्ग की आवृत्ति
- XX = प्रत्येक वर्ग का मध्य बिंदु
- ∑fX\sum fX = सभी वर्गों के मध्य बिंदु और उनकी आवृत्तियों के गुणनफल का योग
- ∑f\sum f = कुल आवृत्ति
उदाहरण 1: असमूहीकृत डेटा के लिए माध्य
मान लीजिए 5 छात्रों के अंक इस प्रकार हैं: 40, 50, 60, 70, 80
माध्य=(40+50+60+70+80)5=3005=60\text{माध्य} = \frac{(40 + 50 + 60 + 70 + 80)}{5} = \frac{300}{5} = 60
उदाहरण 2: समूहीकृत डेटा के लिए माध्य
नीचे दिए गए डेटा को देखें:
| वर्ग अंतराल (Class Interval) | आवृत्ति (f) | मध्य बिंदु (X) | fX |
| 10 – 20 | 3 | 15 | 45 |
| 20 – 30 | 5 | 25 | 125 |
| 30 – 40 | 7 | 35 | 245 |
| 40 – 50 | 10 | 45 | 450 |
| 50 – 60 | 5 | 55 | 275 |
| योग (Total) | 30 | 1140 |
माध्य=114030=38\text{माध्य} = \frac{1140}{30} = 38
इस प्रकार, इस डेटा का माध्य 38 है।
2. माध्यिका (Median)
परिभाषा
माध्यिका एक ऐसा मान है जो डेटा को दो समान भागों में विभाजित करता है।
माध्यिका ज्ञात करने की प्रक्रिया
- डेटा को आरोही क्रम (Ascending Order) में व्यवस्थित करें।
- माध्यिका का स्थान निकालें: माध्यिका स्थान=N+12\text{माध्यिका स्थान} = \frac{N+1}{2} जहाँ NN कुल मानों की संख्या है।
- यदि NN विषम है, तो माध्यिका सीधा मध्य मान होगा।
- यदि NN सम है, तो माध्यिका दो मध्य मानों का औसत होगा।
समूहीकृत डेटा के लिए माध्यिका का सूत्र
माध्यिका=L+(N2−CFf)×h\text{माध्यिका} = L + \left( \frac{\frac{N}{2} – CF}{f} \right) \times h
जहाँ:
- LL = माध्यिका वर्ग की निम्न सीमा
- NN = कुल आवृत्ति
- CFCF = माध्यिका वर्ग के पहले की संचयी आवृत्ति
- ff = माध्यिका वर्ग की आवृत्ति
- hh = वर्ग चौड़ाई
उदाहरण 1: असमूहीकृत डेटा के लिए माध्यिका
मान लीजिए, डेटा इस प्रकार है: 25, 30, 35, 40, 45, 50, 55
यहाँ N=7N = 7 (विषम संख्या), इसलिए:
माध्यिका स्थान=7+12=4\text{माध्यिका स्थान} = \frac{7+1}{2} = 4
इसलिए, 4वाँ मान = 40, अतः माध्यिका = 40।
यदि डेटा होता: 25, 30, 35, 40, 45, 50 (सम संख्या N=6N = 6),
माध्यिका=(35+40)2=37.5\text{माध्यिका} = \frac{(35 + 40)}{2} = 37.5
3. बहुलक (Mode)
परिभाषा
बहुलक वह मान होता है जो डेटा में सबसे अधिक बार आता है।
बहुलक ज्ञात करने की प्रक्रिया
- असमूहीकृत डेटा में सबसे अधिक बार आने वाला मान खोजें।
- समूहीकृत डेटा में सबसे अधिक आवृत्ति वाले वर्ग (Modal Class) की पहचान करें।
- निम्न सूत्र का प्रयोग करें:
बहुलक=L+(f1−f0(2f1−f0−f2))×h\text{बहुलक} = L + \left( \frac{f_1 – f_0}{(2f_1 – f_0 – f_2)} \right) \times h
जहाँ:
- LL = बहुलक वर्ग की निम्न सीमा
- f1f_1 = बहुलक वर्ग की आवृत्ति
- f0f_0 = बहुलक वर्ग से पहले की आवृत्ति
- f2f_2 = बहुलक वर्ग के बाद की आवृत्ति
- hh = वर्ग चौड़ाई
उदाहरण 1: असमूहीकृत डेटा के लिए बहुलक
यदि डेटा इस प्रकार है: 2, 3, 3, 5, 6, 3, 8, 9, 3
तो सबसे अधिक बार 3 आता है, अतः बहुलक = 3।
उदाहरण 2: समूहीकृत डेटा के लिए बहुलक
| वर्ग अंतराल | आवृत्ति (f) |
| 10 – 20 | 3 |
| 20 – 30 | 7 |
| 30 – 40 | 12 |
| 40 – 50 | 8 |
| 50 – 60 | 5 |
बहुलक=30+(12−7(2×12−7−8))×10\text{बहुलक} = 30 + \left( \frac{12 – 7}{(2 \times 12 – 7 – 8)} \right) \times 10 =30+5.56=35.56= 30 + 5.56 = 35.56
अतः बहुलक = 35.56।
निष्कर्ष
माध्य, माध्यिका और बहुलक डेटा का केंद्रीय मान ज्ञात करने के लिए महत्वपूर्ण सांख्यिकीय माप हैं। माध्य औसत को दर्शाता है, माध्यिका मध्य मान को बताता है, और बहुलक सबसे अधिक बार आने वाले मान को इंगित करता है। ये उपाय अनुसंधान, व्यापार, अर्थशास्त्र, और विज्ञान में निर्णय लेने के लिए आवश्यक होते हैं।
UNIT-2(2.3) Measures of Central tendency: Calculation of Mean, Median and Mode.
Introduction
In statistics, measures of central tendency are used to describe the central or typical value of a dataset. The three most commonly used measures are:
- Mean (Average) – The sum of all values divided by the number of values.
- Median – The middle value when data is arranged in order.
- Mode – The most frequently occurring value(s) in the dataset.
Each measure provides a different perspective on data distribution and is useful in different scenarios. In this essay, we will explore the definitions, formulas, and step-by-step calculations of mean, median, and mode for both ungrouped and grouped data with examples.
1. Mean (Arithmetic Mean)
Definition
The mean is the sum of all observations divided by the total number of observations. It is the most commonly used measure of central tendency.
Formula for Mean
(a) Mean for Ungrouped Data
Mean(Xˉ)=∑XN\text{Mean} (\bar{X}) = \frac{\sum X}{N}
where:
- ∑X\sum X = Sum of all values
- NN = Total number of values
(b) Mean for Grouped Data
Mean(Xˉ)=∑fX∑f\text{Mean} (\bar{X}) = \frac{\sum fX}{\sum f}
where:
- ff = Frequency of each class
- XX = Midpoint of each class interval
- ∑fX\sum fX = Sum of the product of midpoints and frequencies
- ∑f\sum f = Total frequency
Example 1: Mean for Ungrouped Data
Consider the marks of 5 students: 40, 50, 60, 70, 80
Mean=(40+50+60+70+80)5=3005=60\text{Mean} = \frac{(40 + 50 + 60 + 70 + 80)}{5} = \frac{300}{5} = 60
Example 2: Mean for Grouped Data
Consider the following grouped frequency distribution:
| Class Interval | Frequency (f) | Midpoint (X) | fX |
| 10 – 20 | 3 | 15 | 45 |
| 20 – 30 | 5 | 25 | 125 |
| 30 – 40 | 7 | 35 | 245 |
| 40 – 50 | 10 | 45 | 450 |
| 50 – 60 | 5 | 55 | 275 |
| Total | 30 | 1140 |
Mean=114030=38\text{Mean} = \frac{1140}{30} = 38
Thus, the mean of this dataset is 38.
2. Median
Definition
The median is the middle value of an ordered dataset. It divides the data into two equal halves.
Steps to Find the Median
- Arrange the data in ascending order.
- Find the position of the median using the formula: Median Position=N+12\text{Median Position} = \frac{N+1}{2} where NN is the total number of values.
- If NN is odd, the median is the middle value.
- If NN is even, the median is the average of the two middle values.
Formula for Median in Grouped Data
Median=L+(N2−CFf)×h\text{Median} = L + \left( \frac{\frac{N}{2} – CF}{f} \right) \times h
where:
- LL = Lower boundary of the median class
- NN = Total frequency
- CFCF = Cumulative frequency before the median class
- ff = Frequency of the median class
- hh = Class width
Example 1: Median for Ungrouped Data
Consider the dataset: 25, 30, 35, 40, 45, 50, 55
Total values: N=7N = 7 (odd), so the median is:
Median Position=7+12=4\text{Median Position} = \frac{7+1}{2} = 4
Thus, the 4th value is 40, so median = 40.
If the dataset were: 25, 30, 35, 40, 45, 50 (even N=6N = 6),
Median=(35+40)2=37.5\text{Median} = \frac{(35 + 40)}{2} = 37.5
Example 2: Median for Grouped Data
Consider the dataset:
| Class Interval | Frequency (f) | Cumulative Frequency (CF) |
| 10 – 20 | 3 | 3 |
| 20 – 30 | 5 | 8 |
| 30 – 40 | 7 | 15 |
| 40 – 50 | 10 | 25 |
| 50 – 60 | 5 | 30 |
Total N=30N = 30, so N/2=15N/2 = 15. The median class is 30 – 40 (where CF reaches 15).
Median=30+(15−87)×10\text{Median} = 30 + \left( \frac{15 – 8}{7} \right) \times 10 =30+(77)×10=30+10=40= 30 + \left( \frac{7}{7} \right) \times 10 = 30 + 10 = 40
Thus, the median = 40.
3. Mode
Definition
The mode is the value that appears most frequently in a dataset. It is useful for categorical, discrete, and continuous data.
Steps to Find the Mode
- Identify the most frequently occurring value in ungrouped data.
- In grouped data, find the modal class (class with the highest frequency).
- Use the formula for grouped data:
Mode=L+(f1−f0(2f1−f0−f2))×h\text{Mode} = L + \left( \frac{f_1 – f_0}{(2f_1 – f_0 – f_2)} \right) \times h
where:
- LL = Lower boundary of the modal class
- f1f_1 = Frequency of the modal class
- f0f_0 = Frequency of the class before the modal class
- f2f_2 = Frequency of the class after the modal class
- hh = Class width
Example 1: Mode for Ungrouped Data
Given the data: 2, 3, 3, 5, 6, 3, 8, 9, 3
Since 3 appears the most times, the mode = 3.
Example 2: Mode for Grouped Data
| Class Interval | Frequency (f) |
| 10 – 20 | 3 |
| 20 – 30 | 7 |
| 30 – 40 | 12 |
| 40 – 50 | 8 |
| 50 – 60 | 5 |
Using the formula:
Mode=30+(12−7(2×12−7−8))×10\text{Mode} = 30 + \left( \frac{12 – 7}{(2 \times 12 – 7 – 8)} \right) \times 10 =30+(5(24−15))×10= 30 + \left( \frac{5}{(24 – 15)} \right) \times 10 =30+(59)×10= 30 + \left( \frac{5}{9} \right) \times 10 =30+5.56=35.56= 30 + 5.56 = 35.56
Thus, mode = 35.56.
Conclusion
The three measures of central tendency—mean, median, and mode—provide different insights into a dataset. The mean is most affected by extreme values, while the median is more robust, and the mode is useful for identifying common values. These measures are widely used in research, economics, psychology, and business analytics for data analysis and decision-making. Understanding how to calculate and interpret them is essential for statistical studies.
UNIT-2(2.4) Measures of Variability: Calculation of Range, QD, AD, SD.
प्रसरण के माप: सीमा (Range), चतुर्थक विचलन (QD), माध्य परास विचलन (AD), और मानक विचलन (SD) की गणना
परिचय
सांख्यिकी (Statistics) में, प्रसरण (Variability) यह दर्शाता है कि किसी डेटा सेट के मान कितने फैले हुए या एक-दूसरे से कितने भिन्न हैं। जबकि केन्द्रीय प्रवृत्ति के माप (Measures of Central Tendency) (जैसे माध्य, माध्यिका और बहुलक) डेटा के केंद्रीय मान को व्यक्त करते हैं, प्रसरण के माप डेटा की विविधता या फैलाव को दर्शाते हैं।
प्रसरण के चार प्रमुख माप निम्नलिखित हैं:
- सीमा (Range) – अधिकतम और न्यूनतम मान के बीच का अंतर।
- चतुर्थक विचलन (Quartile Deviation – QD) – मध्य 50% डेटा की प्रसरण सीमा।
- माध्य परास विचलन (Mean Absolute Deviation – AD) – प्रत्येक डेटा बिंदु और माध्य के बीच औसत विचलन।
- मानक विचलन (Standard Deviation – SD) – डेटा के माध्य से औसत दूरी का एक सटीक माप।
इस लेख में, हम इन चारों मापों की परिभाषा, सूत्र और गणना को विस्तार से समझेंगे।
1. सीमा (Range)
परिभाषा
सीमा (Range) प्रसरण का सबसे सरल माप है। यह डेटा सेट में अधिकतम और न्यूनतम मान के बीच के अंतर को दर्शाता है।
सीमा का सूत्र
सीमा=अधिकतम मान−न्यूनतम मान\text{सीमा} = \text{अधिकतम मान} – \text{न्यूनतम मान}
उदाहरण 1: असमूहीकृत डेटा के लिए सीमा
मान लीजिए हमारे पास निम्नलिखित डेटा है: 5, 12, 20, 25, 30
सीमा=30−5=25\text{सीमा} = 30 – 5 = 25
उदाहरण 2: समूहीकृत डेटा के लिए सीमा
नीचे दिया गया डेटा देखें:
| वर्ग अंतराल | आवृत्ति (f) |
| 10 – 20 | 5 |
| 20 – 30 | 10 |
| 30 – 40 | 7 |
| 40 – 50 | 8 |
| 50 – 60 | 5 |
सीमा=60−10=50\text{सीमा} = 60 – 10 = 50
सीमा की सीमाएँ
- यह केवल दो चरम मानों पर निर्भर करता है, जिससे यह आउटलायर्स (चरम मानों) से प्रभावित होता है।
- यह डेटा के वितरण की पूरी जानकारी नहीं देता।
2. चतुर्थक विचलन (Quartile Deviation – QD)
परिभाषा
चतुर्थक विचलन (QD) यह दर्शाता है कि डेटा के मध्य 50% मान कितने फैले हुए हैं। यह तीसरे चतुर्थक (Q₃) और पहले चतुर्थक (Q₁) के बीच का अंतर होता है, जिसे अर्द्ध-चतुर्थक परास (Semi-Interquartile Range) भी कहा जाता है।
चतुर्थक विचलन का सूत्र
QD=Q3−Q12\text{QD} = \frac{Q_3 – Q_1}{2}
जहाँ:
- Q₁ (प्रथम चतुर्थक) = वह मान जिसके नीचे 25% डेटा स्थित होता है।
- Q₃ (तृतीय चतुर्थक) = वह मान जिसके नीचे 75% डेटा स्थित होता है।
उदाहरण: असमूहीकृत डेटा के लिए QD
मान लीजिए हमारे पास निम्नलिखित डेटा है: 10, 15, 20, 25, 30, 35, 40, 45, 50
- Q₁ स्थान = (N+1)4=(9+1)4=2.5\frac{(N+1)}{4} = \frac{(9+1)}{4} = 2.5
- Q₁ = 15 + 0.5 \times (20 – 15) = 17.5
- Q₃ स्थान = 3×(N+1)4=3×104=7.53 \times \frac{(N+1)}{4} = 3 \times \frac{10}{4} = 7.5
- Q₃ = 40 + 0.5 \times (45 – 40) = 42.5
QD=42.5−17.52=252=12.5\text{QD} = \frac{42.5 – 17.5}{2} = \frac{25}{2} = 12.5
3. माध्य परास विचलन (Mean Absolute Deviation – AD)
परिभाषा
माध्य परास विचलन (AD) प्रत्येक डेटा बिंदु और माध्य (Xˉ\bar{X}) के बीच औसत विचलन को मापता है।
माध्य परास विचलन का सूत्र
AD=∑∣X−Xˉ∣N\text{AD} = \frac{\sum |X – \bar{X}|}{N}
उदाहरण: AD की गणना
डेटा: 5, 10, 15, 20, 25
- माध्य (Xˉ\bar{X}) निकालें:
Xˉ=5+10+15+20+255=15\bar{X} = \frac{5 + 10 + 15 + 20 + 25}{5} = 15
- प्रत्येक मान का माध्य से विचलन लें:
| X | ∣X−Xˉ∣|X – \bar{X}| | |—-|——————| | 5 | ∣5−15∣=10|5 – 15| = 10 | | 10 | ∣10−15∣=5|10 – 15| = 5 | | 15 | ∣15−15∣=0|15 – 15| = 0 | | 20 | ∣20−15∣=5|20 – 15| = 5 | | 25 | ∣25−15∣=10|25 – 15| = 10 |
- AD निकालें:
AD=(10+5+0+5+10)5=305=6\text{AD} = \frac{(10 + 5 + 0 + 5 + 10)}{5} = \frac{30}{5} = 6
4. मानक विचलन (Standard Deviation – SD)
परिभाषा
मानक विचलन (SD) डेटा के माध्य से औसत विचलन को दर्शाता है और प्रसरण का सबसे महत्वपूर्ण माप है।
मानक विचलन का सूत्र
σ=∑(X−Xˉ)2N\sigma = \sqrt{\frac{\sum (X – \bar{X})^2}{N}}
उदाहरण: SD की गणना
| X | X−XˉX – \bar{X} | (X−Xˉ)2(X – \bar{X})^2 |
| 5 | -10 | 100 |
| 10 | -5 | 25 |
| 15 | 0 | 0 |
| 20 | 5 | 25 |
| 25 | 10 | 100 |
σ2=(100+25+0+25+100)5=50\sigma^2 = \frac{(100 + 25 + 0 + 25 + 100)}{5} = 50 σ=50≈7.07\sigma = \sqrt{50} \approx 7.07
निष्कर्ष
प्रसरण के ये माप (Range, QD, AD, और SD) डेटा के फैलाव को समझने में मदद करते हैं।
- सीमा सरल है, लेकिन चरम मानों से प्रभावित होती है।
- चतुर्थक विचलन मध्य 50% डेटा की विविधता दिखाता है।
- माध्य परास विचलन डेटा की वास्तविक दूरी को दर्शाता है।
- मानक विचलन सबसे सटीक और व्यापक रूप से उपयोग किया जाने वाला माप है।
ये माप अर्थशास्त्र, व्यवसाय और अनुसंधान में महत्वपूर्ण भूमिका निभाते हैं।
UNIT-2(2.4) Measures of Variability: Calculation of Range, QD, AD, SD.
Introduction
In statistics, variability refers to the extent to which data points in a dataset differ from each other. While measures of central tendency (mean, median, and mode) provide information about the central value of a dataset, measures of variability describe how spread out or dispersed the data is.
The most commonly used measures of variability are:
- Range – The difference between the maximum and minimum values.
- Quartile Deviation (QD) – The spread of the middle 50% of the data.
- Mean Absolute Deviation (AD) – The average of the absolute differences between each data point and the mean.
- Standard Deviation (SD) – The most widely used measure, which tells us how much data deviates from the mean.
In this essay, we will discuss the meaning, formulas, and calculations of each measure with examples.
1. Range
Definition
The range is the simplest measure of variability. It is calculated as the difference between the highest and lowest values in a dataset.
Formula for Range
Range=Maximum Value−Minimum Value\text{Range} = \text{Maximum Value} – \text{Minimum Value}
Example 1: Range for Ungrouped Data
Consider the dataset: 5, 12, 20, 25, 30
Range=30−5=25\text{Range} = 30 – 5 = 25
Example 2: Range for Grouped Data
Consider the following grouped frequency distribution:
| Class Interval | Frequency |
| 10 – 20 | 5 |
| 20 – 30 | 10 |
| 30 – 40 | 7 |
| 40 – 50 | 8 |
| 50 – 60 | 5 |
Range=60−10=50\text{Range} = 60 – 10 = 50
Limitations of Range
- Affected by extreme values (outliers).
- Ignores the distribution of data between the maximum and minimum values.
2. Quartile Deviation (QD) or Semi-Interquartile Range
Definition
Quartile Deviation (QD) measures the spread of the middle 50% of the dataset. It is half the difference between the third quartile (Q₃) and the first quartile (Q₁).
Formula for Quartile Deviation
Quartile Deviation(QD)=Q3−Q12\text{Quartile Deviation} (QD) = \frac{Q_3 – Q_1}{2}
where:
- Q₁ (First Quartile) = The value below which 25% of the data lies.
- Q₃ (Third Quartile) = The value below which 75% of the data lies.
Example: QD for Ungrouped Data
Consider the dataset: 10, 15, 20, 25, 30, 35, 40, 45, 50
- Q₁ position = (N+1)4=(9+1)4=2.5\frac{(N+1)}{4} = \frac{(9+1)}{4} = 2.5
- Q₁ = (2nd value) + 0.5 × (3rd value – 2nd value)
- Q₁ = 15 + 0.5 × (20 – 15) = 17.5
- Q₃ position = 3×(N+1)4=3×104=7.53 \times \frac{(N+1)}{4} = 3 \times \frac{10}{4} = 7.5
- Q₃ = (7th value) + 0.5 × (8th value – 7th value)
- Q₃ = 40 + 0.5 × (45 – 40) = 42.5
QD=42.5−17.52=252=12.5\text{QD} = \frac{42.5 – 17.5}{2} = \frac{25}{2} = 12.5
3. Mean Absolute Deviation (AD)
Definition
Mean Absolute Deviation (AD) is the average of the absolute differences between each data point and the mean. It is a measure of how much data varies from the mean.
Formula for Mean Absolute Deviation
For a dataset with values X1,X2,…,XNX_1, X_2, …, X_N:
AD=∑∣X−Xˉ∣N\text{AD} = \frac{\sum |X – \bar{X}|}{N}
where:
- Xˉ\bar{X} = Mean
- NN = Total number of observations
Example: AD Calculation
Consider the dataset: 5, 10, 15, 20, 25
- Calculate the mean:
Xˉ=5+10+15+20+255=15\bar{X} = \frac{5 + 10 + 15 + 20 + 25}{5} = 15
- Find absolute deviations from the mean:
| X | ∣X−Xˉ∣|X – \bar{X}| | |—-|——————| | 5 | ∣5−15∣=10|5 – 15| = 10 | | 10 | ∣10−15∣=5|10 – 15| = 5 | | 15 | ∣15−15∣=0|15 – 15| = 0 | | 20 | ∣20−15∣=5|20 – 15| = 5 | | 25 | ∣25−15∣=10|25 – 15| = 10 |
- Calculate AD:
AD=(10+5+0+5+10)5=305=6\text{AD} = \frac{(10 + 5 + 0 + 5 + 10)}{5} = \frac{30}{5} = 6
4. Standard Deviation (SD)
Definition
Standard Deviation (SD) measures the average deviation of values from the mean, considering squared differences.
Formula for Standard Deviation
For ungrouped data:
SD(σ)=∑(X−Xˉ)2N\text{SD} (\sigma) = \sqrt{\frac{\sum (X – \bar{X})^2}{N}}
For grouped data:
SD(σ)=∑f(X−Xˉ)2∑f\text{SD} (\sigma) = \sqrt{\frac{\sum f(X – \bar{X})^2}{\sum f}}
Example: SD Calculation
Consider the dataset: 5, 10, 15, 20, 25
- Find the mean: Xˉ=15\bar{X} = 15
- Find squared deviations from the mean:
| X | X−XˉX – \bar{X} | (X−Xˉ)2(X – \bar{X})^2 |
| 5 | -10 | 100 |
| 10 | -5 | 25 |
| 15 | 0 | 0 |
| 20 | 5 | 25 |
| 25 | 10 | 100 |
- Calculate variance:
σ2=(100+25+0+25+100)5=2505=50\sigma^2 = \frac{(100 + 25 + 0 + 25 + 100)}{5} = \frac{250}{5} = 50
- Calculate SD:
σ=50≈7.07\sigma = \sqrt{50} \approx 7.07
Conclusion
Measures of variability (Range, QD, AD, and SD) are essential to understand the spread of data.
- Range is simple but affected by outliers.
- Quartile Deviation focuses on the middle 50% of data.
- Mean Absolute Deviation gives a straightforward measure of dispersion.
- Standard Deviation is the most reliable measure, widely used in statistics and research.
Understanding these measures helps in making better decisions, especially in fields like economics, psychology, and business analytics.



