பாண்டாஸ் குழு சராசரி

Pantas Kulu Caracari



நாம் இரண்டு அல்லது அதற்கு மேற்பட்ட மதிப்புகளை ஒன்றாகச் சேர்த்தால், அவற்றின் கூட்டுத்தொகையை ஒன்றாகச் சேர்த்த மதிப்புகளின் மொத்த எண்ணிக்கையால் வகுக்கப்படும்போது, ​​​​முடிவு சராசரியாக இருக்கும். கொடுக்கப்பட்ட அச்சில் தரவு அல்லது மதிப்பின் சராசரியை Pandas Mean வழங்கும். சராசரி() முறையை டேட்டாஃப்ரேமில் பயன்படுத்தினால், அச்சு முழுவதும் சராசரியைக் கொண்ட தொடர் பாண்டாக்களால் வழங்கப்படும். ஒரு தொடரில் 'சராசரி()' பயன்படுத்தப்பட்டால், பாண்டாக்கள் ஒரு எண் மதிப்பை (ஒற்றை எண்) வழங்கும். பிரிவுகளின் குழுக்களை உருவாக்கிய பிறகு செயல்பாடுகளை வகைகளுக்குப் பயன்படுத்தலாம். இது ஒரு எளிய யோசனை, ஆனால் தரவு அறிவியலில் அடிக்கடி பயன்படுத்தப்படும் மிகவும் பயனுள்ள நுட்பமாகும். ஒவ்வொரு குழுவிற்கும் தரவின் சுருக்கத்தை உருவாக்கவும், குழு-குறிப்பிட்ட மாற்றங்களைப் பயன்படுத்தவும், தரவு வடிகட்டுதலைச் செய்யவும் இது அனுமதிக்கிறது. Groupby() செயல்பாட்டின் மூலம், பொருளைப் பிரிக்கலாம், ஒரு செயல்பாட்டைப் பயன்படுத்தலாம், பின்னர் தயாரிப்புகளை இணைக்கலாம். பெரிய தரவுத்தொகுப்புகளை இதனுடன் தொகுக்கலாம், மேலும் குழுக்களில் செயல்பாடுகளைச் செய்யலாம்.

Pandas இல் groupby.mean() முறையை எவ்வாறு பயன்படுத்துவது?

டேட்டாஃப்ரேமின் சராசரி அல்லது டேட்டாஃப்ரேமின் குறிப்பிட்ட நெடுவரிசைகளின் சராசரியைக் கணக்கிட, groupby.mean() செயல்பாட்டைப் பயன்படுத்தலாம். பின்வரும் எடுத்துக்காட்டுகளில் அதை எவ்வாறு பயன்படுத்துவது என்பதை விளக்குவோம்.







எடுத்துக்காட்டு # 01: ஒற்றை நெடுவரிசையின் தரவைத் தொகுப்பதன் மூலம் ஒற்றை முழு எண் நெடுவரிசையின் சராசரியைத் தீர்மானிக்கவும்

pd.DataFrame() செயல்பாட்டைப் பயன்படுத்தி, முதலில் டேட்டாஃப்ரேமை உருவாக்குவோம், அதனால் டேட்டாஃப்ரேமின் நெடுவரிசை அல்லது நெடுவரிசைகளின் தரவை குழுக்களாகப் பிரித்து அவற்றின் சராசரி மதிப்பைக் கண்டறியலாம். தரவு சட்டகத்தை உருவாக்கும் முன், நம்பி லைப்ரரியுடன் பாண்டாஸ் தொகுதியை நாம் இறக்குமதி செய்ய வேண்டும்.





பார்க்க முடிந்தால், பாண்டாஸ் அகராதியைப் பயன்படுத்தி எங்கள் டேட்டாஃப்ரேமை உருவாக்கியுள்ளோம். எங்களின் df டேட்டாஃப்ரேமில் 3 நெடுவரிசைகள் உள்ளன, அதாவது, 'பொருட்கள்', 'உற்பத்தியாளர்' மற்றும் 'அளவு'. 'பொருட்கள்' என்ற நெடுவரிசையில், மதிப்புகளை ('சட்டை', 'டை', 'பேன்ட்', 'சர்ட்', 'டை', 'பேன்ட்', 'சர்ட்', 'பேண்ட்', 'பேண்ட்', 'சேமித்துள்ளோம். டை'), அதே நேரத்தில்  'உற்பத்தியாளர்' மற்றும்  'அளவு' மதிப்புகள் ('இத்தாலி', 'பிரான்ஸ்', 'சீனா', 'பிரான்ஸ்',  'சீனா', 'இத்தாலி', 'சீனா', 'இத்தாலி', 'பிரான்ஸ்', 'சீனா') மற்றும் (13, 16, 21, 32, 26, 41, 24, 42, 12, 15) முறையே. உற்பத்தியாளர் நெடுவரிசையில் உள்ள மதிப்புகளைக் குழுவாக்கி, ஒவ்வொரு தனித்தனி உற்பத்தியாளருக்கும் சராசரி அளவு மதிப்பைத் தீர்மானிப்போம்.





உற்பத்தியாளர் மதிப்பு 'சீனா' சராசரி அளவு மதிப்பு 21.5, 'பிரான்ஸ்' க்கான சராசரி அளவு மதிப்பு 20.0 மற்றும் 'இத்தாலி'க்கான சராசரி அளவு மதிப்பு 32.0. groupby.mean() செயல்பாட்டுடன் reset_index செயல்பாட்டைப் பயன்படுத்தி வெளியீட்டிற்கு ஒரு குறியீட்டையும் நாம் குறிப்பிடலாம்.



எடுத்துக்காட்டு # 02: ஒற்றை நெடுவரிசையின் தரவைத் தொகுப்பதன் மூலம் ஒற்றை மிதவை நெடுவரிசையின் சராசரியைக் கண்டறியவும்

தரவைத் தொகுத்த பிறகு முழு எண் நெடுவரிசையின் சராசரியை எவ்வாறு கண்டுபிடிப்பது என்பதைப் பார்த்தோம். இப்போது மிதவை போன்ற மற்றொரு தரவு வகை நிரலை முயற்சிப்போம். pd.DataFrame() செயல்பாட்டைப் பயன்படுத்தி மிதவை மதிப்புகளைக் கொண்ட குறைந்தபட்சம் ஒரு நெடுவரிசையைக் கொண்ட டேட்டாஃப்ரேம் உருவாக்கப்படும்.

pd.DataFrame() க்குள் ஒரு அகராதியை வைப்பதன் மூலம், மூன்று நெடுவரிசைகளைக் கொண்ட தரவுச்சட்டத்தை உருவாக்கியுள்ளோம். நெடுவரிசை 'பெயர்' சில சீரற்ற வீரர்களின் பெயர்களை சேமிக்கிறது ('சாம்', 'ஜே', 'லியோ', 'மைக்', 'வில்', 'பில்லி', 'ஜானி', 'லாரா', 'ஹன்னா', 'டோனி'), ஒவ்வொரு வீரரும் சேர்ந்த அணியைக் குறிக்கும் நெடுவரிசை 'அணி' ('A', 'A', 'B',  'A', 'B', 'A', 'C', 'B' ', 'C', 'C'), மற்றும் 'உயரம்' நெடுவரிசையானது ஒவ்வொரு வீரரின் உயரங்களையும் மிதவை மதிப்பாக (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2) சேமிக்கிறது. 'அணி' நெடுவரிசையில் உள்ள தரவைத் தொகுத்து, ஒவ்வொரு தனித்தனியான 'குழு' மதிப்புக்கும் சராசரி உயர மதிப்பைத் தீர்மானிப்போம்.

A அணி வீரர்களின் சராசரி உயர மதிப்பு 5.65 ஆக இருப்பதை நீங்கள் பார்க்கலாம், அதேசமயம் B மற்றும் C அணிகளில் உள்ள வீரர்களின் சராசரி உயரம் முறையே 5.866 மற்றும் 5.6 ஆகும்.

எடுத்துக்காட்டு # 03: groupby.mean() செயல்பாட்டைப் பயன்படுத்தி பல நெடுவரிசைகளின் சராசரியைத் தீர்மானிக்கவும்

முந்தைய எடுத்துக்காட்டுகளில், ஒரு நெடுவரிசையின் சராசரியை நாங்கள் தீர்மானித்தோம். இருப்பினும், ஒவ்வொரு குழுவிற்கும் பல நெடுவரிசைகளின் சராசரியையும் தீர்மானிக்க முடியும். பாண்டாக்கள் மற்றும் நம்பி மாட்யூல்களை இறக்குமதி செய்த பிறகு, ஒன்றுக்கும் மேற்பட்ட எண் நெடுவரிசைகளைக் கொண்ட டேட்டாஃப்ரேமை உருவாக்குவோம்.

புதிதாக உருவாக்கப்பட்ட டேட்டாஃப்ரேமில், 'பெயர்', 'ஸ்கோர்' மற்றும் 'போட்டிகள்' ஆகிய லேபிள்களுடன் மூன்று நெடுவரிசைகள் உள்ளன. தரவு மதிப்புகளை சரமாக கொண்ட நெடுவரிசை பெயர்கள் ), அதேசமயம் 'ஸ்கோர்' மற்றும் 'போட்டிகள்' (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) மற்றும் (2, 3, 1, 2, 1, 3 போன்ற எண் தரவுகளைக் கொண்டிருக்கும். , 4, 1, 2, 1). நெடுவரிசை ‘பெயர்’ தரவைத் தொகுத்த பிறகு நெடுவரிசை ‘ஸ்கோர்’ மற்றும் ‘போட்டிகள்’ ஆகியவற்றின் சராசரியைக் கண்டுபிடிப்போம். groupby.mean() செயல்பாடு இதற்குப் பயன்படுத்தப்படும்.

‘டானி’ குழு 2.00 போட்டிகளில் சராசரியாக 2.66 மதிப்பெண் பெற்றிருப்பதைக் கவனிக்கலாம். ஜிம் குழுவின் சராசரி மதிப்பெண் 2.75 மற்றும் விளையாடிய போட்டிகளின் சராசரி மதிப்பு 1.75 ஆகும். 'ரான்' குழுவின் சராசரி மதிப்பெண் மதிப்பு 2.66 மற்றும் விளையாடிய போட்டிகளின் சராசரி மதிப்பு 2.33 ஆகும்.

பொருளின் வகைகளின் குழுவின் சராசரியையும் agg() முறையைப் பயன்படுத்தி கணக்கிடலாம். agg() செயல்பாட்டிற்கு சராசரியை ஒரு வாதமாக வழங்குவோம். கொடுக்கப்பட்ட அச்சில் ஒற்றை அல்லது பல செயல்பாடுகளைப் பயன்படுத்தி ஒருங்கிணைக்க, நாம் agg() செயல்பாட்டைப் பயன்படுத்தலாம்.

வெளியீடு முன்பு போலவே உள்ளது.

எடுத்துக்காட்டு # 04: பல நெடுவரிசைகளை தொகுப்பதன் மூலம் குறிப்பிட்ட நெடுவரிசைகளின் சராசரியை தீர்மானிக்கவும்

எடுத்துக்காட்டுகள் 1, 2 மற்றும் 3 இல், ஒரு நெடுவரிசையின் மதிப்புகள் அல்லது தரவை நாங்கள் தொகுத்துள்ளோம். இப்போது groupby() செயல்பாட்டிற்குள் உள்ள நெடுவரிசை லேபிள்களின் பட்டியலைப் பயன்படுத்தி பல நெடுவரிசைகளை குழுவாக்குவோம், பின்னர் ஒவ்வொரு குழுவிற்கும் சராசரி மதிப்பைக் கண்டுபிடிப்போம். pd.Dataframe() செயல்பாட்டின் உள்ளே ஒரு அகராதி ‘d’ அனுப்பப்படும்.

தேவையான டேட்டாஃப்ரேமை உருவாக்கியுள்ளோம். நெடுவரிசை 'ஸ்போர்ட்ஸ்' சில விளையாட்டுகளின் பெயரை ('பேட்மிண்டன்', 'கால்பந்து', 'டென்னிஸ்', 'கூடைப்பந்து', 'கால்பந்து', 'டென்னிஸ்', 'கூடைப்பந்து', 'கால்பந்து', 'பேட்மிண்டன்', ' கூடைப்பந்து, 'கூடைப்பந்து', 'டென்னிஸ்'), நாடுகளின் பெயர்கள் ('சீனா', 'ரஷ்யா', 'இத்தாலி', 'ஸ்பெயின்', 'ரஷ்யா', 'இத்தாலி', 'சீனா', 'இத்தாலி', ' ஸ்பெயின், 'சீனா', 'ரஷ்யா', 'இத்தாலி') 'நாடு' நெடுவரிசையில் சேமிக்கப்படுகின்றன. அதேசமயம், ‘வெற்றி’ என்ற நெடுவரிசையில் ஒவ்வொரு விளையாட்டிலும் ஒவ்வொரு நாடும் வென்ற போட்டிகளின் எண்ணிக்கையை (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6) சேமித்துள்ளோம். 'sports' மற்றும் 'country' என்ற நெடுவரிசைகளை தொகுத்து 'win' column மதிப்புகளின் சராசரியைக் கண்டறிய groupby.mean() செயல்பாட்டைப் பயன்படுத்துவோம்.

நாட்டிலுள்ள ஒவ்வொரு விளையாட்டுக்கும் ‘வின்’ நெடுவரிசை மதிப்புகளின் சராசரியை இந்தச் செயல்பாடு வெற்றிகரமாக நிர்ணயித்துள்ளது. க்ரூப்-பை டேட்டாஃப்ரேம் reset_index() செயல்பாட்டைப் பயன்படுத்தி மீட்டமைக்க முடியும், இது ஒரு புதிய குறியீட்டை உருவாக்குகிறது, இது பொருத்தமான டேட்டாஃப்ரேம் கட்டமைப்பை அளிக்கிறது.

ஒவ்வொரு டேட்டாஃப்ரேமின் வரிசைக்கும் ஒரு குறியீடு சேர்க்கப்படும். கவர்ச்சிகரமான அட்டவணையில் முடிவுகளை ஒழுங்கமைக்க, நாம் பைவட்() செயல்பாட்டையும் பயன்படுத்தலாம்.

முடிவுரை

இந்த டுடோரியலில், எண்களின் சராசரி அல்லது சராசரி என்ன என்பதையும், டேட்டாஃப்ரேமின் நெடுவரிசை அல்லது நெடுவரிசைகளை தொகுத்த பிறகு ஒரு குறிப்பிட்ட நெடுவரிசையின் (ஒன்று அல்லது அதற்கு மேற்பட்ட) சராசரியை எவ்வாறு கண்டுபிடிப்பது என்பதையும் விவாதித்தோம். ஒற்றை முழு எண் அல்லது மிதவை நெடுவரிசையின் சராசரியை எவ்வாறு ஒரு நெடுவரிசையின் தரவைக் குழுவாக்குவது என்பதை உங்களுக்குக் கற்பிக்க இந்தக் கட்டுரையில் சில உதாரணங்களைச் செயல்படுத்தியுள்ளோம்; groupby.mean() செயல்பாட்டைப் பயன்படுத்தி பல நெடுவரிசைகளின் சராசரியை எவ்வாறு தீர்மானிப்பது; மேலும் பல நெடுவரிசைகளை தொகுத்து குறிப்பிட்ட நெடுவரிசைகளின் சராசரியை எவ்வாறு தீர்மானிப்பது.