பாண்டாஸ் க்யூட்

Pantas Kyut



'பைதான்' பல நூலகங்களைக் கொண்டுள்ளது, மேலும் தரவை பகுப்பாய்வு செய்யவோ அல்லது கையாளவோ விரும்பினால், இந்த 'பைத்தானின்' நூலகங்களைப் பயன்படுத்துகிறோம், மேலும் 'பாண்டாக்கள்' அதன் நூலகமாகும். 'பாண்டாஸ்' நூலகம் தரவு அறிவியல் துறையில் பயன்படுத்தப்படுகிறது, மேலும் இது இயந்திர கற்றல் நடவடிக்கைகளிலும் பயன்படுத்தப்படுகிறது. 'pandas' DataFrame தரவைச் சேமிக்க உதவுகிறது. 'pandas' இல், நாம் தரவு பின்னிங் செய்ய விரும்பினால், 'qcut()' முறையைப் பயன்படுத்துகிறோம். 'qcut()' முறையானது தொடர்ச்சியான அம்சங்களை வகைப்படுத்தியதாக மாற்றுவதற்குப் பயன்படுத்தப்படுகிறது. இந்த “qcut()” முறையில் பல்வேறு வகையான முடிவுகளைப் பெறுவதற்கு பல்வேறு வகையான அளவுருக்களை நாம் சேர்க்கலாம். இந்த பயிற்சியானது “qcut()” முறையைப் பற்றியது, மேலும் “qcut()” முறையை இங்கு விரிவாக விளக்குவோம். இந்த டுடோரியலில் 'pandas' இல் உள்ள 'qcut()' செயல்பாட்டின் உதவியுடன் தரவு பின்னிங்கை எவ்வாறு செய்கிறோம் என்பதை நாங்கள் உங்களுக்கு விளக்குவோம்.'

எடுத்துக்காட்டு # 01

இந்தக் குறியீடுகளில் “qcut()” முறையைப் பயன்படுத்துவோம், மேலும் இந்தக் குறியீடுகளை “Spyder” பயன்பாட்டில் செய்வோம். நாம் 'பாண்டாக்கள்' உடன் வேலை செய்ய வேண்டியிருக்கும் போது, ​​'பாண்டாக்கள்' நூலகத்தை நமது குறியீடுகளில் இறக்குமதி செய்யும் போது மட்டுமே அதன் செயல்பாடுகளை அணுக முடியும். முதலில், 'இறக்குமதி' என்று வைக்கிறோம், பின்னர் 'pd ஆக பாண்டாக்கள்' என்று எழுதுகிறோம். இப்போது, ​​​​நாம் “qcut()” முறையைப் பயன்படுத்த வேண்டும், எனவே இதற்காக, இங்கே DataFrame ஐ உருவாக்குகிறோம். 'R_ID, R_name மற்றும் R_age' ஆகியவற்றைக் கொண்ட 'Random_df' ஐ அதன் நெடுவரிசைகளாக உருவாக்குகிறோம், மேலும் 'R_ID' இல் 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_5, R_5 ஆகியவற்றை வைக்கிறோம். R_61, R_73 மற்றும் R_81'. பின்னர் 'R_name' நெடுவரிசையில் 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob, and Harper'ஐச் சேர்க்கிறோம். இதற்குப் பிறகு, 'R_age' நெடுவரிசையில் '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 மற்றும் 40' ஐச் செருகுவோம். இப்போது, ​​'Random_df' ஐக் கொண்டிருக்கும் 'print()' ஐப் பயன்படுத்துகிறோம், மேலும் இது 'Random_df' DataFrame ஐ வழங்குவதற்கு உதவும். நாங்கள் இப்போதுதான் DataFrame ஐ உருவாக்கியுள்ளோம், இன்னும் “qcut()” முறையைப் பயன்படுத்தவில்லை.








'ரன்' ஐகான் குறியீடுகளை இயக்க உதவுகிறது. இந்த 'ரன்' ஐகானை அழுத்தினால், இந்த குறியீட்டின் முடிவு 'ஸ்பைடர்' பயன்பாட்டின் முனையத்தில் காட்டப்படும். இந்த எடுத்துக்காட்டில் நாம் எழுதிய குறியீட்டின் விளைவாக “Random_df” DataFarme காட்டப்பட்டுள்ளது. இப்போது, ​​நாம் 'qcut()' முறையைப் பயன்படுத்துவோம், அதன் முடிவையும் காண்பிப்போம்.




நாங்கள் இங்கே தரவை இணைக்கிறோம். நாங்கள் “R_age” நெடுவரிசையை பின்னிங் செய்து “pd.qcut()” முறையை வைக்கிறோம், இது தரவு பின்னிங்கிற்கு உதவும் “pandas” முறையாகும். இந்த முறையில், DataFrame இன் பெயரையும், இந்த “qcut()” முறையைப் பயன்படுத்த விரும்பும் நெடுவரிசைப் பெயரையும் செருகுவோம். நாங்கள் “q” இன் மதிப்பை “5” ஆக அமைத்துள்ளோம், மேலும் இது “R_age” நெடுவரிசையின் தரவை ஐந்து சம அளவுகளாக வெட்ட பயன்படுகிறது. 'qcut()' முறையை 'print()' இல் சேர்க்கிறோம், எனவே இது டெர்மினலில் பின்னிங் தரவையும் காண்பிக்கும்.




இங்கே, பின்னிங் செய்த பிறகு தரவு காட்டப்படும், மேலும் அது 'R_age' ஐ ஐந்து அளவுகளாக வெட்டுகிறது. இது 'R_age' நெடுவரிசை தரவு பிணைக்கப்பட்ட வகைகளையும் காட்டுகிறது. வகைப்படுத்தப்பட்ட தொடர் 'R_age' தொட்டிகளைக் குறிக்கிறது.






இந்தத் தொட்டிகளுக்கான லேபிளையும் நாம் சரிசெய்யலாம். இந்த பின் லேபிள்களை விளக்குவதற்கு எளிதாகச் சேர்க்கிறோம். 'Random_df' இல் 'R_age_qcut' நெடுவரிசையைச் சேர்ப்போம், அதில் இந்தத் தொட்டிகளின் லேபிள்களைச் சேர்க்கிறோம். அவற்றை லேபிளிடுவதற்கு மீண்டும் “pd.qcut()” முறையைப் பயன்படுத்துகிறோம். அதில் 'சிறியது, சிறியது அல்ல, சாதாரணமானது, உயர்ந்தது மற்றும் உயர்ந்தது' என்று லேபிள்களைச் சேர்க்கிறோம். பின்னர் மீண்டும் 'Random_df' ஐ 'print()' இல் வைக்கிறோம்.


இந்த முடிவில் அனைத்து தொட்டிகளும் பெயரிடப்பட்டு வழங்கப்படுகின்றன. இந்த டேட்டா ஃப்ரேமில் “R_age_qcut” நெடுவரிசை காட்டப்படும், அதில் லேபிளிடப்பட்ட தொட்டிகள் காட்டப்படும்.



எடுத்துக்காட்டு # 02

DataFrame ஐ உருவாக்க, முதலில் '3, 6, 8, 7, 2, 5, 1, 9, 4, 7, மற்றும் 8' ஆகிய 'கிரேடுகளை' சேர்ப்போம். பின்னர், “பீட்டர், ப்ரோம்லி, ஜேம்ஸ், டேவிட், கூட்டாளிகள், ஜான், ஜேம்ஸ், சாமுவேல், வில்லியம், ஹோவர்ட் மற்றும் அலெக்சாண்டர்” என்ற மாணவர்களின் பெயர்களை “மாணவர்கள்” சேர்க்கிறோம். பின்னர் 'Pd.DataFrame()' முறையைச் சேர்த்த 'Grades_df' ஐ உருவாக்குகிறோம், மேலும் இந்த முறையில், 'Std_name' ஐ வைத்து, அது நெடுவரிசைப் பெயராகத் தோன்றும், மேலும் இதற்கு 'மாணவர்களின்' மதிப்புகளை ஒதுக்குவோம். DataFrame இன் நெடுவரிசைப் பெயராக “Students_grades” ஐ அமைத்து, மேலே உருவாக்கிய “கிரேடுகளையும்” இங்கே ஒதுக்குகிறோம். இதற்குப் பிறகு, எங்களிடம் “print()” உள்ளது, அதில் அச்சிடுவதற்கு “Grades_df” ஐச் சேர்க்கிறோம்.


இந்த குறியீட்டின் முடிவில் இரண்டு நெடுவரிசைகளைக் கொண்ட டேட்டாஃப்ரேம் காட்டப்படும். இப்போது, ​​இந்த நெடுவரிசையின் மதிப்புகளின் தரவை பின்னிங் செய்ய, “ஸ்டூடண்ட்ஸ்_கிரேட்ஸ்” நெடுவரிசையில் “qcut()” முறையைப் பயன்படுத்துவோம்.


'ஸ்டூடண்ட்ஸ்_கிரேட்ஸ்' நெடுவரிசையில் 'pd.qcut()' ஐப் பயன்படுத்திய புதிய நெடுவரிசை 'கிரேடு' ஒன்றை இங்கே சேர்த்துள்ளோம், மேலும், 'q' இன் மதிப்பிற்கு '4' ஐப் பயன்படுத்தியுள்ளோம், எனவே அது வெட்டப்படும். தரவு நான்கு சம அளவுகளாக. இதற்குப் பிறகு, 'q' இல் மதிப்புகளை வைப்பதன் மூலம் இந்த அளவுகளை இங்கே குறிப்பிடுகிறோம், அவை '0, .4, .8 மற்றும் 1' ஆகும். பிறகு, இதையும் காட்டுகிறோம். இப்போது, ​​இந்த பின் செய்யப்பட்ட தரவுகளை லேபிளிடுகிறோம், மேலும் இங்கு நாம் சேர்க்கும் லேபிள்கள் “D, C, A மற்றும் B” மற்றும் “கிரேடு” நெடுவரிசையிலும் சேமிக்கப்படும்.


இங்கே, பின்னிங்கிற்குப் பின் உள்ள தரவு இங்கே 'கிரேடு' நெடுவரிசையில் காட்டப்படும், மேலும் இது 'மாணவர்கள்_கிரேடுகள்' நெடுவரிசையின் தரவை நான்கு சம அளவுகளாக வெட்டுகிறது.


“qcut()” முறையைப் பயன்படுத்திய பிறகு மற்றும் அளவுகளைக் குறிப்பிட்ட பிறகு நாம் பெறும் DataFrame இந்த முடிவில் காட்டப்படும்.


இப்போது, ​​இந்தத் தொட்டிகளில் லேபிள்களைச் சேர்த்த பிறகு, இந்த முடிவிலும் 'கிரேடு' நெடுவரிசையில் வழங்கப்படுகின்றன, மேலும் இது பின் மதிப்புகளுக்கு ஏற்ப லேபிள்களை ஒதுக்குவதை நீங்கள் பார்க்கலாம்.

எடுத்துக்காட்டு # 03

CSV கோப்பின் தரவுக்கும் “qcut()” முறையைப் பயன்படுத்தலாம். இதற்காக, முதலில் CSV கோப்பின் தரவை “read_csv()” முறையின் உதவியுடன் படிக்கிறோம். “office2.csv” கோப்பின் தரவைப் படிக்கிறோம், பின்னர் இந்தக் கோப்பின் தரவு “Office_df” இல் வைக்கப்படும். இந்த முறை “office2” கோப்பின் தரவை DataFrame ஆக மாற்றி “Office_df” இல் சேமிக்கும். பின்னர், “அச்சு()” இல் “Office_df” ஐ வைத்து இந்தத் தரவையும் காண்பிக்கிறோம். இதற்குப் பிறகு, 'Units_qcut' என்ற புதிய நெடுவரிசையைச் சேர்க்கிறோம், அதில் 'அலகுகள்' நெடுவரிசையில் 'pd.qcut()' செயல்பாட்டைப் பயன்படுத்துகிறோம்.

கூடுதலாக, 'q' மாறியின் மதிப்பை '5' ஆக அமைக்கிறோம், இது தரவை ஐந்து சம அளவுகளாகப் பிரிக்கும். தரவு, 5 சம அளவுகளாக வெட்டப்பட்ட பிறகு, “Units_qcut” நெடுவரிசையில் சேமிக்கப்படும், மேலும் இந்த நெடுவரிசை “Office_df” இல் சேர்க்கப்படும், மேலும் “Print()” ஐப் பயன்படுத்தி மீண்டும் இங்கு வழங்கப்படும் “Office_df”. நாங்கள் இப்போது இந்த பின் செய்யப்பட்ட தரவை லேபிளிடுகிறோம், 'qcut()' முறையில் லேபிள்களைச் சேர்த்து, அவை  'அலகு 1, அலகு 2, அலகு 3, அலகு 4 மற்றும் அலகு 5' மற்றும் அவற்றை 'லேபிள்கள்' நெடுவரிசையிலும் சேமித்து வைக்கிறோம். . 'லேபிள்கள்' நெடுவரிசை சேர்க்கப்பட்டுள்ள இந்த டேட்டாஃப்ரேமையும் நாங்கள் வழங்குகிறோம்.


“office2.csv” கோப்பைப் படித்த பிறகு நமக்குக் கிடைக்கும் தரவு இங்கே DataFrame வடிவத்தில் வழங்கப்படுகிறது. பின்னர் 'Units_qcut' நெடுவரிசை சேர்க்கப்பட்டது, அதில் 'அலகுகள்' நெடுவரிசையின் பின் செய்யப்பட்ட மதிப்புகள் காட்டப்படும். இதற்குப் பிறகு, 'லேபிள்கள்' நெடுவரிசையும் சேர்க்கப்படுகிறது, இது இந்த பின் செய்யப்பட்ட மதிப்புகளுக்கு லேபிள்களை ஒதுக்குகிறது. இவை அனைத்தும் 'பாண்டாஸ்' இல் உள்ள 'qcut()' முறையைப் பயன்படுத்தி செய்யப்படுகிறது.

முடிவுரை

இந்த டுடோரியலில் “qcut()” முறையை விரிவாக விளக்கியுள்ளோம், இது “pandas” இல் தரவை இணைக்க உதவுகிறது. “qcut()” முறையில் நாங்கள் சேர்த்த அளவு “q” மதிப்பின்படி தரவு பிணைக்கப்பட்டுள்ளது என்று நாங்கள் விவாதித்தோம், மேலும் இந்த பின் செய்யப்பட்ட தரவுகளுக்கு லேபிள்களை சரிசெய்துள்ளோம். நாங்கள் “qcut()” முறையை ஆராய்ந்து, DataFrame இன் நெடுவரிசைகளுக்கு இந்த முறையைப் பயன்படுத்தியுள்ளோம், மேலும் CSV கோப்புகளைப் படித்த பிறகு, CSV கோப்பின் தரவுக்கும் இந்த “qcut()” முறையைப் பயன்படுத்தியுள்ளோம். 'qcut()' முறையின் முடிவை தெளிவாக விளக்கி காட்ட இந்த டுடோரியலில் அனைத்து குறியீடுகளின் முடிவையும் வழங்கியுள்ளோம்.