பாண்டாக்கள் Nan ஐ 0 உடன் நிரப்புகின்றன

Pantakkal Nan Ai 0 Utan Nirappukinrana



தரவு அறிவியல் பொதுவாக விடுபட்ட தரவுகளை உள்ளடக்கியது. முழு வரிசையும் நிராகரிக்கப்படலாம் அல்லது வரிசை-நெடுவரிசை கலவையில் மதிப்பைச் சேர்க்கலாம். வரிசை/நெடுவரிசையை கைவிடுவது அபத்தமானது, ஏனெனில் இது ஒவ்வொரு வரிசைக்கும் ஒரு குறிப்பிட்ட அளவீட்டை நீக்குகிறது. 'ஒரு எண் அல்ல' என்பதைக் குறிக்கும் NaN, தரவுத் தொகுப்பிலிருந்து விடுபட்ட மதிப்பைக் காண்பிப்பதற்கான பொதுவான வழிகளில் ஒன்றாகும். உத்தேசிக்கப்பட்ட விளைவுகளைப் பெற, NaN ஐக் கையாள்வது மிகவும் முக்கியமானது. எனவே, ஒரு Pandas DataFrame இன் வரிசை அல்லது நெடுவரிசையில் உள்ள NaN மதிப்புகளை 0 க்கு மாற்றுவது எப்படி என்பதைக் கண்டுபிடிப்போம்.

பாண்டாக்கள் NaN மதிப்புகளை நிரப்புகின்றன

உங்கள் தரவுச் சட்டத்தில் உள்ள நெடுவரிசையில் NaN அல்லது None மதிப்புகள் இருந்தால், அவற்றை பூஜ்ஜியத்தால் (0) நிரப்ப “fillna()” அல்லது “replace()” செயல்பாடுகளைப் பயன்படுத்தலாம்.

நிரப்பு()







NA/NaN மதிப்புகள் 'fillna()' செயல்பாட்டைப் பயன்படுத்தி வழங்கப்பட்ட அணுகுமுறையால் நிரப்பப்படுகின்றன. பின்வரும் தொடரியலைக் கருத்தில் கொண்டு இதைப் பயன்படுத்தலாம்:



நீங்கள் ஒரு நெடுவரிசைக்கான NaN மதிப்புகளை நிரப்ப விரும்பினால், தொடரியல் பின்வருமாறு:




முழுமையான DataFrameக்கான NaN மதிப்புகளை நீங்கள் நிரப்ப வேண்டியிருக்கும் போது, ​​தொடரியல் வழங்கப்பட்டுள்ளது:






மாற்று()

NaN மதிப்புகளின் ஒற்றை நெடுவரிசையை மாற்ற, வழங்கப்பட்ட தொடரியல் பின்வருமாறு:




அதேசமயம், DataFrame இன் NaN மதிப்புகள் முழுவதையும் மாற்ற, நாம் பின்வரும் குறிப்பிடப்பட்ட தொடரியல் பயன்படுத்த வேண்டும்:


இந்த கட்டுரையில், எங்கள் Pandas DataFrame இல் NaN மதிப்புகளை நிரப்ப இந்த இரண்டு முறைகளின் நடைமுறைச் செயலாக்கத்தையும் இப்போது ஆராய்ந்து கற்றுக்கொள்வோம்.

எடுத்துக்காட்டு 1: Pandas “Fillna()” முறையைப் பயன்படுத்தி NaN மதிப்புகளை நிரப்பவும்

கொடுக்கப்பட்ட டேட்டாஃப்ரேமில் உள்ள NaN மதிப்புகளை 0 ஆல் நிரப்ப, Pandas “DataFrame.fillna()” செயல்பாட்டின் பயன்பாட்டை இந்த எடுத்துக்காட்டு விளக்குகிறது. விடுபட்ட மதிப்புகளை நீங்கள் ஒரு நெடுவரிசையில் நிரப்பலாம் அல்லது முழு DataFrame இல் அவற்றை நிரப்பலாம். இங்கே, இந்த இரண்டு நுட்பங்களையும் பார்ப்போம்.

இந்த உத்திகளை நடைமுறைப்படுத்த, திட்டத்தை செயல்படுத்துவதற்கு பொருத்தமான தளத்தை நாம் பெற வேண்டும். எனவே, 'ஸ்பைடர்' கருவியைப் பயன்படுத்த முடிவு செய்தோம். 'pandas' கருவித்தொகுப்பை நிரலில் இறக்குமதி செய்வதன் மூலம் எங்கள் பைதான் குறியீட்டைத் தொடங்கினோம், ஏனெனில் DataFrame ஐ உருவாக்கவும் அந்த DataFrame இல் விடுபட்ட மதிப்புகளை நிரப்பவும் Pandas அம்சத்தைப் பயன்படுத்த வேண்டும். நிரல் முழுவதும் 'pd' ஆனது 'pandas' இன் மாற்றுப்பெயராகப் பயன்படுத்தப்படுகிறது.

இப்போது, ​​எங்களிடம் பாண்டாஸ் அம்சங்களுக்கான அணுகல் உள்ளது. எங்கள் DataFrame ஐ உருவாக்க முதலில் அதன் “pd.DataFrame()” செயல்பாட்டைப் பயன்படுத்துகிறோம். இந்த முறையை நாங்கள் செயல்படுத்தி, அதை மூன்று நெடுவரிசைகளுடன் துவக்கினோம். இந்த நெடுவரிசைகளின் தலைப்புகள் 'M1', 'M2' மற்றும் 'M3' ஆகும். 'M1' நெடுவரிசையில் உள்ள மதிப்புகள் '1', 'இல்லை', '5', '9' மற்றும் '3' ஆகும். 'M2' இல் உள்ள உள்ளீடுகள் 'இல்லை', '3', '8', '4' மற்றும் '6' ஆகும். 'M3' தரவுகளை '1', '2', '3', '5' மற்றும் 'இல்லை' என சேமிக்கிறது. 'pd.DataFrame()' முறை அழைக்கப்படும் போது இந்த DataFrame ஐ சேமிக்கக்கூடிய DataFrame ஆப்ஜெக்ட் நமக்கு தேவைப்படுகிறது. 'காணாமல் போன' DataFrame ஆப்ஜெக்டை உருவாக்கி, 'pd.DataFrame()' செயல்பாட்டிலிருந்து கிடைத்த விளைவுகளின்படி அதை ஒதுக்கினோம். பின்னர், பைதான் கன்சோலில் டேட்டாஃப்ரேமைக் காட்ட பைத்தானின் “அச்சு()” முறையைப் பயன்படுத்தினோம்.


இந்த குறியீட்டை இயக்கும்போது, ​​மூன்று நெடுவரிசைகள் கொண்ட டேட்டாஃப்ரேம் டெர்மினலில் பார்க்க முடியும். இங்கே, மூன்று நெடுவரிசைகளிலும் பூஜ்ய மதிப்புகள் இருப்பதை நாம் அவதானிக்கலாம்.


காணாமல் போன மதிப்புகளை 0 ஆல் நிரப்ப, பாண்டாஸ் “fillna()” செயல்பாட்டைப் பயன்படுத்த சில பூஜ்ய மதிப்புகளைக் கொண்ட DataFrame ஐ உருவாக்கியுள்ளோம். அதை எப்படி செய்வது என்று பார்ப்போம்.

DataFrame ஐக் காட்டிய பிறகு, பாண்டாஸ் “fillna()” செயல்பாட்டைப் பயன்படுத்தினோம். இங்கே, விடுபட்ட மதிப்புகளை ஒற்றை நெடுவரிசையில் நிரப்ப கற்றுக்கொள்வோம். இதற்கான தொடரியல் ஏற்கனவே டுடோரியலின் தொடக்கத்தில் குறிப்பிடப்பட்டுள்ளது. DataFrame இன் பெயரை வழங்கியுள்ளோம் மற்றும் குறிப்பிட்ட நெடுவரிசையின் தலைப்பை “.fillna()” செயல்பாட்டுடன் குறிப்பிட்டோம். இந்த முறையின் அடைப்புக்குறிகளுக்கு இடையில், பூஜ்ய இடங்களில் வைக்கப்படும் மதிப்பை வழங்கியுள்ளோம். DataFrame பெயர் 'காணவில்லை' மற்றும் நாங்கள் இங்கு தேர்ந்தெடுத்த நெடுவரிசை 'M2' ஆகும். “fillna()” இன் பிரேஸ்களுக்கு இடையே வழங்கப்பட்ட மதிப்பு “0” ஆகும். கடைசியாக, புதுப்பிக்கப்பட்ட DataFrame ஐப் பார்க்க “print()” செயல்பாட்டை அழைத்தோம்.


இங்கே, DataFrame இன் “M2” நெடுவரிசையில், NaN மதிப்பு 0-ல் நிரப்பப்பட்டிருப்பதால், இப்போது எந்த விடுபட்ட மதிப்புகளும் இல்லை என்பதை நீங்கள் பார்க்கலாம்.


ஒரு முழு DataFrameக்கான NaN மதிப்புகளை அதே முறையில் நிரப்ப, 'fillna()' என்று அழைத்தோம். இது மிகவும் எளிமையானது. DataFrame பெயரை “fillna()” செயல்பாட்டுடன் வழங்கியுள்ளோம், மேலும் அடைப்புக்குறிக்குள் “0” செயல்பாட்டு மதிப்பை ஒதுக்கினோம். இறுதியாக, 'print()' செயல்பாடு நிரப்பப்பட்ட DataFrameஐ நமக்குக் காட்டியது.


எல்லா மதிப்புகளும் இப்போது 0-ல் நிரப்பப்பட்டிருப்பதால், இது NaN மதிப்புகள் இல்லாத DataFrameஐப் பெறுகிறது.

எடுத்துக்காட்டு 2: பாண்டாக்கள் “மாற்று()” முறையைப் பயன்படுத்தி NaN மதிப்புகளை நிரப்பவும்

கட்டுரையின் இந்தப் பகுதி DataFrame இல் NaN மதிப்புகளை நிரப்புவதற்கான மற்றொரு முறையை விளக்குகிறது. ஒற்றை நெடுவரிசையிலும் முழுமையான டேட்டாஃப்ரேமிலும் மதிப்புகளை நிரப்ப பாண்டாஸின் “மாற்று()” செயல்பாட்டைப் பயன்படுத்துவோம்.

'ஸ்பைடர்' கருவியில் குறியீட்டை எழுதத் தொடங்குகிறோம். முதலில், தேவையான நூலகங்களை இறக்குமதி செய்தோம். இங்கே, Pandas முறைகளைப் பயன்படுத்த பைதான் நிரலை இயக்க, Pandas நூலகத்தை ஏற்றினோம். நாங்கள் ஏற்றிய இரண்டாவது நூலகம் NumPy மற்றும் அதை “np” என்று மாற்றுகிறது. NumPy, விடுபட்ட தரவை “replace()” முறை மூலம் கையாளுகிறது.

பின்னர், 'ஸ்க்ரூ', 'ஆணி' மற்றும் 'துரப்பணம்' ஆகிய மூன்று நெடுவரிசைகளைக் கொண்ட டேட்டாஃப்ரேமை உருவாக்கினோம். ஒவ்வொரு நெடுவரிசையிலும் மதிப்புகள் முறையே கொடுக்கப்பட்டுள்ளன. 'திருகு' நெடுவரிசையில் '112', '234', 'இல்லை' மற்றும் '650' மதிப்புகள் உள்ளன. 'ஆணி' நெடுவரிசையில் '123', '145', 'இல்லை' மற்றும் '711' உள்ளது. கடைசியாக, 'துரப்பணம்' நெடுவரிசையில் '312', 'இல்லை', '500' மற்றும் 'இல்லை' மதிப்புகள் உள்ளன. DataFrame 'கருவி' DataFrame பொருளில் சேமிக்கப்பட்டு 'print()' முறையைப் பயன்படுத்தி காட்டப்படும்.


பதிவில் நான்கு NaN மதிப்புகள் கொண்ட ஒரு DataFrame பின்வரும் வெளியீட்டுப் படத்தில் காணலாம்:


இப்போது, ​​DataFrame இன் ஒற்றை நெடுவரிசையில் பூஜ்ய மதிப்புகளை நிரப்ப, Pandas “replace()” முறையைப் பயன்படுத்துகிறோம். பணிக்காக, 'replace()' செயல்பாட்டைப் பயன்படுத்தினோம். டேட்டாஃப்ரேம் பெயர் “கருவி” மற்றும் நெடுவரிசை “ஸ்க்ரூ” ஆகியவற்றை “.replace()” முறையுடன் வழங்கினோம். அதன் பிரேஸ்களுக்கு இடையில், DataFrame இல் உள்ள “np.nan” உள்ளீடுகளுக்கு “0” மதிப்பை அமைத்துள்ளோம். வெளியீட்டைக் காட்ட “அச்சு()” முறை பயன்படுத்தப்படுகிறது.


இதன் விளைவாக வரும் DataFrame, 'ஸ்க்ரூ' நெடுவரிசையில் 0 உடன் NaN உள்ளீடுகளுடன் முதல் நெடுவரிசையை நமக்குக் காட்டுகிறது.


இப்போது, ​​முழு DataFrame இல் உள்ள மதிப்புகளை நிரப்ப கற்றுக்கொள்வோம். 'replace()' முறையை DataFrame என்ற பெயருடன் அழைத்தோம், மேலும் np.nan உள்ளீடுகளுடன் மாற்ற விரும்பும் மதிப்பை வழங்கினோம். இறுதியாக, புதுப்பிக்கப்பட்ட DataFrame ஐ “print()” செயல்பாட்டுடன் அச்சிட்டோம்.


இதன் விளைவாக தரவுச் சட்டத்தை, விடுபட்ட பதிவுகள் இல்லாமல் நமக்கு வழங்குகிறது.

முடிவுரை

DataFrame இல் விடுபட்ட உள்ளீடுகளைக் கையாள்வது ஒரு அடிப்படை மற்றும் சிக்கலான தன்மையைக் குறைப்பதற்கும் தரவு பகுப்பாய்வு செயல்பாட்டில் தரவை எதிர்மறையாக கையாளுவதற்கும் அவசியமான தேவையாகும். இந்தச் சிக்கலைச் சமாளிக்க சில விருப்பங்களை பாண்டாஸ் எங்களுக்கு வழங்குகிறது. இந்த வழிகாட்டியில் இரண்டு எளிமையான உத்திகளைக் கொண்டு வந்துள்ளோம். 'ஸ்பைடர்' கருவியின் உதவியுடன் இரண்டு நுட்பங்களையும் நாங்கள் நடைமுறைக்குக் கொண்டு வருகிறோம், இது மாதிரி குறியீடுகளை உங்களுக்குப் புரிந்துகொள்ளக்கூடியதாகவும் எளிதாகவும் மாற்றும். இந்த செயல்பாடுகளைப் பற்றிய அறிவைப் பெறுவது உங்கள் பாண்டாஸ் திறன்களைக் கூர்மைப்படுத்தும்.