பாண்டாக்கள் சேர் vs மெர்ஜ்

Pantakkal Cer Vs Merj



'பாண்டாஸ்' என்பது மலைப்பாம்பு சூழலுக்கான உயர் செயல்திறன் கருவியாகும். இது தரவு பகுப்பாய்வுக்கான 'திறந்த' மூலக் குறியீடு. பாண்டாக்கள் இணைதல் மற்றும் பாண்டாக்கள் ஒன்றிணைத்தல் முறை இரண்டு டேட்டாஃப்ரேம்களை ஒன்றாக ஒரு டேட்டாஃப்ரேமில் இணைக்கப் பயன்படுகிறது. பாண்டாக்களின் இரண்டு முறைகளிலும், வித்தியாசம் என்னவென்றால், பாண்டாக்கள் 'சேர்' செயல்பாடு ஒரு குறியீட்டைப் பயன்படுத்தி டேட்டாஃப்ரேமில் இணைகிறது. பாண்டாக்கள் 'ஒன்றிணைதல்' செயல்பாடு குறியீட்டு மற்றும் நெடுவரிசை முறையைப் பயன்படுத்தி டேட்டாஃப்ரேமில் இணைகிறது, அதில் நாமே விரும்பிய நெடுவரிசையைத் தேர்ந்தெடுக்கலாம். பாண்டாக்களின் சேரும் முறையுடன் ஒப்பிடும்போது பாண்டாக்களின் ஒன்றிணைக்கும் முறை பெரும்பாலும் பயன்படுத்தப்படுகிறது. செயல்படுத்துவதற்கு நாம் பயன்படுத்தும் மென்பொருள் “ஸ்பைடர்” மென்பொருளாகும், இது பைதான் சூழலில் உள்ளது, இது பாண்டாக்கள் சேரும் முறை() மற்றும் பாண்டாஸ் மெர்ஜ்() முறை செயல்பாட்டின் குறியீடு செயல்படுத்தலுக்கான பலன்களை எங்களுக்கு வழங்கும்.

பாண்டாக்கள் சேரும்() முறையின் தொடரியல்

'df1. சேர ( df2 )

மேலே உள்ள தொடரியல் 'df' என்பது 'dataframe' என்பதன் சுருக்கமாகும். 'டாட் ஜாயின்' செயல்பாட்டுடன் தொடரியல் இரண்டு டேட்டாஃப்ரேம்கள் உள்ளன, இது முறையை அழைப்பதற்கானது. இது இரண்டு டேட்டாஃப்ரேம்களை இணைக்கும் பாண்டா முறை. டேட்டாஃப்ரேம்களை ஒற்றை ஒன்றில் இணைக்க குறியீட்டைப் பயன்படுத்தி இது செயல்படுகிறது.







பாண்டாஸ் மெர்ஜ்() முறையின் தொடரியல்

'df1. ஒன்றிணைக்க ( df2 , அன்று = 'நெடுவரிசை_பெயர்' )

பாண்டாக்கள் ஒன்றிணைக்கும் முறை தொடரியல் 'df1' மற்றும் 'df2' என இரண்டு டேட்டாஃப்ரேம்களைக் கொண்டுள்ளது. 'டாட் மெர்ஜ்' செயல்பாடு இரண்டு டேட்டாஃப்ரேம்களையும் தலைகீழான நெடுவரிசைகளின் தோற்றத்துடன் இணைக்கும் முறையை அழைக்கிறது.



பாண்டா மெர்ஜ் மற்றும் பாண்டாக்கள் சேரும் முறைகளைப் பயன்படுத்த இரண்டு டேட்டாஃப்ரேம்களை இணைக்கும் பின்வரும் வழிகளை நாங்கள் உள்ளடக்குவோம்:



  • பாண்டாக்கள் இணைத்தல் முறை ஒன்றுடன் ஒன்று.
  • குறியீட்டு மீட்டமைப்பைப் பயன்படுத்தி பாண்டாக்கள் முறையுடன் இணைகின்றன.
  • பாண்டாக்கள் ஒன்றிணைக்கும் முறை (நெடுவரிசை 'இடது மற்றும் வலது').
  • பாண்டாக்கள் ஒன்றிணைக்கும் முறை வெளிப்படையானது.

Pandas Merge and Pandas Join Method ஐ செயல்படுத்துவதற்கான டேட்டாஃப்ரேம்களை உருவாக்குதல்

முதலில், நாம் ஒரு தரவு சட்டத்தை உருவாக்க வேண்டும். அதற்கு, 'ஸ்பைடர்' கருவியைப் பயன்படுத்துவோம். அதைத் திறந்த பிறகு, குறியீட்டை எழுதத் தொடங்குங்கள். பாண்டாக்கள் நூலக சங்கத்திற்கு 'pd' ஆக பாண்டாக்களை இறக்குமதி செய்யவும். எங்களிடம் டேட்டாஃப்ரேம் மாறிகள் “x”, “y”, “p”, மற்றும் “q அதற்கேற்ப உள்ளது மற்றும் “a” மதிப்புகள் “1” மற்றும் “b” மதிப்புடன் “2” என ஒதுக்கப்பட்டுள்ளது.





வெளியீடு என்பது ஒதுக்கப்பட்ட மதிப்புகளுடன் உருவாக்கப்பட்ட “df” ஆகும். தரவு எவ்வளவு பெரியதாக இருக்கிறதோ அவ்வளவு பெரியதாக மாற்றலாம்.



மற்றொரு டேட்டாஃப்ரேமை உருவாக்குதல்

பாண்டாக்கள் இணைதல் மற்றும் பாண்டாக்கள் ஒன்றிணைக்கும் முறைகளை தெளிவாக புரிந்து கொள்ள, நாம் மற்றொரு தரவு சட்டத்தை உருவாக்க வேண்டும். இங்கே, 'df' மேலே உள்ள 'df' ஐப் போலவே உருவாக்கப்பட்டுள்ளது, மதிப்புகள் மட்டுமே மாறிகள் ஒதுக்கப்படுகின்றன. எங்களிடம் 'h', 'j', 's' மற்றும் 'd' உள்ளது, அதேசமயம் '8' மதிப்புடன் 'b' மற்றும் '3' மதிப்புடன் 'Y' மதிப்புகளை ஒதுக்கவும்.

வெளியீடு எளிய 'df' உருவாக்கப்பட்டதைக் காட்டுகிறது.

எடுத்துக்காட்டு # 01: பாண்டாக்கள் சேரும் முறை (ஒன்றிணைதல்)

இப்போது, ​​பாண்டாக்கள் சேரும் முறையுடன் இரண்டு டேட்டாஃப்ரேம்களை எப்படி இணைப்பது என்று பார்ப்போம். இந்த முறைக்கு, டேட்டாஃப்ரேமில் இருந்து நாங்கள் வேலை செய்ய விரும்பும் நெடுவரிசையைத் தேர்வு செய்யலாம். 'df' இலிருந்து 'இடது' என்ற ஒன்றுடன் ஒன்று நெடுவரிசையுடன் எடுத்துக்காட்டை எடுத்துள்ளோம், எனவே தரவின் மேலெழுதலைக் கடக்க 'பின்னொட்டு' மூலம் இதை சரிசெய்யலாம். இங்கே, 'x', 'z', 'v', 'd' ஆகிய மாறிகள் பயன்படுத்தப்படுகின்றன. '3', '6', '7' மற்றும் '9' என ஒதுக்கப்பட்ட மதிப்புகளுடன் 'p', 'o', 'l' மற்றும் 'y'. வலது 'df' பின்னொட்டுடன் இடது இணைப்பாக அமைக்கப்பட்ட சீரமைப்புடன், '.join' முறையை அழைக்கிறது. ”. குறியீட்டில் 'பின்னொட்டு' பயன்படுத்தப்படுகிறது, ஏனெனில் டேட்டாஃப்ரேமில், 'விசை' என்ற ஒரே பெயரைக் கொண்ட இரண்டு நெடுவரிசைகள் உள்ளன, அவை தரவை ஒன்றுடன் ஒன்று சேர்க்காது.

பாண்டாஸ் சேரும் முறையைப் பயன்படுத்தி இரண்டு 'df' ஐ இணைக்கும் முறையுடன் ஒன்றுடன் ஒன்று தரவு எதுவும் வெளியீடு காட்டாது.

எடுத்துக்காட்டு # 02: குறியீட்டு மீட்டமைப்பைப் பயன்படுத்தி பாண்டாக்கள் சேரும் முறை

இந்த எடுத்துக்காட்டில், இரண்டு டேட்டாஃப்ரேம்களை இணைக்க உதவும் முறை இணைப்பில் உள்ள 'விசை'யாகப் பயன்படுத்த, 'ஆன்' அளவுருவுடன் நெடுவரிசையை தனித்தனியாகக் குறிப்பிடுவோம். ஒருங்கிணைந்த விஷயம் இந்த அளவுருவுடன் செய்யப்படுகிறது. மேலும், 'df' இரண்டில் ஒன்றின் குறியீடு அவற்றுடன் இணைவதற்கு ஒத்ததாக இருக்க வேண்டும். ஒரே நோக்கத்திற்காகப் பயன்படுத்தப்படும் ஒரே மாதிரியான தரவு அல்லது தரவு செயலாக்கத்திற்கு ஒன்றாக இருக்கலாம். இது வலப்பக்கத்தில் இருந்து இன்டெக்ஸைப் பயன்படுத்தும். மாறிகள் 's', 't', 'u', 'v', 'n', 'w', 'k' மற்றும் 'q' ஆகும். ஒதுக்கப்பட்ட மதிப்புகள் '3', '6', '7' மற்றும் '9' ஆகும். 'ரீசெட் டாட் இன்டெக்ஸ்' என்பது 'df' இன் குறியீட்டை மீட்டமைப்பதற்கான பாண்டாக்களின் ஒரு முறையாகும். ரீசெட் இன்டெக்ஸ் உங்கள் டேட்டாஃப்ரேம் பட்டியலின் அனைத்து முழு எண்களையும் 0 முதல் டேட்டாஃப்ரேம் டேட்டா நீட்டிக்கும் வரை அமைக்கிறது.

பாண்டாக்களின் இணைப்பு முறை 'கீ' குறியீட்டுடன் காட்டப்படும் வெளியீடு இங்கே.

எடுத்துக்காட்டு # 03: Pandas Merge Method (நெடுவரிசை 'இடது மற்றும் வலது')

ஒன்றிணைக்கும் முறையானது பாண்டாக்கள் சேரும் முறையைப் போன்ற ஒரு செயல்பாட்டைச் செய்கிறது. இரண்டு முறைகளும் ஒரே மாதிரியான டேட்டாஃப்ரேமில் தரவை இணைப்பதாகும். ஒன்றிணைக்கும் முறையானது, விசையைக் குறிப்பிடுவதற்குத் தேவைப்படும் பல்துறை ஆகும். உங்கள் டேட்டாஃப்ரேமின் வேலையைப் பொறுத்து இடது மற்றும் வலது நெடுவரிசைகளிலும் அதைக் குறிப்பிடலாம். குறியீட்டில் உள்ள மாறிகள் 's', 'd', 'g', 'f', 'k', 'j', 'b' மற்றும் 'q' ஆகும். ஒதுக்கப்பட்ட மதிப்புகள் '9', '5', '6' மற்றும் '7' ஆகும். பாண்டாக்கள் ஒன்றிணைக்கும் முறை செயல்பாட்டின் 'எப்படி' என்ற அளவுருவைப் பயன்படுத்தி 'df' இரண்டிலும் வெளிப்புற 'சேர்தல்' செயல்படுத்தல் செய்யப்படுகிறது.

நாம் பார்க்கும் வெளியீடு இரண்டு டேட்டாஃப்ரேம்களின் இணைக்கப்பட்ட தரவைக் காட்டுகிறது. 'NaN' என்பது 'எண் அல்ல' என்பதைக் குறிக்கிறது, அதாவது தரவுகளில் எண் ஒதுக்கப்படாத இடத்தில் 'NaN' காண்பிக்கும்.

எடுத்துக்காட்டு # 04: ஒன்றிணைக்கும் முறை வெளிப்படையாக

இங்கே, இந்த எடுத்துக்காட்டில், ஒன்றிணைக்கும் முறை என்பது குறியீட்டின் அழிவு மற்றும் குறியீட்டு மதிப்பு தரவுச்சட்டத்தில் கருதப்படுவதில்லை. செய்ய வேண்டிய வேலையின்படி இந்த முறையை நாங்கள் செய்வோம், அங்கு குறிப்பிடுவது வெளிப்படையானது. இது இடது குறியீட்டு அல்லது வலது குறியீட்டின் அடிப்படையில் தரவை அளவுருவுடன் இணைக்கும். இந்த டேட்டாஃப்ரேமில் உள்ள மாறிகள் 't', 'r', 'I', 'u', 'h', 'o', 'e' மற்றும் 'e' ஆகும். ஒதுக்கப்பட்ட மதிப்புகள் '2', '4', '6' மற்றும் '4' ஆகும். தேவைக்கு ஏற்ப நெடுவரிசைத் தேர்வோடு பாண்டாக்கள் ஒன்றிணைக்கும் முறையின் மேலே உள்ள எடுத்துக்காட்டு, இரண்டு டேட்டாஃப்ரேம்களில் இணைவதற்கான மிகவும் வழங்கக்கூடிய மற்றும் மதிப்புமிக்க முறையாகும். தரவுத்தொகுப்பில் ஒன்றிணைக்கும் விசை தனித்துவமானது என்பதை குறியீட்டின் வரியின் முடிவில் சரிபார்க்கிறது.

கீழே உள்ள வெளியீட்டில், குறியீட்டு இல்லாமல் குறியீட்டு காட்டப்படவில்லை, ஆனால் வலது மற்றும் இடது குறியீட்டின் அடிப்படையில் செயல்பாடு செய்யப்படுகிறது.

முடிவுரை

merge() மற்றும் join() முறைகள் இரண்டும் மிகவும் வசதியான மற்றும் பயனுள்ள முறைகள் ஆகும். இந்த இரண்டு செயல்பாடுகளும் ஒரே டேட்டாஃப்ரேமில் இரண்டு தனித்தனி டேட்டாஃப்ரேமில் இணைவதற்குப் பயன்படுத்தப்படுகின்றன, ஆனால் வழக்கைப் பொறுத்து வெவ்வேறு பயன்பாடுகள் உள்ளன. இந்த கட்டுரையில், பாண்டாக்கள் சேருவதற்கும் ஒன்றிணைக்கும் முறைக்கும் இடையிலான முக்கிய வேறுபாடுகளைக் கற்றுக்கொண்டோம். உதாரணங்களைச் செய்து, பாண்டாக்கள் சேரும் முறையைப் புரிந்துகொண்ட பிறகு, மேலும் நெகிழ்வான மற்றும் தரவுத்தள பாணியில் சேர விரும்பினால், பாண்டாக்கள் ஒன்றிணைக்கும் முறையைப் பயன்படுத்துவது விரும்பத்தக்கது என்ற அறிவோடு அதை முடிப்போம். மறுபுறம், டேட்டாஃப்ரேமை இன்டெக்ஸுடன் இணைத்து விரிவாகச் செய்ய விரும்பினால், நாம் பாண்டாஸ் ஜாயின்() முறை செயல்பாட்டைக் கொண்டு செல்லலாம்.