பாண்டாஸ் உரை கோப்பைப் படித்தார்

Pantas Urai Koppaip Patittar



'pandas' இல், 'pandas' முறையின் உதவியுடன் நாம் உரை கோப்பை எளிதாக படிக்கலாம். 'பாண்டாஸ்' உரை கோப்பைப் படிக்கும் வாய்ப்பை வழங்குகிறது. 'பாண்டாஸ்' உரை கோப்பைப் படிக்க பல்வேறு உள்ளமைக்கப்பட்ட முறைகளை வழங்குகிறது. இந்த டுடோரியலில் உள்ள அனைத்து முறைகளையும் அனைத்து அளவுருக்களுடன் இங்கே விவாதிப்போம் மற்றும் அவற்றை விரிவாக விளக்குவோம். மேலும், இங்கே எங்கள் குறியீடுகளில் உள்ள 'பாண்டாக்கள்' முறைகளைப் பயன்படுத்தி 'பாண்டாஸ்' இல் உள்ள உரைக் கோப்பைப் படிப்போம்.'

'pandas' இல் உரை கோப்பைப் படிப்பதற்கான முறைகள்

'பாண்டாக்கள்' இல், உரை கோப்பைப் படிக்க உதவும் மூன்று முறைகள் உள்ளன. டெக்ஸ்ட் பைலைப் படிக்கும் சில உதாரணங்களையும் இங்கே செய்துள்ளோம். 'பாண்டாக்கள்' வழங்கும் முறைகள் கீழே விவாதிக்கப்பட்டுள்ளன:







    • pd.read_csv() முறையைப் பயன்படுத்துவதன் மூலம்.
    • pd.read_table() முறையைப் பயன்படுத்துவதன் மூலம்.
    • pd.read_fwf() முறையைப் பயன்படுத்துவதன் மூலம்.

இப்போது, ​​இந்த அனைத்து முறைகளின் தொடரியல் பற்றி விளக்குகிறோம், மேலும் இந்த டுடோரியலில் அனைத்து முறைகளின் அளவுருக்களையும் விரிவாக விவாதிக்கிறோம்.



read_csv() இன் தொடரியல்



pd.read_csv ( 'filename.txt', செப் =' ', தலைப்பு = இல்லை, பெயர்கள் = [ “Col_name1”, “Col_name2, “Col_name2”, ………….. ] )


இந்த முறையில், முதலில் நாம் படிக்க விரும்பும் உரைக் கோப்பின் பெயரைச் சேர்க்கிறோம், மேலும் இது இந்த முறையின் முதல் அளவுருவாகும். பின்னர், இந்த முறையில் பிரிப்பானாக இருக்கும் “செப்” ஐ வைக்கிறோம், மேலும் இடத்தை இங்கு பாத்திரமாக வைக்கிறோம், எனவே அது இடத்தை பிரிப்பானாக கருதும். இதற்குப் பிறகு, எங்களிடம் தலைப்பு அளவுரு உள்ளது, மேலும் இந்த அளவுருவின் “இல்லை” மதிப்பு பயன்படுத்தப்படுகிறது, எனவே இது இயல்புநிலை தலைப்பை உருவாக்கும், மேலும் இந்த அளவுருவை நாம் சேர்க்கவில்லை என்றால், அது உரை கோப்பின் முதல் வரியைக் கருத்தில் கொள்ளும். தலைப்பாக. “பெயர்கள்” அளவுருவில், நாம் தலைப்பாகச் சேர்க்க வேண்டிய நெடுவரிசைப் பெயர்களைச் சேர்க்கலாம்.





படிக்க_அட்டவணையின் தொடரியல்()

pd.read_table ( 'filename.txt' , டிலிமிட்டர் = '''' )


இந்த முறையில், டெக்ஸ்ட் கோப்பின் கோப்பு பெயரை முதல் அளவுருவாக வைக்கிறோம். டிலிமிட்டரில், நாம் ‘ ’ ஐ வைக்கும்போது, ​​அது ஸ்பேஸ் கேரக்டரை பிரிப்பானாக எடுத்துக்கொள்ளும்.



read_fwf() இன் தொடரியல்

pd.read_fwf ( 'filename.txt' )


இந்த முறை ஒரு அளவுருவை மட்டுமே எடுக்கும், இது உரை கோப்பின் பெயர்.

இப்போது, ​​'பாண்டாஸ்' குறியீடுகளில் உள்ள உரைக் கோப்புகளைப் படிக்கவும், டெர்மினலில் உரைக் கோப்பின் தரவைக் காட்டவும் இந்த முறைகளைப் பயன்படுத்துவோம்.

எடுத்துக்காட்டு # 01

இந்த டுடோரியலில் வழங்கப்பட்ட அனைத்து குறியீடுகளையும் நாங்கள் செய்த “ஸ்பைடர்” பயன்பாடு இங்கே உள்ளது. நாம் படிக்க விரும்பும் உரை கோப்பு கீழே காட்டப்பட்டுள்ளது. 'pandas' இல் இந்த உரைக் கோப்பைப் படிக்க 'read_csv()' முறையைப் பயன்படுத்துவோம்.


நாங்கள் முதலில் 'பாண்டாக்கள்' நூலகத்தை இறக்குமதி செய்கிறோம், ஏனெனில் 'read_csv()' முறையைப் பயன்படுத்த விரும்புகிறோம், மேலும் இது 'பாண்டாக்கள்' முறையாகும். 'பாண்டாக்கள்' நூலகத்தை இறக்குமதி செய்யும் போது மட்டுமே இந்த முறையை அணுகுவோம். இங்கே, 'pandas as pd' என்று குறிப்பிடுகிறோம், எனவே இந்த 'pd' அதைப் பயன்படுத்துவதற்கான முறையின் பெயருடன் வைக்கப்பட்டுள்ளது. இதற்குப் பிறகு, இங்கே 'df' என்ற மாறியை உருவாக்குகிறோம், இது படித்த பிறகு உரை கோப்பின் தரவைச் சேமிக்கப் பயன்படுகிறது. 'pd.read_csv()' முறையை இங்கு வைக்கிறோம், இது டெக்ஸ்ட் பைலைப் படிக்கவும், டெக்ஸ்ட் பைல் தரவை DataFrame ஆக மாற்றி 'df' மாறியில் சேமிக்கவும் உதவும்.

இங்கே 'myData.txt' என்ற கோப்பின் பெயரைக் கடந்துவிட்டோம், பின்னர் 'sep' ஐப் பயன்படுத்தி, இந்த 'sep' க்கு வெற்று எழுத்தை ஒதுக்குவோம். எனவே, இந்த வெற்று எழுத்து உரை கோப்பில் பிரிப்பானாக செயல்படுகிறது. பின்னர், கீழேயுள்ள “அச்சு()” ஐப் பயன்படுத்தினோம், இது உரைக் கோப்பின் தரவை அச்சிடப் பயன்படுகிறது. இது டேட்டாஃப்ரேம் வடிவத்தில் உரை கோப்பின் தரவைக் காண்பிக்கும்.


இந்த குறியீட்டை செயல்படுத்த, நாம் 'Shift+Enter' ஐ அழுத்த வேண்டும், மேலும் வெளியீடு 'Spyder's' முனையத்தில் ரெண்டர் செய்யப்படும். மேலே உள்ள குறியீட்டின் முடிவு கொடுக்கப்பட்ட ஸ்கிரீன்ஷாட்டில் காட்டப்படும், மேலும் உரை கோப்பின் தரவு DataFrame ஆக காட்டப்படுவதை நீங்கள் காணலாம், மேலும் எங்கள் உரை கோப்பின் முதல் வரி அந்த DataFrame இன் நெடுவரிசை பெயர்களாக இங்கே வழங்கப்படுகிறது. உரைக் கோப்பில் ஸ்பேஸ் எழுத்து இருக்கும் தரவையும் இது பிரிக்கிறது.

எடுத்துக்காட்டு # 02

இந்த எடுத்துக்காட்டில் நாம் படிக்கும் உரை கோப்பு இங்கே காட்டப்பட்டுள்ளது, மேலும் நாங்கள் மீண்டும் 'read_csv()' முறையைப் பயன்படுத்துவோம், ஆனால் வெவ்வேறு அளவுருக்களுடன்.


'pandas' முறை 'pd.read_csv()' பயன்படுத்தப்படுகிறது, மேலும் இங்கு மூன்று அளவுருக்களை அனுப்புகிறோம். முதலில், 'Record.txt' என்ற கோப்பின் பெயரை வைக்கிறோம். இரண்டாவது அளவுருவானது “செப்” அளவுரு மற்றும் அதற்கு வெற்று எழுத்தை ஒதுக்குகிறது, பின்னர் எங்களிடம் மூன்றாவது அளவுரு உள்ளது, அதில் “தலைப்பை” அமைத்து அதை “இல்லை” என சரிசெய்கிறோம், எனவே இது டேட்டாஃப்ரேமின் இயல்புநிலை தலைப்பை உருவாக்கும். இந்த குறியீட்டை இயக்கும்போது. இவை அனைத்தையும் “My_Record” மாறியில் சேமித்து, அச்சிடுவதற்கான “print()” செயல்பாட்டில் “My_Record”ஐயும் சேர்த்துள்ளோம்.


எல்லா தரவும் DataFrame இல் சேமிக்கப்படும், மேலும் இது உரை கோப்புத் தரவில் ஸ்பேஸ் எழுத்து இருக்கும் தரவைப் பிரிக்கிறது. மேலும், இது DataFrame இன் இயல்புநிலை தலைப்பை இங்கே உருவாக்கியது, ஏனெனில் நாங்கள் “தலைப்பு” அளவுருவை “இல்லை” என சரிசெய்தோம்.

எடுத்துக்காட்டு # 03

இந்த எடுத்துக்காட்டின் உரைக் கோப்பு காட்டப்படும், மேலும் மாற்றியமைக்கப்பட்ட அளவுருக்களுடன் 'read_csv()' முறையை மீண்டும் பயன்படுத்துவோம்.


இந்த குறியீட்டில், நான்கு அளவுருக்கள் 'pandas' முறை 'pd.read_csv()' க்கு அனுப்பப்படுகின்றன. உரை கோப்பின் பெயர் முதல் அளவுரு. 'sep' அளவுருவிற்கு இரண்டாவது அளவுருவில் வெற்று எழுத்து வழங்கப்படுகிறது. 'தலைப்பு' அளவுரு மூன்றாவது வாதத்தில் 'இல்லை' என அமைக்கப்பட்டுள்ளது, மேலும் நான்காவது அளவுருவாக, 'பெயர்களை' அமைத்துள்ளோம், அவை உரைக் கோப்பைப் படித்த பிறகு DataFrame இன் நெடுவரிசைப் பெயர்களாகத் தோன்றும், மேலும் இந்த நெடுவரிசைப் பெயர்கள் “COL_1, COL_2, COL_3, COL_4 மற்றும் COL_5”. இந்தத் தகவல்கள் அனைத்தும் “My_Record” மாறியில் சேமிக்கப்பட்டுள்ளன, மேலும் “My_Record” ஆனது “print()” முறையில் சேர்க்கப்பட்டுள்ளது, அதனால் அது முனையத்தில் அச்சிடப்படும்.


உரைக் கோப்பின் அனைத்துத் தகவல்களும் இங்கே DataFrame ஆக வழங்கப்படுகின்றன, மேலும் இது உரைக் கோப்பில் இடைவெளிகள் சேர்க்கப்படும் தரவையும் பிரிக்கிறது. குறியீட்டில் மேலே நாம் சேர்த்த நெடுவரிசைப் பெயர்களையும் இது சேர்க்கிறது.

எடுத்துக்காட்டு # 04

'pd.read_table()' என்ற மற்றொரு முறையைப் பயன்படுத்தி இந்த எடுத்துக்காட்டில் நாம் படிக்கும் உரை கோப்பு இதுவாகும்.


உரைக் கோப்பைப் படிக்க “pd.read_table()” முறை இங்கே சேர்க்கப்பட்டுள்ளது, மேலும் “ABC.txt”ஐச் சேர்ப்போம், இது உரைக் கோப்பின் பெயராகும். இந்த முறை உரைக் கோப்பைப் படிக்க உதவுகிறது, மேலும், 'டிலிமிட்டர்' அளவுருவை ஸ்பேஸ் கேரக்டருக்குச் சரிசெய்துள்ளோம், எனவே இது மேலே விளக்கிய பிரிப்பானைப் போலவே செயல்படும். பின்னர் அனைத்து உரையின் கோப்பு தரவுகளும் 'My_Data' மாறியில் சேமிக்கப்பட்டு இங்கே அச்சிடப்படும்.


எங்கள் உரைக் கோப்பின் ஆரம்ப வரி இங்கு DataFrame இன் நெடுவரிசைப் பெயர்களாகக் காட்டப்பட்டுள்ளது, மேலும் உரைக் கோப்பின் தரவு DataFrame ஆக அச்சிடப்பட்டுள்ளது. கூடுதலாக, இது உரை கோப்பின் தரவை அதில் ஸ்பேஸ் எழுத்து இருக்கும் இடத்தில் பிரிக்கிறது.

எடுத்துக்காட்டு # 05

இப்போது, ​​உரை கோப்பில் தரவு உள்ளது, அது கீழே காட்டப்படும். இந்த நேரத்தில் “read_fwf()” ஐப் பயன்படுத்துவோம், மேலும் உரை கோப்பைப் படித்த பிறகு அது எவ்வாறு தரவை வழங்குகிறது என்பதைக் காண்பிப்போம்.


இந்த “read_fwf()” முறை ஒரே ஒரு அளவுருவை மட்டுமே எடுக்கும் என்பதை நாம் அறிவோம், இது நாம் படிக்க விரும்பும் கோப்பு பெயர். நாங்கள் இங்கே “textfile.txt” ஐச் சேர்ப்போம், இது எங்கள் உரைக் கோப்பின் பெயராகும், மேலும் இந்த உரைக் கோப்பின் தரவைச் சேமிக்கும் “File_Data” மாறிக்கு இந்த பாண்டாஸ் முறையை ஒதுக்குகிறோம். பின்னர் “print(File_Data)” என்று வைப்பதால், இந்தத் தரவையும் அச்சிடுகிறது.


இங்கே, உரை கோப்பின் அனைத்து தரவும் காட்டப்படும். இந்தச் செயல்பாட்டில் 'செப்' அல்லது 'டிலிமிட்டர்' போன்ற அளவுருக்கள் இல்லாததால், ஸ்பேஸ் எழுத்துக்கள் இருக்கும் தரவை இது பிரிக்கவில்லை.

முடிவுரை

இந்த டுடோரியல் 'pandas' இல் உள்ள உரை கோப்பை எவ்வாறு படிப்பது மற்றும் 'pandas' இல் உள்ள உரை கோப்பை படிக்க எந்த முறைகள் பயன்படுத்தப்படுகின்றன என்பதை விளக்குகிறது. 'பாண்டாஸ்' இல் உள்ள உரைக் கோப்பைப் படிக்க உதவும் அனைத்து முறைகளையும் நாங்கள் விவாதித்தோம். இந்த டுடோரியலில் 'pandas' இல் உள்ள எங்கள் உரை கோப்புகளை படிக்க 'pandas' இன் மூன்று வெவ்வேறு முறைகளை நாங்கள் ஆராய்ந்தோம். அனைத்து முறைகளின் தொடரியல் மற்றும் அனைத்து முறைகளின் அளவுருக்களையும் இங்கே விரிவாக விளக்கியுள்ளோம், மேலும் இந்த டுடோரியலில் சாத்தியமான அனைத்து அளவுருக்களுடன் வெவ்வேறு முறைகளைப் பயன்படுத்துவதன் மூலம் பல உரை கோப்புகளைப் படித்துள்ளோம்.