பைத்தானில் தரவை இயல்பாக்குதல்

Normalization Data Python



தரவை இயல்பாக்குவது இயந்திரம் ஒரு சிறிய அளவிலான தரவை செயலாக்க வேண்டியிருப்பதால் முடிவை வேகமாகப் பெற உதவும் ஒரு நுட்பமாகும். இயல்பாக்குவது எளிதான பணி அல்ல, ஏனெனில் உங்கள் முடிவுகள் அனைத்தும் உங்கள் இயல்பாக்கும் முறையின் தேர்வைப் பொறுத்தது. எனவே, உங்கள் தரவை இயல்பாக்குவதற்கு நீங்கள் தவறான முறையைத் தேர்ந்தெடுத்திருந்தால், உங்கள் எதிர்பார்ப்புகளிலிருந்து வேறுபட்ட ஒன்றைப் பெறலாம்.

இயல்பாக்கம் என்பது படங்கள், உரை, எண் போன்ற தரவு வகையைப் பொறுத்தது. எனவே, ஒவ்வொரு தரவு வகையும் இயல்பாக்க வெவ்வேறு முறையைக் கொண்டுள்ளது எனவே, இந்த கட்டுரையில், நாங்கள் எண் தரவுகளில் கவனம் செலுத்துகிறோம்.







முறை 1: ஸ்க்லெர்னைப் பயன்படுத்துதல்

ஸ்க்லெர்ன் முறை தரவை இயல்பாக்க மிகவும் பிரபலமான முறையாகும்.





செல் எண்ணில் [83] : தேவையான அனைத்து நூலகங்களையும், NumPy மற்றும் sklearn ஐ இறக்குமதி செய்கிறோம். ஸ்க்லெர்னிலிருந்தே முன் செயலாக்கத்தை நாங்கள் இறக்குமதி செய்வதை நீங்கள் காணலாம். அதனால்தான் இது ஸ்க்லெர்ன் நார்மலைசேஷன் முறை.





செல் எண்ணில் [84] : நாம் ஒரு முழு எண் மதிப்புடன் ஒரு NumPy வரிசையை உருவாக்கினோம்.

செல் எண்ணில் [85] : நாங்கள் முன் செயலாக்கத்திலிருந்து இயல்பாக்குதல் முறையை அழைத்தோம் மற்றும் நாம் ஒரு அளவுருவாக உருவாக்கிய numpy_array ஐ கடந்துவிட்டோம்.



செல் எண்ணில் [86] : முடிவுகளிலிருந்து நாம் பார்க்க முடியும், எங்கள் முழு எண் தரவு இப்போது 0 மற்றும் 1 க்கு இடையில் இயல்பாக்கப்பட்டுள்ளது.

முறை 2: ஸ்க்லெர்னைப் பயன்படுத்தி ஒரு தரவுத் தொகுப்பில் ஒரு குறிப்பிட்ட நெடுவரிசையை இயல்பாக்குங்கள்

குறிப்பிட்ட தரவுத் தொகுப்பையும் நாம் இயல்பாக்கலாம். இதில், நாம் அதைப் பற்றி விவாதிக்கப் போகிறோம்.


செல் எண்ணில் [87] : நாங்கள் நூலக பாண்டாக்கள் மற்றும் ஸ்கெலெர்னை இறக்குமதி செய்கிறோம்.

செல் எண்ணில் [88] : நாங்கள் ஒரு போலி CSV கோப்பை உருவாக்கினோம், இப்போது அந்த CSV கோப்பை பாண்டாக்கள் (read_csv) தொகுப்பின் உதவியுடன் ஏற்றுகிறோம்.

செல் எண்ணில் [89] : நாங்கள் சமீபத்தில் ஏற்றப்பட்ட CSV கோப்பை அச்சிடுகிறோம்.

செல் எண்ணில் [90] : CSV கோப்பின் குறிப்பிட்ட நெடுவரிசையை np ஐப் பயன்படுத்தி படிக்கிறோம். மதிப்பை_அரேயாக வரிசைப்படுத்தி சேமிக்கவும்.

செல் எண்ணில் [92] , முன் செயலாக்கத்திலிருந்து இயல்பாக்குதல் முறையை நாங்கள் அழைத்தோம் மற்றும் மதிப்பு_அரே அளவுருவை கடந்துவிட்டோம்.

முறை 3: வரிசைப்படுத்த பத்திகளைப் பயன்படுத்தாமல் இயல்பாக்குவதற்கு மாற்றவும் (ஸ்க்லெர்னைப் பயன்படுத்தி)

முந்தைய முறை 2 இல், ஒரு குறிப்பிட்ட CSV கோப்பு நெடுவரிசையை எப்படி இயல்பாக்குவது என்று விவாதித்தோம். ஆனால் சில நேரங்களில் நாம் முழு தரவுத்தொகுப்பையும் இயல்பாக்க வேண்டும், பின்னர் கீழே உள்ள முறையைப் பயன்படுத்தி நாம் முழு தரவுத்தொகுப்பையும் இயல்பாக்குவோம் ஆனால் நெடுவரிசை வாரியாக (அச்சு = 0). அச்சு = 1 என்று நாம் குறிப்பிட்டால், அது வரிசை வாரியாக இயல்பாக்கும். அச்சு = 1 இயல்பு மதிப்பில் உள்ளது.


செல் எண்ணில் [93] : நாங்கள் நூலக பாண்டாக்கள் மற்றும் ஸ்கெலெர்னை இறக்குமதி செய்கிறோம்.

செல் எண்ணில் [94] : நாங்கள் ஒரு போலி CSV கோப்பை (demo_numeric.csv) உருவாக்கினோம், இப்போது அந்த CSV கோப்பை பாண்டாக்கள் (read_csv) தொகுப்பின் உதவியுடன் ஏற்றுகிறோம்.

செல் எண்ணில் [95] : நாங்கள் சமீபத்தில் ஏற்றப்பட்ட CSV கோப்பை அச்சிடுகிறோம்.

செல் எண்ணில் [96] : இப்போது, ​​முழு CSV கோப்பையும் மேலும் ஒரு கூடுதல் அளவுரு அச்சு = 0 உடன் அனுப்புகிறோம், இது பயனர் முழு தரவுத்தொகுப்பையும் நெடுவரிசை வாரியாக இயல்பாக்க விரும்புவதாக நூலகத்தில் கூறினார்.

செல் எண்ணில் [97] , நாம் முடிவை அச்சிட்டு, 0 மற்றும் 1 க்கு இடையில் மதிப்புடன் தரவை இயல்பாக்குகிறோம்.

முறை 4: MinMaxScaler ஐப் பயன்படுத்துதல் ()

ஸ்க்லெர்ன் இயல்பாக்குவதற்கான மற்றொரு முறையையும் வழங்குகிறது, அதை நாங்கள் MinMaxScalar என்று அழைத்தோம். இது மிகவும் பிரபலமான முறையாகும், ஏனெனில் இது பயன்படுத்த எளிதானது.


செல் எண்ணில் [98] : தேவையான அனைத்து தொகுப்புகளையும் நாங்கள் இறக்குமதி செய்கிறோம்.

செல் எண்ணில் [99] : நாங்கள் ஒரு போலி CSV கோப்பை (demo_numeric.csv) உருவாக்கினோம், இப்போது அந்த CSV கோப்பை பாண்டாக்கள் (read_csv) தொகுப்பின் உதவியுடன் ஏற்றுகிறோம்.

செல் எண்ணில் [100] : நாங்கள் சமீபத்தில் ஏற்றப்பட்ட CSV கோப்பை அச்சிடுகிறோம்.

செல் எண்ணில் [101] : முன் செயலாக்க முறையிலிருந்து MinMaxScalar ஐ அழைத்தோம், அதற்காக ஒரு பொருளை (min_max_Scalar) உருவாக்கினோம். நாங்கள் 0 மற்றும் 1 க்கு இடையில் தரவை இயல்பாக்க வேண்டும் என்பதால் நாங்கள் எந்த அளவுருக்களையும் கடக்கவில்லை, ஆனால் நீங்கள் விரும்பினால், உங்கள் மதிப்புகளை நீங்கள் சேர்க்கலாம், இது அடுத்த முறையில் பார்க்கப்படும்.

செல் எண்ணில் [102] : முடிவுகளைக் காண்பிப்பதற்காக மேலதிக பயன்பாட்டிற்காக நாம் முதலில் அனைத்து நெடுவரிசைகளின் பெயர்களையும் படித்தோம். பின்னர் நாம் உருவாக்கிய பொருளில் இருந்து fit_tranform ஐ அழைக்கிறோம் min_max_Scalar மற்றும் CSV கோப்பை அதற்குள் அனுப்பினோம்.

செல் எண்ணில் [103] : 0 மற்றும் 1 க்கு இடையில் உள்ள இயல்பான முடிவுகளை நாங்கள் பெறுகிறோம்.

முறை 5: MinMaxScaler ஐப் பயன்படுத்துதல் (feature_range = (x, y))

நீங்கள் விரும்பியவற்றின் இயல்பான மதிப்பை மாற்றுவதற்கான விருப்பத்தையும் ஸ்க்லெர்ன் வழங்குகிறது. இயல்பாக, அவை 0 மற்றும் 1 க்கு இடையில் மதிப்பை இயல்பாக்குகின்றன. ஆனால், நாம் ஒரு அம்சம் என்று அழைக்கப்படும் ஒரு அளவுரு உள்ளது, இது நம் தேவைகளுக்கு ஏற்ப இயல்பான மதிப்பை அமைக்க முடியும்.

செல் எண்ணில் [104] : தேவையான அனைத்து தொகுப்புகளையும் நாங்கள் இறக்குமதி செய்கிறோம்.

செல் எண்ணில் [105] : நாங்கள் ஒரு போலி CSV கோப்பை (demo_numeric.csv) உருவாக்கினோம், இப்போது அந்த CSV கோப்பை பாண்டாக்கள் (read_csv) தொகுப்பின் உதவியுடன் ஏற்றுகிறோம்.

செல் எண்ணில் [106] : நாங்கள் சமீபத்தில் ஏற்றப்பட்ட CSV கோப்பை அச்சிடுகிறோம்.

செல் எண்ணில் [107] : முன் செயலாக்க முறையிலிருந்து MinMaxScalar ஐ அழைத்தோம், அதற்காக ஒரு பொருளை (min_max_Scalar) உருவாக்கினோம். ஆனால் நாம் MinMaxScaler (அம்சம்_அரங்கு) உள்ளே மற்றொரு அளவுருவை கடந்து செல்கிறோம். அந்த அளவுரு மதிப்பு நாம் 0 க்கு 2 என அமைக்கிறோம். எனவே இப்போது, ​​MinMaxScaler 0 முதல் 2 வரையிலான தரவு மதிப்புகளை இயல்பாக்கும்.

செல் எண்ணில் [108] : முடிவுகளைக் காண்பிப்பதற்காக மேலதிக பயன்பாட்டிற்காக நாம் முதலில் அனைத்து நெடுவரிசைகளின் பெயர்களையும் படித்தோம். பின்னர் நாம் உருவாக்கிய பொருளில் இருந்து fit_tranform ஐ அழைக்கிறோம் min_max_Scalar மற்றும் CSV கோப்பை அதற்குள் அனுப்பினோம்.

செல் எண்ணில் [109] : 0 மற்றும் 2 க்கு இடையில் உள்ள இயல்பான முடிவுகளை நாங்கள் பெறுகிறோம்.

முறை 6: அதிகபட்ச முழுமையான அளவிடுதலைப் பயன்படுத்துதல்

பாண்டாக்களைப் பயன்படுத்தி தரவை நாம் இயல்பாக்கலாம். தரவை இயல்பாக்குவதில் இந்த அம்சங்கள் மிகவும் பிரபலமாக உள்ளன. அதிகபட்ச முழுமையான அளவிடுதல் 0 மற்றும் 1 க்கு இடையில் மதிப்புகளை இயல்பாக்குகிறது

செல் எண்ணில் [110] : நாங்கள் பாண்டாக்களின் நூலகத்தை இறக்குமதி செய்கிறோம்.

செல் எண்ணில் [111] : நாங்கள் ஒரு போலி தரவுச்சட்டத்தை உருவாக்கி அந்த தரவுச்சட்டத்தை அச்சிட்டோம்.

செல் எண்ணில் [113] : நாம் ஒவ்வொரு நெடுவரிசையையும் அழைக்கிறோம், பின்னர் நெடுவரிசை மதிப்புகளை .max () மற்றும் .abs () உடன் பிரிக்கிறோம்.

செல் எண்ணில் [114] : நாங்கள் முடிவை அச்சிடுகிறோம், இதன் விளைவாக, எங்கள் தரவு 0 மற்றும் 1 க்கு இடையில் இயல்பாக்கப்படுகிறது என்பதை உறுதிப்படுத்துகிறோம்.

முறை 7: z- ஸ்கோர் முறையைப் பயன்படுத்துதல்

நாம் விவாதிக்கப் போகும் அடுத்த முறை z- மதிப்பெண் முறை. இந்த முறை தகவலை விநியோகத்திற்கு மாற்றுகிறது. இந்த முறை ஒவ்வொரு நெடுவரிசையின் சராசரியையும் கணக்கிட்டு, பின்னர் ஒவ்வொரு நெடுவரிசையிலிருந்தும் கழித்து, கடைசியாக அதை நிலையான விலகலுடன் பிரிக்கிறது. இது -1 மற்றும் 1 க்கு இடையில் தரவை இயல்பாக்குகிறது.

செல் எண்ணில் [115] : நாங்கள் ஒரு போலி தரவுச்சட்டத்தை உருவாக்கி அந்த தரவுச்சட்டத்தை அச்சிட்டோம்.

செல் எண்ணில் [117] : நெடுவரிசையின் சராசரியைக் கணக்கிட்டு, நெடுவரிசையிலிருந்து கழிக்கிறோம். பின்னர் நெடுவரிசை மதிப்பை நிலையான விலகலுடன் பிரிக்கிறோம்.

செல் எண்ணில் [118] : -1 மற்றும் 1 க்கு இடையில் இயல்பாக்கப்பட்ட தரவை நாங்கள் அச்சிடுகிறோம்.

முடிவு: பல்வேறு வகையான இயல்பாக்கப்பட்ட முறைகளை நாங்கள் பார்த்திருக்கிறோம். இயந்திர கற்றலை ஆதரிப்பதால், ஸ்க்லெர்ன் மிகவும் பிரபலமானது. ஆனால் அது பயனரின் தேவைகளைப் பொறுத்தது. சில நேரங்களில் தரவை இயல்பாக்க பாண்டா அம்சம் போதுமானது. மேலே உள்ள சாதாரணமயமாக்கல் முறைகள் மட்டுமே உள்ளன என்று நாம் கூற முடியாது. தரவு இயல்பாக்கம் செய்ய பல முறைகள் உள்ளன, அவை உங்கள் தரவு வகை படங்கள், எண், உரை போன்றவற்றைப் பொறுத்தது. இந்த எண் தரவு மற்றும் பைத்தானில் நாங்கள் கவனம் செலுத்துகிறோம்.