கட்டிப்பிடிக்கும் முகம் வடிகட்டி() முறை

Kattippitikkum Mukam Vatikatti Murai



ஹக்கிங் ஃபேஸ் பல இயற்கை மொழி செயலாக்க (NLP) மாதிரிகள் மற்றும் தரவுத்தொகுப்புகளைக் கொண்டுள்ளது. இந்த மகத்தான தரவுத்தொகுப்புகள் மாதிரியைத் துல்லியமாகப் பயிற்றுவிக்க உதவும் பல தகவல்களைக் கொண்டிருக்கின்றன. இருப்பினும், சில நேரங்களில் முழு தரவுத்தொகுப்பும் நமக்குத் தேவையில்லை, ஏனெனில் நமது தற்போதைய தேவைகளைப் பூர்த்தி செய்ய அதன் ஒரு சிறிய பகுதி மட்டுமே தேவை. எல்லா தகவல்களுடனும் வழக்கம் போல் அதே தரவுத்தொகுப்பைப் பயன்படுத்த விரும்பினால், மாதிரி பயிற்சி மற்றும் தேர்வுமுறை அதிக நேரம் எடுக்கும், இது நேரத்தை வீணடிக்கும்.

எனவே, தரவுத்தொகுப்புகளிலிருந்து தொடர்புடைய தகவலைப் பிரித்தெடுக்கக்கூடிய ஒருவித முறை அல்லது தொகுப்பு நமக்குத் தேவை. எளிமையான மொழியில், நமது தேவைகளுக்கு ஏற்ப தரவுத்தொகுப்புகளை வடிகட்ட கூடுதல் வடிகட்டி விருப்பம் தேவை என்று கூறலாம்.

ஹக்கிங் ஃபேஸ் தரவுத்தொகுப்புகளை வடிகட்ட பல்வேறு விருப்பங்களை வழங்குகிறது, இது பயனர்களுக்கு தனிப்பயனாக்கப்பட்ட தரவுத்தொகுப்புகளை உருவாக்க உதவுகிறது, அவை குறிப்பிட்ட நிபந்தனைகளை பூர்த்தி செய்யும் எடுத்துக்காட்டுகள் அல்லது தகவல்களை மட்டுமே கொண்டிருக்கும்.







() முறையைத் தேர்ந்தெடுக்கவும்

இந்த முறை குறியீடுகளின் பட்டியலில் வேலை செய்கிறது, அதாவது நாம் ஒரு பட்டியலை வரையறுக்க வேண்டும். அந்தப் பட்டியலின் உள்ளே, நாம் பிரித்தெடுக்க விரும்பும் அனைத்து வரிசைகளின் குறியீட்டு மதிப்புகளையும் குறிப்பிட வேண்டும். ஆனால் இந்த முறை சிறிய தரவுத்தொகுப்புகளுக்கு மட்டுமே வேலை செய்யும், பெரிய தரவுத்தொகுப்புகளுக்கு அல்ல, ஏனெனில் அது GBகள் (ஜிகா பைட்டுகள்) அல்லது TBகள் (டெரா பைட்டுகள்) இல் இருந்தால் முழு தரவுத்தொகுப்பையும் பார்க்க முடியாது.



உதாரணமாக :

புதிய_தரவுத்தொகுப்பு = தரவுத்தொகுப்பு. தேர்ந்தெடுக்கவும் ( [ 0 , பதினொரு , இருபத்து ஒன்று , நான்கு. ஐந்து , ஐம்பது , 55 ] )

அச்சு ( மட்டுமே ( புதிய_தரவுத்தொகுப்பு ) )

இந்த எடுத்துக்காட்டில், தரவுத்தொகுப்பிலிருந்து தேவையான தகவலை வடிகட்ட “தேர்ந்தெடு” முறையைப் பயன்படுத்தினோம்.



வடிகட்டி () முறை

குறிப்பிட்ட நிபந்தனை எதுவும் இல்லாததால், வடிகட்டி() முறை தேர்வு() செயல்முறை சிக்கல்களை சமாளிக்கிறது. வடிகட்டி() முறை ஒரு குறிப்பிட்ட சூழ்நிலை அல்லது நிபந்தனையுடன் பொருந்தக்கூடிய அனைத்து வரிசைகளையும் வழங்குகிறது.





உதாரணமாக: இந்த பைதான் நிரலை “test.py” என்ற பெயரில் சேமிக்கிறோம்.

இருந்து தரவுத்தொகுப்புகள் இறக்குமதி load_dataset

# படி 1: தரவுத்தொகுப்பை ஏற்றவும்
தரவுத்தொகுப்பு = load_dataset ( 'imdb' )

# படி 2: வடிகட்டுதல் செயல்பாட்டை வரையறுக்கவும்
def custom_filter ( உதாரணமாக ) :
'''
நேர்மறையுடன் எடுத்துக்காட்டுகளைத் தக்கவைக்க தனிப்பயன் வடிகட்டுதல் செயல்பாடு
உணர்வு (லேபிள் == 1).
'''

திரும்ப உதாரணமாக [ 'லேபிள்' ] == 1

# படி 3: புதிய வடிகட்டப்பட்ட தரவுத்தொகுப்பை உருவாக்க வடிப்பானைப் பயன்படுத்தவும்
வடிகட்டிய_தரவுத்தொகுப்பு = தரவுத்தொகுப்பு. வடிகட்டி ( custom_filter )

# படி 4: வடிகட்டப்பட்ட தரவுத்தொகுப்பில் கிடைக்கும் நெடுவரிசைப் பெயர்களைச் சரிபார்க்கவும்
அச்சு ( 'வடிகட்டப்பட்ட தரவுத்தொகுப்பில் கிடைக்கும் நெடுவரிசைகள்:' ,
வடிகட்டிய_தரவுத்தொகுப்பு. நெடுவரிசை_பெயர்கள் )

# படி 5: வடிகட்டப்பட்ட தரவுத்தொகுப்பிலிருந்து தகவலை அணுகவும்
வடிகட்டிய_உதாரணங்கள் = வடிகட்டிய_தரவுத்தொகுப்பு [ 'தொடர்வண்டி' ]
எண்_வடிகட்டப்பட்ட_எடுத்துக்காட்டுகள் = மட்டுமே ( வடிகட்டிய_உதாரணங்கள் )

# படி 6: வடிகட்டப்பட்ட எடுத்துக்காட்டுகளின் மொத்த எண்ணிக்கையை அச்சிடவும்
அச்சு ( 'வடிகட்டப்பட்ட மொத்த எடுத்துக்காட்டுகள்:' , எண்_வடிகட்டப்பட்ட_எடுத்துக்காட்டுகள் )

வெளியீடு:



விளக்கம்:

வரி 1: தரவுத்தொகுப்புகளிலிருந்து தேவையான load_dataset தொகுப்பை இறக்குமதி செய்கிறோம்.

வரி 4: load_dataset ஐப் பயன்படுத்தி “imdb” தரவுத்தொகுப்பை ஏற்றுகிறோம்.

வரிகள் 7 முதல் 12 வரை: தனிப்பயன் வடிகட்டுதல் செயல்பாட்டை நாங்கள் வரையறுக்கிறோம் ' custom_filter ' நேர்மறை உணர்வுடன் எடுத்துக்காட்டுகளை வைக்க (லேபிள் == 1). இந்த செயல்பாடு லேபிள் மதிப்பு 1 ஆக இருக்கும் வரிசைகளை மட்டுமே வழங்குகிறது.

வரி 15: தரவுத்தொகுப்பில் “imdb” திரைப்பட மதிப்பாய்வு தரவு இருப்பதை இந்த வரி காட்டுகிறது. 'filtered_dataset' இல் மேலும் சேமிக்கப்படும் தரவுத்தளத்திலிருந்து நேர்மறையான மதிப்புரைகளைப் பிரிக்க, இந்த தரவுத்தளத்தில் வடிகட்டி செயல்பாட்டைப் பயன்படுத்துகிறோம்.

வரிகள் 18 மற்றும் 19: இப்போது, ​​filtered_dataset இல் என்ன நெடுவரிசைப் பெயர்கள் உள்ளன என்பதைச் சரிபார்க்கிறோம். எனவே, “filtered_dataset.column_names” குறியீடு எங்கள் தேவைகளின் விவரங்களை வழங்குகிறது.

வரிகள் 22 மற்றும் 23: இந்த வரிகளில், வடிகட்டப்பட்ட_தரவுத்தொகுப்பின் “ரயில்” நெடுவரிசையை வடிகட்டி, ரயில் நெடுவரிசையின் மொத்த எண்ணிக்கையை (நீளம்) அச்சிடுகிறோம்.

வரி 26: இந்த கடைசி வரியில், வரி எண் 23 இலிருந்து முடிவை அச்சிடுகிறோம்.

குறியீடுகளுடன் வடிகட்டி().

தேர்ந்தெடுக்கப்பட்ட() பயன்முறையில் காணப்படுவது போல் வடிகட்டி() முறையை குறியீடுகளுடன் பயன்படுத்தலாம். ஆனால் அதற்கு, பின்வரும் எடுத்துக்காட்டில் காட்டப்பட்டுள்ளபடி, “with_indices=true” என்ற முக்கிய சொல் வடிகட்டி() முறைக்கு வெளியே குறிப்பிடப்பட வேண்டும் என்பதை நாம் குறிப்பிட வேண்டும்:

ஒற்றைப்படை_தரவுத்தொகுப்பு = தரவுத்தொகுப்பு. வடிகட்டி ( லாம்ப்டா உதாரணமாக , idx: idx % 2 != 0 , உடன்_குறியீடுகள் = உண்மை )

அச்சு ( மட்டுமே ( ஒற்றைப்படை_தரவுத்தொகுப்பு ) )

இந்த எடுத்துக்காட்டில், ஒற்றைப்படை வரிசைகளை மட்டும் உள்ளடக்கிய தரவுத்தொகுப்பிலிருந்து தேவையான தகவலை வடிகட்ட வடிகட்டி() முறையைப் பயன்படுத்தினோம்.

வடிகட்டி() முறையின் ஒவ்வொரு அளவுருவின் முழு விவரங்களையும் இதில் காணலாம் இணைப்பு .

முடிவுரை

ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி பல்வேறு தரவுத்தொகுப்புகளுடன், குறிப்பாக இயற்கை மொழி செயலாக்கம் (NLP) மற்றும் இயந்திர கற்றல் பணிகளின் பின்னணியில் திறமையாக வேலை செய்ய சக்திவாய்ந்த மற்றும் பயனர் நட்பு கருவித்தொகுப்பை வழங்குகிறது. நிரலில் வழங்கப்பட்ட வடிகட்டி() செயல்பாடு, பயனர் வரையறுக்கப்பட்ட வடிகட்டுதல் அளவுகோல்களை வரையறுப்பதன் மூலம் தொடர்புடைய தரவுகளின் துணைக்குழுக்களை பிரித்தெடுக்க ஆராய்ச்சியாளர்களையும் பயிற்சியாளர்களையும் அனுமதிக்கிறது. இந்தச் செயல்பாட்டைப் பயன்படுத்தி, திரைப்பட மதிப்புரைகளில் நேர்மறையான உணர்வைப் பேணுதல் அல்லது குறிப்பிட்ட உரைத் தரவைப் பிரித்தெடுத்தல் போன்ற குறிப்பிட்ட நிபந்தனைகளைப் பூர்த்தி செய்யும் புதிய தரவுத்தொகுப்புகளை பயனர்கள் சிரமமின்றி உருவாக்க முடியும்.

தரவுத்தொகுப்பை ஏற்றுவது, தனிப்பயன் வடிகட்டி செயல்பாடுகளைப் பயன்படுத்துவது மற்றும் வடிகட்டப்பட்ட தரவை அணுகுவது எவ்வளவு எளிது என்பதை இந்த படிப்படியான செயல்விளக்கம் விளக்குகிறது. கூடுதலாக, செயல்பாட்டு அளவுருக்களின் நெகிழ்வுத்தன்மை தனிப்பயன் வடிகட்டுதல் செயல்பாடுகளை அனுமதிக்கிறது, பெரிய தரவுத் தொகுப்புகளுக்கான பல செயலாக்கத்திற்கான ஆதரவு உட்பட. ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி மூலம், பயனர்கள் தங்கள் தரவை நெறிப்படுத்த முடியும்.