எனவே, தரவுத்தொகுப்புகளிலிருந்து தொடர்புடைய தகவலைப் பிரித்தெடுக்கக்கூடிய ஒருவித முறை அல்லது தொகுப்பு நமக்குத் தேவை. எளிமையான மொழியில், நமது தேவைகளுக்கு ஏற்ப தரவுத்தொகுப்புகளை வடிகட்ட கூடுதல் வடிகட்டி விருப்பம் தேவை என்று கூறலாம்.
ஹக்கிங் ஃபேஸ் தரவுத்தொகுப்புகளை வடிகட்ட பல்வேறு விருப்பங்களை வழங்குகிறது, இது பயனர்களுக்கு தனிப்பயனாக்கப்பட்ட தரவுத்தொகுப்புகளை உருவாக்க உதவுகிறது, அவை குறிப்பிட்ட நிபந்தனைகளை பூர்த்தி செய்யும் எடுத்துக்காட்டுகள் அல்லது தகவல்களை மட்டுமே கொண்டிருக்கும்.
() முறையைத் தேர்ந்தெடுக்கவும்
இந்த முறை குறியீடுகளின் பட்டியலில் வேலை செய்கிறது, அதாவது நாம் ஒரு பட்டியலை வரையறுக்க வேண்டும். அந்தப் பட்டியலின் உள்ளே, நாம் பிரித்தெடுக்க விரும்பும் அனைத்து வரிசைகளின் குறியீட்டு மதிப்புகளையும் குறிப்பிட வேண்டும். ஆனால் இந்த முறை சிறிய தரவுத்தொகுப்புகளுக்கு மட்டுமே வேலை செய்யும், பெரிய தரவுத்தொகுப்புகளுக்கு அல்ல, ஏனெனில் அது GBகள் (ஜிகா பைட்டுகள்) அல்லது TBகள் (டெரா பைட்டுகள்) இல் இருந்தால் முழு தரவுத்தொகுப்பையும் பார்க்க முடியாது.
உதாரணமாக :
புதிய_தரவுத்தொகுப்பு = தரவுத்தொகுப்பு. தேர்ந்தெடுக்கவும் ( [ 0 , பதினொரு , இருபத்து ஒன்று , நான்கு. ஐந்து , ஐம்பது , 55 ] )அச்சு ( மட்டுமே ( புதிய_தரவுத்தொகுப்பு ) )
இந்த எடுத்துக்காட்டில், தரவுத்தொகுப்பிலிருந்து தேவையான தகவலை வடிகட்ட “தேர்ந்தெடு” முறையைப் பயன்படுத்தினோம்.
வடிகட்டி () முறை
குறிப்பிட்ட நிபந்தனை எதுவும் இல்லாததால், வடிகட்டி() முறை தேர்வு() செயல்முறை சிக்கல்களை சமாளிக்கிறது. வடிகட்டி() முறை ஒரு குறிப்பிட்ட சூழ்நிலை அல்லது நிபந்தனையுடன் பொருந்தக்கூடிய அனைத்து வரிசைகளையும் வழங்குகிறது.
உதாரணமாக: இந்த பைதான் நிரலை “test.py” என்ற பெயரில் சேமிக்கிறோம்.
இருந்து தரவுத்தொகுப்புகள் இறக்குமதி load_dataset# படி 1: தரவுத்தொகுப்பை ஏற்றவும்
தரவுத்தொகுப்பு = load_dataset ( 'imdb' )
# படி 2: வடிகட்டுதல் செயல்பாட்டை வரையறுக்கவும்
def custom_filter ( உதாரணமாக ) :
'''
நேர்மறையுடன் எடுத்துக்காட்டுகளைத் தக்கவைக்க தனிப்பயன் வடிகட்டுதல் செயல்பாடு
உணர்வு (லேபிள் == 1).
'''
திரும்ப உதாரணமாக [ 'லேபிள்' ] == 1
# படி 3: புதிய வடிகட்டப்பட்ட தரவுத்தொகுப்பை உருவாக்க வடிப்பானைப் பயன்படுத்தவும்
வடிகட்டிய_தரவுத்தொகுப்பு = தரவுத்தொகுப்பு. வடிகட்டி ( custom_filter )
# படி 4: வடிகட்டப்பட்ட தரவுத்தொகுப்பில் கிடைக்கும் நெடுவரிசைப் பெயர்களைச் சரிபார்க்கவும்
அச்சு ( 'வடிகட்டப்பட்ட தரவுத்தொகுப்பில் கிடைக்கும் நெடுவரிசைகள்:' ,
வடிகட்டிய_தரவுத்தொகுப்பு. நெடுவரிசை_பெயர்கள் )
# படி 5: வடிகட்டப்பட்ட தரவுத்தொகுப்பிலிருந்து தகவலை அணுகவும்
வடிகட்டிய_உதாரணங்கள் = வடிகட்டிய_தரவுத்தொகுப்பு [ 'தொடர்வண்டி' ]
எண்_வடிகட்டப்பட்ட_எடுத்துக்காட்டுகள் = மட்டுமே ( வடிகட்டிய_உதாரணங்கள் )
# படி 6: வடிகட்டப்பட்ட எடுத்துக்காட்டுகளின் மொத்த எண்ணிக்கையை அச்சிடவும்
அச்சு ( 'வடிகட்டப்பட்ட மொத்த எடுத்துக்காட்டுகள்:' , எண்_வடிகட்டப்பட்ட_எடுத்துக்காட்டுகள் )
வெளியீடு:
விளக்கம்:
வரி 1: தரவுத்தொகுப்புகளிலிருந்து தேவையான load_dataset தொகுப்பை இறக்குமதி செய்கிறோம்.
வரி 4: load_dataset ஐப் பயன்படுத்தி “imdb” தரவுத்தொகுப்பை ஏற்றுகிறோம்.
வரிகள் 7 முதல் 12 வரை: தனிப்பயன் வடிகட்டுதல் செயல்பாட்டை நாங்கள் வரையறுக்கிறோம் ' custom_filter ' நேர்மறை உணர்வுடன் எடுத்துக்காட்டுகளை வைக்க (லேபிள் == 1). இந்த செயல்பாடு லேபிள் மதிப்பு 1 ஆக இருக்கும் வரிசைகளை மட்டுமே வழங்குகிறது.
வரி 15: தரவுத்தொகுப்பில் “imdb” திரைப்பட மதிப்பாய்வு தரவு இருப்பதை இந்த வரி காட்டுகிறது. 'filtered_dataset' இல் மேலும் சேமிக்கப்படும் தரவுத்தளத்திலிருந்து நேர்மறையான மதிப்புரைகளைப் பிரிக்க, இந்த தரவுத்தளத்தில் வடிகட்டி செயல்பாட்டைப் பயன்படுத்துகிறோம்.
வரிகள் 18 மற்றும் 19: இப்போது, filtered_dataset இல் என்ன நெடுவரிசைப் பெயர்கள் உள்ளன என்பதைச் சரிபார்க்கிறோம். எனவே, “filtered_dataset.column_names” குறியீடு எங்கள் தேவைகளின் விவரங்களை வழங்குகிறது.
வரிகள் 22 மற்றும் 23: இந்த வரிகளில், வடிகட்டப்பட்ட_தரவுத்தொகுப்பின் “ரயில்” நெடுவரிசையை வடிகட்டி, ரயில் நெடுவரிசையின் மொத்த எண்ணிக்கையை (நீளம்) அச்சிடுகிறோம்.
வரி 26: இந்த கடைசி வரியில், வரி எண் 23 இலிருந்து முடிவை அச்சிடுகிறோம்.
குறியீடுகளுடன் வடிகட்டி().
தேர்ந்தெடுக்கப்பட்ட() பயன்முறையில் காணப்படுவது போல் வடிகட்டி() முறையை குறியீடுகளுடன் பயன்படுத்தலாம். ஆனால் அதற்கு, பின்வரும் எடுத்துக்காட்டில் காட்டப்பட்டுள்ளபடி, “with_indices=true” என்ற முக்கிய சொல் வடிகட்டி() முறைக்கு வெளியே குறிப்பிடப்பட வேண்டும் என்பதை நாம் குறிப்பிட வேண்டும்:
ஒற்றைப்படை_தரவுத்தொகுப்பு = தரவுத்தொகுப்பு. வடிகட்டி ( லாம்ப்டா உதாரணமாக , idx: idx % 2 != 0 , உடன்_குறியீடுகள் = உண்மை )அச்சு ( மட்டுமே ( ஒற்றைப்படை_தரவுத்தொகுப்பு ) )
இந்த எடுத்துக்காட்டில், ஒற்றைப்படை வரிசைகளை மட்டும் உள்ளடக்கிய தரவுத்தொகுப்பிலிருந்து தேவையான தகவலை வடிகட்ட வடிகட்டி() முறையைப் பயன்படுத்தினோம்.
வடிகட்டி() முறையின் ஒவ்வொரு அளவுருவின் முழு விவரங்களையும் இதில் காணலாம் இணைப்பு .
முடிவுரை
ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி பல்வேறு தரவுத்தொகுப்புகளுடன், குறிப்பாக இயற்கை மொழி செயலாக்கம் (NLP) மற்றும் இயந்திர கற்றல் பணிகளின் பின்னணியில் திறமையாக வேலை செய்ய சக்திவாய்ந்த மற்றும் பயனர் நட்பு கருவித்தொகுப்பை வழங்குகிறது. நிரலில் வழங்கப்பட்ட வடிகட்டி() செயல்பாடு, பயனர் வரையறுக்கப்பட்ட வடிகட்டுதல் அளவுகோல்களை வரையறுப்பதன் மூலம் தொடர்புடைய தரவுகளின் துணைக்குழுக்களை பிரித்தெடுக்க ஆராய்ச்சியாளர்களையும் பயிற்சியாளர்களையும் அனுமதிக்கிறது. இந்தச் செயல்பாட்டைப் பயன்படுத்தி, திரைப்பட மதிப்புரைகளில் நேர்மறையான உணர்வைப் பேணுதல் அல்லது குறிப்பிட்ட உரைத் தரவைப் பிரித்தெடுத்தல் போன்ற குறிப்பிட்ட நிபந்தனைகளைப் பூர்த்தி செய்யும் புதிய தரவுத்தொகுப்புகளை பயனர்கள் சிரமமின்றி உருவாக்க முடியும்.
தரவுத்தொகுப்பை ஏற்றுவது, தனிப்பயன் வடிகட்டி செயல்பாடுகளைப் பயன்படுத்துவது மற்றும் வடிகட்டப்பட்ட தரவை அணுகுவது எவ்வளவு எளிது என்பதை இந்த படிப்படியான செயல்விளக்கம் விளக்குகிறது. கூடுதலாக, செயல்பாட்டு அளவுருக்களின் நெகிழ்வுத்தன்மை தனிப்பயன் வடிகட்டுதல் செயல்பாடுகளை அனுமதிக்கிறது, பெரிய தரவுத் தொகுப்புகளுக்கான பல செயலாக்கத்திற்கான ஆதரவு உட்பட. ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி மூலம், பயனர்கள் தங்கள் தரவை நெறிப்படுத்த முடியும்.