ஹக்கிங் ஃபேஸ் வழங்கும் 'தரவுத்தொகுப்புகள்' நூலகம், இயல்பான மொழி செயலாக்கப் பணிகளுக்கான தரவுத்தொகுப்புகளுடன் வேலை செய்வதற்கும் கையாளுவதற்கும் வசதியான வழியை வழங்குகிறது. நூலகத்தால் வழங்கப்படும் ஒரு பயனுள்ள செயல்பாடு concatenate_datasets() ஆகும், இது பல தரவுத்தொகுப்புகளை ஒரே தரவுத்தொகுப்பில் இணைக்க அனுமதிக்கிறது. பின்வருபவை concatenate_datasets() செயல்பாடு மற்றும் அதை எவ்வாறு பயன்படுத்துவது என்பது பற்றிய சுருக்கமான கண்ணோட்டம்.
concatenate_datasets()
விளக்கம்:
ஹக்கிங் ஃபேஸின் “டேட்டாசெட்ஸ்” லைப்ரரி concatenate_datasets() செயல்பாட்டை வழங்குகிறது. இது பல தரவுத்தொகுப்புகளை ஒருங்கிணைக்கப் பயன்படுகிறது, அவற்றை ஒரு குறிப்பிட்ட அச்சில் ஒரு தரவுத்தொகுப்பாக இணைக்கிறது. ஒரே கட்டமைப்பைப் பகிர்ந்து கொள்ளும் பல தரவுத்தொகுப்புகள் உங்களிடம் இருக்கும்போது, மேலும் செயலாக்கம் மற்றும் பகுப்பாய்விற்காக அவற்றை ஒரு ஒருங்கிணைந்த தரவுத்தொகுப்பில் இணைக்க விரும்பினால் இந்தச் செயல்பாடு மிகவும் பயனுள்ளதாக இருக்கும்.
தொடரியல்:
இருந்து தரவுத்தொகுப்புகள் இறக்குமதி இணைக்கப்பட்ட_தரவுத்தொகுப்புகள்
இணைக்கப்பட்ட_தரவுத்தொகுப்பு = இணைக்கப்பட்ட_தரவுத்தொகுப்புகள் ( தரவுத்தொகுப்புகள் , அச்சு = 0 , தகவல் = இல்லை )
அளவுருக்கள்:
தரவுத்தொகுப்புகள் (தரவுத்தொகுப்பின் பட்டியல்): நீங்கள் இணைக்க விரும்பும் தரவுத்தொகுப்புகளின் பட்டியல். இந்தத் தரவுத்தொகுப்புகள் இணக்கமான அம்சங்களைக் கொண்டிருக்க வேண்டும், அதாவது அவை ஒரே மாதிரியான ஸ்கீமா, நெடுவரிசைப் பெயர்கள் மற்றும் தரவு வகைகளைக் கொண்டிருக்க வேண்டும்.
அச்சு (int, விருப்பத்திற்குரியது, இயல்புநிலை=0): இணைப்பாக்கம் செய்யப்பட வேண்டிய அச்சு. பெரும்பாலான NLP தரவுத்தொகுப்புகளுக்கு, இயல்புநிலை மதிப்பு 0 பயன்படுத்தப்படுகிறது, அதாவது தரவுத்தொகுப்புகள் செங்குத்தாக இணைக்கப்பட்டுள்ளன. நீங்கள் அச்சு=1 ஐ அமைத்தால், தரவுத்தொகுப்புகள் வெவ்வேறு நெடுவரிசைகளை அம்சங்களாகக் கொண்டிருப்பதாகக் கருதி, அவை கிடைமட்டமாக இணைக்கப்படும்.
தகவல் (datasets.DatasetInfo, விருப்பத்திற்குரியது): இணைக்கப்பட்ட தரவுத்தொகுப்பு பற்றிய தகவல். வழங்கப்படவில்லை எனில், பட்டியலில் உள்ள முதல் தரவுத்தொகுப்பில் இருந்து தகவல் ஊகிக்கப்படும்.
வருமானம்:
இணைக்கப்பட்ட_தரவுத்தொகுப்பு (தரவுத்தொகுப்பு): அனைத்து உள்ளீட்டுத் தரவுத்தொகுப்புகளையும் ஒருங்கிணைத்த பிறகு கிடைக்கும் தரவுத்தொகுப்பு.
உதாரணமாக:
# படி 1: தரவுத்தொகுப்பு நூலகத்தை நிறுவவும்# பிப்பைப் பயன்படுத்தி இதை நிறுவலாம்:
# !பிப் நிறுவல் தரவுத்தொகுப்புகள்
# படி 2: தேவையான நூலகங்களை இறக்குமதி செய்யவும்
இருந்து தரவுத்தொகுப்புகள் இறக்குமதி load_dataset , இணைக்கப்பட்ட_தரவுத்தொகுப்புகள்
# படி 3: IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை ஏற்றவும்
# இரண்டு IMDb தரவுத்தொகுப்புகளைப் பயன்படுத்துவோம், ஒன்று நேர்மறையான மதிப்புரைகளுக்கு
#மற்றும் எதிர்மறை மதிப்புரைகளுக்கு மற்றொன்று.
# 2500 நேர்மறையான மதிப்புரைகளை ஏற்றவும்
தரவுத்தொகுப்பு_pos = load_dataset ( 'imdb' , பிளவு = 'ரயில்[:2500]' )
# 2500 எதிர்மறை மதிப்புரைகளை ஏற்றவும்
தரவுத்தொகுப்பு_நெக் = load_dataset ( 'imdb' , பிளவு = 'ரயில்[-2500:]' )
# படி 4: தரவுத்தொகுப்புகளை இணைக்கவும்
# இரண்டு தரவுத்தொகுப்புகளையும் அச்சு=0 உடன் இணைக்கிறோம்
அதே திட்டம் ( அதே அம்சங்கள் ) .
இணைக்கப்பட்ட_தரவுத்தொகுப்பு = இணைக்கப்பட்ட_தரவுத்தொகுப்புகள் ( [ தரவுத்தொகுப்பு_pos , தரவுத்தொகுப்பு_நெக் ] )
# படி 5: இணைக்கப்பட்ட தரவுத்தொகுப்பை பகுப்பாய்வு செய்யவும்
# எளிமைக்காக, நேர்மறை மற்றும் எதிர்மறை எண்ணிக்கையை எண்ணுவோம்
இணைக்கப்பட்ட தரவுத்தொகுப்பில் # மதிப்புரைகள்.
நேர்மறை_விமர்சனங்கள் = தொகை ( 1 க்கான முத்திரை உள்ளே
இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 1 )
num_negative_reviews = தொகை ( 1 க்கான முத்திரை உள்ளே
இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 0 )
# படி 6: முடிவுகளைக் காட்டு
அச்சு ( 'நேர்மறையான மதிப்புரைகளின் எண்ணிக்கை:' , நேர்மறை_விமர்சனங்கள் )
அச்சு ( 'எதிர்மறை மதிப்புரைகளின் எண்ணிக்கை:' , num_negative_reviews )
# படி 7: இணைக்கப்பட்ட தரவுத்தொகுப்பிலிருந்து சில எடுத்துக்காட்டு மதிப்புரைகளை அச்சிடவும்
அச்சு ( ' \n சில எடுத்துக்காட்டு மதிப்புரைகள்:' )
க்கான நான் உள்ளே சரகம் ( 5 ) :
அச்சு ( f 'மதிப்பு {i + 1}: {concatenated_dataset['text'][i]}' )
வெளியீடு:
இரண்டு IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை இணைக்கும் ஹக்கிங் ஃபேஸின் 'தரவுத்தொகுப்புகள்' நூலகத் திட்டத்திற்கான விளக்கம் பின்வருமாறு. இது நிரலின் நோக்கம், அதன் பயன்பாடு மற்றும் குறியீட்டில் உள்ள படிகள் ஆகியவற்றை விளக்குகிறது.
குறியீட்டின் ஒவ்வொரு படிநிலையின் விரிவான விளக்கத்தை வழங்குவோம்:
# படி 1: தேவையான நூலகங்களை இறக்குமதி செய்யவும்இருந்து தரவுத்தொகுப்புகள் இறக்குமதி load_dataset , இணைக்கப்பட்ட_தரவுத்தொகுப்புகள்
இந்த கட்டத்தில், நிரலுக்கு தேவையான நூலகங்களை நாங்கள் இறக்குமதி செய்கிறோம். IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை ஏற்றுவதற்கு “load_dataset” செயல்பாடும், பின்னர் அவற்றை இணைக்க “concatenate_datasets” செயல்பாடும் தேவை.
# படி 2: IMDb மூவி விமர்சனம் தரவுத்தொகுப்புகளை ஏற்றவும்# 2500 நேர்மறையான மதிப்புரைகளை ஏற்றவும்
தரவுத்தொகுப்பு_pos = load_dataset ( 'imdb' , பிளவு = 'ரயில்[:2500]' )
# 2500 எதிர்மறை மதிப்புரைகளை ஏற்றவும்
தரவுத்தொகுப்பு_நெக் = load_dataset ( 'imdb' , பிளவு = 'ரயில்[-2500:]' )
இங்கே, IMDb தரவுத்தொகுப்பின் இரண்டு துணைக்குழுக்களைப் பெற “load_dataset” செயல்பாட்டைப் பயன்படுத்துகிறோம். 'dataset_pos' 2500 நேர்மறையான மதிப்புரைகளைக் கொண்டுள்ளது மற்றும் 'dataset_neg' 2500 எதிர்மறை மதிப்புரைகளைக் கொண்டுள்ளது. முழு தரவுத்தொகுப்பின் துணைக்குழுவைத் தேர்ந்தெடுக்க அனுமதிக்கும் ஏற்றத்திற்கான எடுத்துக்காட்டுகளின் வரம்பைக் குறிப்பிட, பிளவு அளவுருவைப் பயன்படுத்துகிறோம்.
# படி 3: தரவுத்தொகுப்புகளை இணைக்கவும்இணைக்கப்பட்ட_தரவுத்தொகுப்பு = இணைக்கப்பட்ட_தரவுத்தொகுப்புகள் ( [ தரவுத்தொகுப்பு_pos , தரவுத்தொகுப்பு_நெக் ] )
இந்தப் படிநிலையில், IMDb தரவுத்தொகுப்பின் இரண்டு துணைத்தொகுப்புகளை “concatenated_dataset” எனப்படும் ஒற்றை தரவுத்தொகுப்பில் இணைக்கிறோம். நாங்கள் “concatenate_datasets” செயல்பாட்டைப் பயன்படுத்துகிறோம் மற்றும் அதை இணைக்க இரண்டு தரவுத்தொகுப்புகளைக் கொண்ட பட்டியலை அனுப்புகிறோம். இரண்டு தரவுத்தொகுப்புகளும் ஒரே அம்சங்களைக் கொண்டிருப்பதால், அவற்றை அச்சு=0 உடன் இணைக்கிறோம், அதாவது வரிசைகள் ஒன்றன் மேல் ஒன்றாக அடுக்கி வைக்கப்பட்டுள்ளன.
# படி 4: இணைக்கப்பட்ட தரவுத்தொகுப்பை பகுப்பாய்வு செய்யவும்நேர்மறை_விமர்சனங்கள் = தொகை ( 1 க்கான முத்திரை உள்ளே
இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 1 )
num_negative_reviews = தொகை ( 1 க்கான முத்திரை உள்ளே
இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 0 )
இங்கே, இணைக்கப்பட்ட தரவுத்தொகுப்பின் எளிய பகுப்பாய்வை நாங்கள் செய்கிறோம். நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் எண்ணிக்கையைக் கணக்கிட, 'தொகை' செயல்பாட்டுடன் பட்டியல் புரிதல்களைப் பயன்படுத்துகிறோம். மூலம் மீண்டும் சொல்கிறோம் ' 'இணைக்கப்பட்ட_தரவுத்தொகுப்பு' நெடுவரிசையில் லேபிள் மற்றும் நேர்மறை லேபிளை (1) அல்லது எதிர்மறை லேபிளை (0) சந்திக்கும் போதெல்லாம் எண்ணிக்கையை அதிகரிக்கவும்.
# படி 5: முடிவுகளைக் காண்பிஅச்சு ( 'நேர்மறையான மதிப்புரைகளின் எண்ணிக்கை:' , நேர்மறை_விமர்சனங்கள் )
அச்சு ( 'எதிர்மறை மதிப்புரைகளின் எண்ணிக்கை:' , num_negative_reviews )
இந்தப் படிநிலையில், எங்கள் பகுப்பாய்வின் முடிவுகளை அச்சிடுகிறோம் - இணைக்கப்பட்ட தரவுத்தொகுப்பில் நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் எண்ணிக்கை.
# படி 6: ஒரு சில எடுத்துக்காட்டு மதிப்புரைகளை அச்சிடுங்கள்அச்சு ( ' \n சில எடுத்துக்காட்டு மதிப்புரைகள்:' )
க்கான நான் உள்ளே சரகம் ( 5 ) :
அச்சு ( f 'மதிப்பு {i + 1}: {concatenated_dataset['text'][i]}' )
இறுதியாக, இணைக்கப்பட்ட தரவுத்தொகுப்பிலிருந்து சில எடுத்துக்காட்டு மதிப்புரைகளை நாங்கள் காண்பிக்கிறோம். தரவுத்தொகுப்பில் உள்ள முதல் ஐந்து உதாரணங்களைச் சுழற்றி அவற்றின் உரை உள்ளடக்கத்தை “உரை” நெடுவரிசையைப் பயன்படுத்தி அச்சிடுகிறோம்.
IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை ஏற்றவும், இணைக்கவும் மற்றும் பகுப்பாய்வு செய்யவும் ஹக்கிங் ஃபேஸின் 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்துவதற்கான நேரடியான உதாரணத்தை இந்தக் குறியீடு விளக்குகிறது. இது NLP தரவுத்தொகுப்பு கையாளுதலை ஒழுங்குபடுத்தும் நூலகத்தின் திறனை எடுத்துக்காட்டுகிறது மற்றும் அதிநவீன இயற்கை மொழி செயலாக்க மாதிரிகள் மற்றும் பயன்பாடுகளை உருவாக்குவதற்கான அதன் திறனைக் காட்டுகிறது.
முடிவுரை
ஹக்கிங் ஃபேஸின் 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தும் பைதான் நிரல் இரண்டு IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளின் ஒருங்கிணைப்பை வெற்றிகரமாக நிரூபிக்கிறது. நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் துணைக்குழுக்களை ஏற்றுவதன் மூலம், நிரல் அவற்றை concatenate_datasets() செயல்பாட்டைப் பயன்படுத்தி ஒரு தரவுத்தொகுப்பில் இணைக்கிறது. ஒருங்கிணைந்த தரவுத்தொகுப்பில் நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் எண்ணிக்கையைக் கணக்கிடுவதன் மூலம் இது ஒரு எளிய பகுப்பாய்வு செய்கிறது.
'தரவுத்தொகுப்புகள்' நூலகம் NLP தரவுத்தொகுப்புகளைக் கையாளும் மற்றும் கையாளும் செயல்முறையை எளிதாக்குகிறது, இது ஆராய்ச்சியாளர்கள், டெவலப்பர்கள் மற்றும் NLP பயிற்சியாளர்களுக்கு ஒரு சக்திவாய்ந்த கருவியாக அமைகிறது. அதன் பயனர் நட்பு இடைமுகம் மற்றும் விரிவான செயல்பாடுகளுடன், நூலகம் ஒரு சிரமமில்லாத தரவு முன் செயலாக்கம், ஆய்வு மற்றும் மாற்றத்தை செயல்படுத்துகிறது. இந்த ஆவணத்தில் காட்சிப்படுத்தப்பட்டுள்ள நிரல், தரவு ஒருங்கிணைப்பு மற்றும் பகுப்பாய்வு பணிகளை எவ்வாறு சீரமைக்க நூலகத்தைப் பயன்படுத்த முடியும் என்பதற்கான நடைமுறை எடுத்துக்காட்டு.
நிஜ வாழ்க்கை சூழ்நிலைகளில், உணர்வு பகுப்பாய்வு, உரை வகைப்பாடு மற்றும் மொழி மாதிரியாக்கம் போன்ற மிகவும் சிக்கலான இயற்கை மொழி செயலாக்க பணிகளுக்கு இந்த திட்டம் ஒரு அடித்தளமாக செயல்படும். 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தி, ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் பெரிய அளவிலான தரவுத்தொகுப்புகளை திறமையாக நிர்வகிக்கலாம், பரிசோதனையை எளிதாக்கலாம் மற்றும் அதிநவீன NLP மாதிரிகளின் வளர்ச்சியை துரிதப்படுத்தலாம். ஒட்டுமொத்தமாக, ஹக்கிங் ஃபேஸ் 'தரவுத்தொகுப்புகள்' நூலகம் இயற்கையான மொழி செயலாக்கம் மற்றும் புரிதலில் முன்னேற்றங்களைப் பின்தொடர்வதில் இன்றியமையாத சொத்தாக உள்ளது.