கட்டிப்பிடிக்கும் முகத்தில் தரவுத்தொகுப்புகளை எவ்வாறு இணைப்பது

Kattippitikkum Mukattil Taravuttokuppukalai Evvaru Inaippatu



ஹக்கிங் ஃபேஸ் வழங்கும் 'தரவுத்தொகுப்புகள்' நூலகம், இயல்பான மொழி செயலாக்கப் பணிகளுக்கான தரவுத்தொகுப்புகளுடன் வேலை செய்வதற்கும் கையாளுவதற்கும் வசதியான வழியை வழங்குகிறது. நூலகத்தால் வழங்கப்படும் ஒரு பயனுள்ள செயல்பாடு concatenate_datasets() ஆகும், இது பல தரவுத்தொகுப்புகளை ஒரே தரவுத்தொகுப்பில் இணைக்க அனுமதிக்கிறது. பின்வருபவை concatenate_datasets() செயல்பாடு மற்றும் அதை எவ்வாறு பயன்படுத்துவது என்பது பற்றிய சுருக்கமான கண்ணோட்டம்.

concatenate_datasets()

விளக்கம்:

ஹக்கிங் ஃபேஸின் “டேட்டாசெட்ஸ்” லைப்ரரி concatenate_datasets() செயல்பாட்டை வழங்குகிறது. இது பல தரவுத்தொகுப்புகளை ஒருங்கிணைக்கப் பயன்படுகிறது, அவற்றை ஒரு குறிப்பிட்ட அச்சில் ஒரு தரவுத்தொகுப்பாக இணைக்கிறது. ஒரே கட்டமைப்பைப் பகிர்ந்து கொள்ளும் பல தரவுத்தொகுப்புகள் உங்களிடம் இருக்கும்போது, ​​மேலும் செயலாக்கம் மற்றும் பகுப்பாய்விற்காக அவற்றை ஒரு ஒருங்கிணைந்த தரவுத்தொகுப்பில் இணைக்க விரும்பினால் இந்தச் செயல்பாடு மிகவும் பயனுள்ளதாக இருக்கும்.







தொடரியல்:



இருந்து தரவுத்தொகுப்புகள் இறக்குமதி இணைக்கப்பட்ட_தரவுத்தொகுப்புகள்

இணைக்கப்பட்ட_தரவுத்தொகுப்பு = இணைக்கப்பட்ட_தரவுத்தொகுப்புகள் ( தரவுத்தொகுப்புகள் , அச்சு = 0 , தகவல் = இல்லை )

அளவுருக்கள்:

தரவுத்தொகுப்புகள் (தரவுத்தொகுப்பின் பட்டியல்): நீங்கள் இணைக்க விரும்பும் தரவுத்தொகுப்புகளின் பட்டியல். இந்தத் தரவுத்தொகுப்புகள் இணக்கமான அம்சங்களைக் கொண்டிருக்க வேண்டும், அதாவது அவை ஒரே மாதிரியான ஸ்கீமா, நெடுவரிசைப் பெயர்கள் மற்றும் தரவு வகைகளைக் கொண்டிருக்க வேண்டும்.



அச்சு (int, விருப்பத்திற்குரியது, இயல்புநிலை=0): இணைப்பாக்கம் செய்யப்பட வேண்டிய அச்சு. பெரும்பாலான NLP தரவுத்தொகுப்புகளுக்கு, இயல்புநிலை மதிப்பு 0 பயன்படுத்தப்படுகிறது, அதாவது தரவுத்தொகுப்புகள் செங்குத்தாக இணைக்கப்பட்டுள்ளன. நீங்கள் அச்சு=1 ஐ அமைத்தால், தரவுத்தொகுப்புகள் வெவ்வேறு நெடுவரிசைகளை அம்சங்களாகக் கொண்டிருப்பதாகக் கருதி, அவை கிடைமட்டமாக இணைக்கப்படும்.





தகவல் (datasets.DatasetInfo, விருப்பத்திற்குரியது): இணைக்கப்பட்ட தரவுத்தொகுப்பு பற்றிய தகவல். வழங்கப்படவில்லை எனில், பட்டியலில் உள்ள முதல் தரவுத்தொகுப்பில் இருந்து தகவல் ஊகிக்கப்படும்.

வருமானம்:

இணைக்கப்பட்ட_தரவுத்தொகுப்பு (தரவுத்தொகுப்பு): அனைத்து உள்ளீட்டுத் தரவுத்தொகுப்புகளையும் ஒருங்கிணைத்த பிறகு கிடைக்கும் தரவுத்தொகுப்பு.



உதாரணமாக:

# படி 1: தரவுத்தொகுப்பு நூலகத்தை நிறுவவும்

# பிப்பைப் பயன்படுத்தி இதை நிறுவலாம்:

# !பிப் நிறுவல் தரவுத்தொகுப்புகள்

# படி 2: தேவையான நூலகங்களை இறக்குமதி செய்யவும்

இருந்து தரவுத்தொகுப்புகள் இறக்குமதி load_dataset , இணைக்கப்பட்ட_தரவுத்தொகுப்புகள்

# படி 3: IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை ஏற்றவும்

# இரண்டு IMDb தரவுத்தொகுப்புகளைப் பயன்படுத்துவோம், ஒன்று நேர்மறையான மதிப்புரைகளுக்கு

#மற்றும் எதிர்மறை மதிப்புரைகளுக்கு மற்றொன்று.

# 2500 நேர்மறையான மதிப்புரைகளை ஏற்றவும்

தரவுத்தொகுப்பு_pos = load_dataset ( 'imdb' , பிளவு = 'ரயில்[:2500]' )

# 2500 எதிர்மறை மதிப்புரைகளை ஏற்றவும்

தரவுத்தொகுப்பு_நெக் = load_dataset ( 'imdb' , பிளவு = 'ரயில்[-2500:]' )

# படி 4: தரவுத்தொகுப்புகளை இணைக்கவும்

# இரண்டு தரவுத்தொகுப்புகளையும் அச்சு=0 உடன் இணைக்கிறோம்

அதே திட்டம் ( அதே அம்சங்கள் ) .

இணைக்கப்பட்ட_தரவுத்தொகுப்பு = இணைக்கப்பட்ட_தரவுத்தொகுப்புகள் ( [ தரவுத்தொகுப்பு_pos , தரவுத்தொகுப்பு_நெக் ] )

# படி 5: இணைக்கப்பட்ட தரவுத்தொகுப்பை பகுப்பாய்வு செய்யவும்

# எளிமைக்காக, நேர்மறை மற்றும் எதிர்மறை எண்ணிக்கையை எண்ணுவோம்

இணைக்கப்பட்ட தரவுத்தொகுப்பில் # மதிப்புரைகள்.

நேர்மறை_விமர்சனங்கள் = தொகை ( 1 க்கான முத்திரை உள்ளே

இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 1 )

num_negative_reviews = தொகை ( 1 க்கான முத்திரை உள்ளே

இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 0 )

# படி 6: முடிவுகளைக் காட்டு

அச்சு ( 'நேர்மறையான மதிப்புரைகளின் எண்ணிக்கை:' , நேர்மறை_விமர்சனங்கள் )

அச்சு ( 'எதிர்மறை மதிப்புரைகளின் எண்ணிக்கை:' , num_negative_reviews )

# படி 7: இணைக்கப்பட்ட தரவுத்தொகுப்பிலிருந்து சில எடுத்துக்காட்டு மதிப்புரைகளை அச்சிடவும்

அச்சு ( ' \n சில எடுத்துக்காட்டு மதிப்புரைகள்:' )

க்கான நான் உள்ளே சரகம் ( 5 ) :

அச்சு ( f 'மதிப்பு {i + 1}: {concatenated_dataset['text'][i]}' )

வெளியீடு:

இரண்டு IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை இணைக்கும் ஹக்கிங் ஃபேஸின் 'தரவுத்தொகுப்புகள்' நூலகத் திட்டத்திற்கான விளக்கம் பின்வருமாறு. இது நிரலின் நோக்கம், அதன் பயன்பாடு மற்றும் குறியீட்டில் உள்ள படிகள் ஆகியவற்றை விளக்குகிறது.

குறியீட்டின் ஒவ்வொரு படிநிலையின் விரிவான விளக்கத்தை வழங்குவோம்:

# படி 1: தேவையான நூலகங்களை இறக்குமதி செய்யவும்

இருந்து தரவுத்தொகுப்புகள் இறக்குமதி load_dataset , இணைக்கப்பட்ட_தரவுத்தொகுப்புகள்

இந்த கட்டத்தில், நிரலுக்கு தேவையான நூலகங்களை நாங்கள் இறக்குமதி செய்கிறோம். IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை ஏற்றுவதற்கு “load_dataset” செயல்பாடும், பின்னர் அவற்றை இணைக்க “concatenate_datasets” செயல்பாடும் தேவை.

# படி 2: IMDb மூவி விமர்சனம் தரவுத்தொகுப்புகளை ஏற்றவும்

# 2500 நேர்மறையான மதிப்புரைகளை ஏற்றவும்

தரவுத்தொகுப்பு_pos = load_dataset ( 'imdb' , பிளவு = 'ரயில்[:2500]' )

# 2500 எதிர்மறை மதிப்புரைகளை ஏற்றவும்

தரவுத்தொகுப்பு_நெக் = load_dataset ( 'imdb' , பிளவு = 'ரயில்[-2500:]' )

இங்கே, IMDb தரவுத்தொகுப்பின் இரண்டு துணைக்குழுக்களைப் பெற “load_dataset” செயல்பாட்டைப் பயன்படுத்துகிறோம். 'dataset_pos' 2500 நேர்மறையான மதிப்புரைகளைக் கொண்டுள்ளது மற்றும் 'dataset_neg' 2500 எதிர்மறை மதிப்புரைகளைக் கொண்டுள்ளது. முழு தரவுத்தொகுப்பின் துணைக்குழுவைத் தேர்ந்தெடுக்க அனுமதிக்கும் ஏற்றத்திற்கான எடுத்துக்காட்டுகளின் வரம்பைக் குறிப்பிட, பிளவு அளவுருவைப் பயன்படுத்துகிறோம்.

# படி 3: தரவுத்தொகுப்புகளை இணைக்கவும்

இணைக்கப்பட்ட_தரவுத்தொகுப்பு = இணைக்கப்பட்ட_தரவுத்தொகுப்புகள் ( [ தரவுத்தொகுப்பு_pos , தரவுத்தொகுப்பு_நெக் ] )

இந்தப் படிநிலையில், IMDb தரவுத்தொகுப்பின் இரண்டு துணைத்தொகுப்புகளை “concatenated_dataset” எனப்படும் ஒற்றை தரவுத்தொகுப்பில் இணைக்கிறோம். நாங்கள் “concatenate_datasets” செயல்பாட்டைப் பயன்படுத்துகிறோம் மற்றும் அதை இணைக்க இரண்டு தரவுத்தொகுப்புகளைக் கொண்ட பட்டியலை அனுப்புகிறோம். இரண்டு தரவுத்தொகுப்புகளும் ஒரே அம்சங்களைக் கொண்டிருப்பதால், அவற்றை அச்சு=0 உடன் இணைக்கிறோம், அதாவது வரிசைகள் ஒன்றன் மேல் ஒன்றாக அடுக்கி வைக்கப்பட்டுள்ளன.

# படி 4: இணைக்கப்பட்ட தரவுத்தொகுப்பை பகுப்பாய்வு செய்யவும்

நேர்மறை_விமர்சனங்கள் = தொகை ( 1 க்கான முத்திரை உள்ளே

இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 1 )

num_negative_reviews = தொகை ( 1 க்கான முத்திரை உள்ளே

இணைக்கப்பட்ட_தரவுத்தொகுப்பு [ 'லேபிள்' ] என்றால் முத்திரை == 0 )

இங்கே, இணைக்கப்பட்ட தரவுத்தொகுப்பின் எளிய பகுப்பாய்வை நாங்கள் செய்கிறோம். நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் எண்ணிக்கையைக் கணக்கிட, 'தொகை' செயல்பாட்டுடன் பட்டியல் புரிதல்களைப் பயன்படுத்துகிறோம். மூலம் மீண்டும் சொல்கிறோம் ' 'இணைக்கப்பட்ட_தரவுத்தொகுப்பு' நெடுவரிசையில் லேபிள் மற்றும் நேர்மறை லேபிளை (1) அல்லது எதிர்மறை லேபிளை (0) சந்திக்கும் போதெல்லாம் எண்ணிக்கையை அதிகரிக்கவும்.

# படி 5: முடிவுகளைக் காண்பி

அச்சு ( 'நேர்மறையான மதிப்புரைகளின் எண்ணிக்கை:' , நேர்மறை_விமர்சனங்கள் )

அச்சு ( 'எதிர்மறை மதிப்புரைகளின் எண்ணிக்கை:' , num_negative_reviews )

இந்தப் படிநிலையில், எங்கள் பகுப்பாய்வின் முடிவுகளை அச்சிடுகிறோம் - இணைக்கப்பட்ட தரவுத்தொகுப்பில் நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் எண்ணிக்கை.

# படி 6: ஒரு சில எடுத்துக்காட்டு மதிப்புரைகளை அச்சிடுங்கள்

அச்சு ( ' \n சில எடுத்துக்காட்டு மதிப்புரைகள்:' )

க்கான நான் உள்ளே சரகம் ( 5 ) :

அச்சு ( f 'மதிப்பு {i + 1}: {concatenated_dataset['text'][i]}' )

இறுதியாக, இணைக்கப்பட்ட தரவுத்தொகுப்பிலிருந்து சில எடுத்துக்காட்டு மதிப்புரைகளை நாங்கள் காண்பிக்கிறோம். தரவுத்தொகுப்பில் உள்ள முதல் ஐந்து உதாரணங்களைச் சுழற்றி அவற்றின் உரை உள்ளடக்கத்தை “உரை” நெடுவரிசையைப் பயன்படுத்தி அச்சிடுகிறோம்.

IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளை ஏற்றவும், இணைக்கவும் மற்றும் பகுப்பாய்வு செய்யவும் ஹக்கிங் ஃபேஸின் 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்துவதற்கான நேரடியான உதாரணத்தை இந்தக் குறியீடு விளக்குகிறது. இது NLP தரவுத்தொகுப்பு கையாளுதலை ஒழுங்குபடுத்தும் நூலகத்தின் திறனை எடுத்துக்காட்டுகிறது மற்றும் அதிநவீன இயற்கை மொழி செயலாக்க மாதிரிகள் மற்றும் பயன்பாடுகளை உருவாக்குவதற்கான அதன் திறனைக் காட்டுகிறது.

முடிவுரை

ஹக்கிங் ஃபேஸின் 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தும் பைதான் நிரல் இரண்டு IMDb திரைப்பட மதிப்பாய்வு தரவுத்தொகுப்புகளின் ஒருங்கிணைப்பை வெற்றிகரமாக நிரூபிக்கிறது. நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் துணைக்குழுக்களை ஏற்றுவதன் மூலம், நிரல் அவற்றை concatenate_datasets() செயல்பாட்டைப் பயன்படுத்தி ஒரு தரவுத்தொகுப்பில் இணைக்கிறது. ஒருங்கிணைந்த தரவுத்தொகுப்பில் நேர்மறை மற்றும் எதிர்மறை மதிப்புரைகளின் எண்ணிக்கையைக் கணக்கிடுவதன் மூலம் இது ஒரு எளிய பகுப்பாய்வு செய்கிறது.

'தரவுத்தொகுப்புகள்' நூலகம் NLP தரவுத்தொகுப்புகளைக் கையாளும் மற்றும் கையாளும் செயல்முறையை எளிதாக்குகிறது, இது ஆராய்ச்சியாளர்கள், டெவலப்பர்கள் மற்றும் NLP பயிற்சியாளர்களுக்கு ஒரு சக்திவாய்ந்த கருவியாக அமைகிறது. அதன் பயனர் நட்பு இடைமுகம் மற்றும் விரிவான செயல்பாடுகளுடன், நூலகம் ஒரு சிரமமில்லாத தரவு முன் செயலாக்கம், ஆய்வு மற்றும் மாற்றத்தை செயல்படுத்துகிறது. இந்த ஆவணத்தில் காட்சிப்படுத்தப்பட்டுள்ள நிரல், தரவு ஒருங்கிணைப்பு மற்றும் பகுப்பாய்வு பணிகளை எவ்வாறு சீரமைக்க நூலகத்தைப் பயன்படுத்த முடியும் என்பதற்கான நடைமுறை எடுத்துக்காட்டு.

நிஜ வாழ்க்கை சூழ்நிலைகளில், உணர்வு பகுப்பாய்வு, உரை வகைப்பாடு மற்றும் மொழி மாதிரியாக்கம் போன்ற மிகவும் சிக்கலான இயற்கை மொழி செயலாக்க பணிகளுக்கு இந்த திட்டம் ஒரு அடித்தளமாக செயல்படும். 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தி, ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் பெரிய அளவிலான தரவுத்தொகுப்புகளை திறமையாக நிர்வகிக்கலாம், பரிசோதனையை எளிதாக்கலாம் மற்றும் அதிநவீன NLP மாதிரிகளின் வளர்ச்சியை துரிதப்படுத்தலாம். ஒட்டுமொத்தமாக, ஹக்கிங் ஃபேஸ் 'தரவுத்தொகுப்புகள்' நூலகம் இயற்கையான மொழி செயலாக்கம் மற்றும் புரிதலில் முன்னேற்றங்களைப் பின்தொடர்வதில் இன்றியமையாத சொத்தாக உள்ளது.