டிரான்ஸ்ஃபார்மர்களில் டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

Tiranshparmarkalil Tettacettil Paiplainkalai Evvaru Payanpatuttuvatu



பைப்லைன்() செயல்பாடு டிரான்ஸ்ஃபார்மர் லைப்ரரியின் ஒருங்கிணைந்த பகுதியாகும். இது ஒரு அனுமானப் பணி, மாதிரிகள், டோக்கனைசேஷன் பொறிமுறை போன்றவற்றை வரையறுக்கக்கூடிய பல உள்ளீடுகளை எடுக்கும். பைப்லைன்() செயல்பாடு ஒன்று அல்லது பல உரைகளில் NLP பணிகளைச் செய்ய முக்கியமாகப் பயன்படுத்தப்படுகிறது. இது மனிதனால் படிக்கக்கூடிய வெளியீட்டையும் அதிகபட்ச துல்லியத்துடன் துல்லியமான கணிப்பையும் உருவாக்க மாதிரியின் அடிப்படையில் உள்ளீடு மற்றும் பிந்தைய செயலாக்கத்தில் முன் செயலாக்கத்தை செய்கிறது.

இந்த கட்டுரை பின்வரும் அம்சங்களை உள்ளடக்கியது:







ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்றால் என்ன?

ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்பது பல பொது தரவுத்தொகுப்புகளைக் கொண்ட ஏபிஐ ஆகும், மேலும் அவற்றைப் பதிவிறக்க எளிதான வழியையும் வழங்குகிறது. இந்த நூலகத்தை '' பயன்படுத்தி பயன்பாட்டில் இறக்குமதி செய்து நிறுவலாம் பிப் ” கட்டளை. ஹக்கிங் ஃபேஸ் லைப்ரரியின் தரவுத்தொகுப்புகளைப் பதிவிறக்கி நிறுவுவதற்கான நடைமுறை விளக்கத்திற்கு, இதைப் பார்வையிடவும் Google Colab இணைப்பு. இலிருந்து பல தரவுத்தொகுப்புகளைப் பதிவிறக்கலாம் அணைத்துக்கொள்ளும் முகம் தரவுத்தொகுப்பு மையம்.



பைப்லைன்() செயல்பாட்டின் செயல்பாட்டைப் பற்றி இந்தக் கட்டுரையைக் குறிப்பிடுவதன் மூலம் மேலும் அறியவும் ' மின்மாற்றிகளில் பைப்லைன்() செயல்பாட்டை எவ்வாறு பயன்படுத்துவது? ”.



கட்டிப்பிடிக்கும் முகத்தில் உள்ள டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

ஹக்கிங் ஃபேஸ் ஒரு வரிக் குறியீட்டைப் பயன்படுத்தி எளிதாக நிறுவக்கூடிய பல்வேறு பொது தரவுத்தொகுப்புகளை வழங்குகிறது. இந்தக் கட்டுரையில், இந்தத் தரவுத்தொகுப்புகளுக்கு பைப்லைன்களைப் பயன்படுத்துவதற்கான நடைமுறை விளக்கத்தைக் காண்போம். தரவுத்தொகுப்பில் பைப்லைன்களை செயல்படுத்த இரண்டு வழிகள் உள்ளன.





முறை 1: மறு செய்கை முறையைப் பயன்படுத்துதல்

பைப்லைன்() செயல்பாட்டை தரவுத்தொகுப்பு மற்றும் மாதிரியிலும் மீண்டும் செய்ய முடியும். இந்த நோக்கத்திற்காக, கீழே குறிப்பிடப்பட்டுள்ள படிகளைப் பின்பற்றவும்:

படி 1: டிரான்ஸ்பார்மர் லைப்ரரியை நிறுவவும்

மின்மாற்றி நூலகத்தை நிறுவ, பின்வரும் கட்டளையை வழங்கவும்:



!பிப் நிறுவும் மின்மாற்றி

படி 2: குழாய்களை இறக்குமதி செய்யவும்

டிரான்ஸ்பார்மர் லைப்ரரியில் இருந்து பைப்லைனை இறக்குமதி செய்யலாம். இந்த நோக்கத்திற்காக, பின்வரும் கட்டளையை வழங்கவும்:

மின்மாற்றிகள் இருந்து குழாய் இறக்குமதி

படி 3: பைப்லைனை செயல்படுத்தவும்

இங்கே, பைப்லைன் () செயல்பாடு மாதிரியில் செயல்படுத்தப்படுகிறது ' gpt2 ”. நீங்கள் மாதிரிகளை பதிவிறக்கம் செய்யலாம் கட்டிப்பிடிக்கும் முகம் மாதிரி மையம்:

def imp_pipeline():
வரம்பில் உள்ள x க்கு (1000):
விளைச்சல் f'செயல்படுத்தல் தரவுத்தொகுப்பு{x}'


generate_pipeline= பைப்லைன்(மாதிரி='gpt2', device=0)
ஜென்_சார்= 0
ஜெனரேட்_பைப்லைனில் (imp_pipeline()) வெளியீட்டிற்கு:
gen_char += len(வெளியீடு[0]['generated_text'])

இந்த குறியீட்டில், ' உருவாக்க_குழாய் ” என்பது மாதிரியுடன் பைப்லைன்() செயல்பாட்டைக் கொண்டிருக்கும் ஒரு மாறி gpt2 ”. இது 'என்று அழைக்கப்படும் போது imp_pipeline() ” செயல்பாடு, இது 1000 க்கு குறிப்பிடப்பட்ட வரம்பில் அதிகரிக்கப்பட்ட தரவை தானாகவே அங்கீகரிக்கிறது:

இது பயிற்சிக்கு சிறிது நேரம் எடுக்கும். அதற்கான இணைப்பு கூகுள் கோ மேலும் வழங்கப்படுகிறது.

முறை 2: தரவுத்தொகுப்பு நூலகத்தைப் பயன்படுத்துதல்

இந்த முறையில், 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தி பைப்லைனை செயல்படுத்துவதை நாங்கள் நிரூபிப்போம்:

படி 1: மின்மாற்றியை நிறுவவும்

மின்மாற்றி நூலகத்தை நிறுவ, பின்வரும் கட்டளையை வழங்கவும்:

!பிப் நிறுவும் மின்மாற்றி

படி 2: டேட்டாசெட் லைப்ரரியை நிறுவவும்

என ' தரவுத்தொகுப்புகள் ” நூலகத்தில் அனைத்து பொது தரவுத்தொகுப்புகளும் உள்ளன, பின்வரும் கட்டளையைப் பயன்படுத்தி அதை நிறுவலாம். நிறுவுவதன் மூலம் ' தரவுத்தொகுப்புகள் ” நூலகம், அதன் பெயரை வழங்குவதன் மூலம் எந்த தரவுத்தொகுப்பையும் நேரடியாக இறக்குமதி செய்யலாம்:

!பிப் நிறுவல் தரவுத்தொகுப்புகள்

படி 3: டேட்டாசெட் பைப்லைன்

தரவுத்தொகுப்பில் பைப்லைனை உருவாக்க, பின்வரும் குறியீட்டைப் பயன்படுத்தவும். KeyDataset என்பது பயனருக்கு விருப்பமான மதிப்புகளை மட்டுமே வெளியிடும் அம்சமாகும்:

Transformers.pipelines.pt_utils இலிருந்து KeyDataset ஐ இறக்குமதி செய்கிறது
மின்மாற்றிகள் இருந்து குழாய் இறக்குமதி
தரவுத்தொகுப்புகளிலிருந்து load_dataset ஐ இறக்குமதி செய்க
gen_pipeline = பைப்லைன்(மாதிரி = 'hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') gen_pipeline (KeyDataset(loaddataset, 'audio')) வெளியீடு:
அச்சு ('இப்போது வெளியீட்டை அச்சிடுகிறது')
அச்சு ('---------------')
அச்சு (வெளியீடு)

மேலே உள்ள குறியீட்டின் வெளியீடு கீழே கொடுக்கப்பட்டுள்ளது:

இந்த வழிகாட்டியிலிருந்து அவ்வளவுதான். அதற்கான இணைப்பு கூகுள் கோ என்பதும் இக்கட்டுரையில் குறிப்பிடப்பட்டுள்ளது

முடிவுரை

தரவுத்தொகுப்பில் பைப்லைன்களைப் பயன்படுத்த, பைப்லைன்() செயல்பாட்டைப் பயன்படுத்தி தரவுத்தொகுப்பில் மீண்டும் மீண்டும் செய்யலாம் அல்லது ' தரவுத்தொகுப்புகள் ” நூலகம். Hugging Face ஆனது, தேவைகளின் அடிப்படையில் பயன்படுத்தக்கூடிய தரவுத்தொகுப்புகள் மற்றும் மாதிரிகள் ஆகிய இரண்டிற்கும் GitHub களஞ்சிய இணைப்பை அதன் பயனர்களுக்கு வழங்குகிறது. இந்தக் கட்டுரை டிரான்ஸ்ஃபார்மர்களில் உள்ள தரவுத்தொகுப்பில் பைப்லைன்களைப் பயன்படுத்துவதற்கான விரிவான வழிகாட்டியை வழங்கியுள்ளது.