பைப்லைன்() செயல்பாடு டிரான்ஸ்ஃபார்மர் லைப்ரரியின் ஒருங்கிணைந்த பகுதியாகும். இது ஒரு அனுமானப் பணி, மாதிரிகள், டோக்கனைசேஷன் பொறிமுறை போன்றவற்றை வரையறுக்கக்கூடிய பல உள்ளீடுகளை எடுக்கும். பைப்லைன்() செயல்பாடு ஒன்று அல்லது பல உரைகளில் NLP பணிகளைச் செய்ய முக்கியமாகப் பயன்படுத்தப்படுகிறது. இது மனிதனால் படிக்கக்கூடிய வெளியீட்டையும் அதிகபட்ச துல்லியத்துடன் துல்லியமான கணிப்பையும் உருவாக்க மாதிரியின் அடிப்படையில் உள்ளீடு மற்றும் பிந்தைய செயலாக்கத்தில் முன் செயலாக்கத்தை செய்கிறது.
இந்த கட்டுரை பின்வரும் அம்சங்களை உள்ளடக்கியது:
- ஹக்கிங் ஃபேஸ் டேட்டாசெட்ஸ் லைப்ரரி என்றால் என்ன?
- கட்டிப்பிடிக்கும் முகத்தில் உள்ள டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?
ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்றால் என்ன?
ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்பது பல பொது தரவுத்தொகுப்புகளைக் கொண்ட ஏபிஐ ஆகும், மேலும் அவற்றைப் பதிவிறக்க எளிதான வழியையும் வழங்குகிறது. இந்த நூலகத்தை '' பயன்படுத்தி பயன்பாட்டில் இறக்குமதி செய்து நிறுவலாம் பிப் ” கட்டளை. ஹக்கிங் ஃபேஸ் லைப்ரரியின் தரவுத்தொகுப்புகளைப் பதிவிறக்கி நிறுவுவதற்கான நடைமுறை விளக்கத்திற்கு, இதைப் பார்வையிடவும் Google Colab இணைப்பு. இலிருந்து பல தரவுத்தொகுப்புகளைப் பதிவிறக்கலாம் அணைத்துக்கொள்ளும் முகம் தரவுத்தொகுப்பு மையம்.
பைப்லைன்() செயல்பாட்டின் செயல்பாட்டைப் பற்றி இந்தக் கட்டுரையைக் குறிப்பிடுவதன் மூலம் மேலும் அறியவும் ' மின்மாற்றிகளில் பைப்லைன்() செயல்பாட்டை எவ்வாறு பயன்படுத்துவது? ”.
கட்டிப்பிடிக்கும் முகத்தில் உள்ள டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?
ஹக்கிங் ஃபேஸ் ஒரு வரிக் குறியீட்டைப் பயன்படுத்தி எளிதாக நிறுவக்கூடிய பல்வேறு பொது தரவுத்தொகுப்புகளை வழங்குகிறது. இந்தக் கட்டுரையில், இந்தத் தரவுத்தொகுப்புகளுக்கு பைப்லைன்களைப் பயன்படுத்துவதற்கான நடைமுறை விளக்கத்தைக் காண்போம். தரவுத்தொகுப்பில் பைப்லைன்களை செயல்படுத்த இரண்டு வழிகள் உள்ளன.
முறை 1: மறு செய்கை முறையைப் பயன்படுத்துதல்
பைப்லைன்() செயல்பாட்டை தரவுத்தொகுப்பு மற்றும் மாதிரியிலும் மீண்டும் செய்ய முடியும். இந்த நோக்கத்திற்காக, கீழே குறிப்பிடப்பட்டுள்ள படிகளைப் பின்பற்றவும்:
படி 1: டிரான்ஸ்பார்மர் லைப்ரரியை நிறுவவும்
மின்மாற்றி நூலகத்தை நிறுவ, பின்வரும் கட்டளையை வழங்கவும்:
!பிப் நிறுவும் மின்மாற்றி
படி 2: குழாய்களை இறக்குமதி செய்யவும்
டிரான்ஸ்பார்மர் லைப்ரரியில் இருந்து பைப்லைனை இறக்குமதி செய்யலாம். இந்த நோக்கத்திற்காக, பின்வரும் கட்டளையை வழங்கவும்:
மின்மாற்றிகள் இருந்து குழாய் இறக்குமதி
படி 3: பைப்லைனை செயல்படுத்தவும்
இங்கே, பைப்லைன் () செயல்பாடு மாதிரியில் செயல்படுத்தப்படுகிறது ' gpt2 ”. நீங்கள் மாதிரிகளை பதிவிறக்கம் செய்யலாம் கட்டிப்பிடிக்கும் முகம் மாதிரி மையம்:
def imp_pipeline():வரம்பில் உள்ள x க்கு (1000):
விளைச்சல் f'செயல்படுத்தல் தரவுத்தொகுப்பு{x}'
generate_pipeline= பைப்லைன்(மாதிரி='gpt2', device=0)
ஜென்_சார்= 0
ஜெனரேட்_பைப்லைனில் (imp_pipeline()) வெளியீட்டிற்கு:
gen_char += len(வெளியீடு[0]['generated_text'])
இந்த குறியீட்டில், ' உருவாக்க_குழாய் ” என்பது மாதிரியுடன் பைப்லைன்() செயல்பாட்டைக் கொண்டிருக்கும் ஒரு மாறி gpt2 ”. இது 'என்று அழைக்கப்படும் போது imp_pipeline() ” செயல்பாடு, இது 1000 க்கு குறிப்பிடப்பட்ட வரம்பில் அதிகரிக்கப்பட்ட தரவை தானாகவே அங்கீகரிக்கிறது:
இது பயிற்சிக்கு சிறிது நேரம் எடுக்கும். அதற்கான இணைப்பு கூகுள் கோ மேலும் வழங்கப்படுகிறது.
முறை 2: தரவுத்தொகுப்பு நூலகத்தைப் பயன்படுத்துதல்
இந்த முறையில், 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தி பைப்லைனை செயல்படுத்துவதை நாங்கள் நிரூபிப்போம்:
படி 1: மின்மாற்றியை நிறுவவும்
மின்மாற்றி நூலகத்தை நிறுவ, பின்வரும் கட்டளையை வழங்கவும்:
!பிப் நிறுவும் மின்மாற்றி
படி 2: டேட்டாசெட் லைப்ரரியை நிறுவவும்
என ' தரவுத்தொகுப்புகள் ” நூலகத்தில் அனைத்து பொது தரவுத்தொகுப்புகளும் உள்ளன, பின்வரும் கட்டளையைப் பயன்படுத்தி அதை நிறுவலாம். நிறுவுவதன் மூலம் ' தரவுத்தொகுப்புகள் ” நூலகம், அதன் பெயரை வழங்குவதன் மூலம் எந்த தரவுத்தொகுப்பையும் நேரடியாக இறக்குமதி செய்யலாம்:
!பிப் நிறுவல் தரவுத்தொகுப்புகள்
படி 3: டேட்டாசெட் பைப்லைன்
தரவுத்தொகுப்பில் பைப்லைனை உருவாக்க, பின்வரும் குறியீட்டைப் பயன்படுத்தவும். KeyDataset என்பது பயனருக்கு விருப்பமான மதிப்புகளை மட்டுமே வெளியிடும் அம்சமாகும்:
Transformers.pipelines.pt_utils இலிருந்து KeyDataset ஐ இறக்குமதி செய்கிறதுமின்மாற்றிகள் இருந்து குழாய் இறக்குமதி
தரவுத்தொகுப்புகளிலிருந்து load_dataset ஐ இறக்குமதி செய்க
gen_pipeline = பைப்லைன்(மாதிரி = 'hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') gen_pipeline (KeyDataset(loaddataset, 'audio')) வெளியீடு:
அச்சு ('இப்போது வெளியீட்டை அச்சிடுகிறது')
அச்சு ('---------------')
அச்சு (வெளியீடு)
மேலே உள்ள குறியீட்டின் வெளியீடு கீழே கொடுக்கப்பட்டுள்ளது:
இந்த வழிகாட்டியிலிருந்து அவ்வளவுதான். அதற்கான இணைப்பு கூகுள் கோ என்பதும் இக்கட்டுரையில் குறிப்பிடப்பட்டுள்ளது
முடிவுரை
தரவுத்தொகுப்பில் பைப்லைன்களைப் பயன்படுத்த, பைப்லைன்() செயல்பாட்டைப் பயன்படுத்தி தரவுத்தொகுப்பில் மீண்டும் மீண்டும் செய்யலாம் அல்லது ' தரவுத்தொகுப்புகள் ” நூலகம். Hugging Face ஆனது, தேவைகளின் அடிப்படையில் பயன்படுத்தக்கூடிய தரவுத்தொகுப்புகள் மற்றும் மாதிரிகள் ஆகிய இரண்டிற்கும் GitHub களஞ்சிய இணைப்பை அதன் பயனர்களுக்கு வழங்குகிறது. இந்தக் கட்டுரை டிரான்ஸ்ஃபார்மர்களில் உள்ள தரவுத்தொகுப்பில் பைப்லைன்களைப் பயன்படுத்துவதற்கான விரிவான வழிகாட்டியை வழங்கியுள்ளது.