டிரான்ஸ்ஃபார்மர்களில் டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

பைப்லைன்() செயல்பாடு டிரான்ஸ்ஃபார்மர் லைப்ரரியின் ஒருங்கிணைந்த பகுதியாகும். இது ஒரு அனுமானப் பணி, மாதிரிகள், டோக்கனைசேஷன் பொறிமுறை போன்றவற்றை வரையறுக்கக்கூடிய பல உள்ளீடுகளை எடுக்கும். பைப்லைன்() செயல்பாடு ஒன்று அல்லது பல உரைகளில் NLP பணிகளைச் செய்ய முக்கியமாகப் பயன்படுத்தப்படுகிறது. இது மனிதனால் படிக்கக்கூடிய வெளியீட்டையும் அதிகபட்ச துல்லியத்துடன் துல்லியமான கணிப்பையும் உருவாக்க மாதிரியின் அடிப்படையில் உள்ளீடு மற்றும் பிந்தைய செயலாக்கத்தில் முன் செயலாக்கத்தை செய்கிறது.

இந்த கட்டுரை பின்வரும் அம்சங்களை உள்ளடக்கியது:

ஹக்கிங் ஃபேஸ் டேட்டாசெட்ஸ் லைப்ரரி என்றால் என்ன?
கட்டிப்பிடிக்கும் முகத்தில் உள்ள டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்றால் என்ன?

ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்பது பல பொது தரவுத்தொகுப்புகளைக் கொண்ட ஏபிஐ ஆகும், மேலும் அவற்றைப் பதிவிறக்க எளிதான வழியையும் வழங்குகிறது. இந்த நூலகத்தை '' பயன்படுத்தி பயன்பாட்டில் இறக்குமதி செய்து நிறுவலாம் பிப் ” கட்டளை. ஹக்கிங் ஃபேஸ் லைப்ரரியின் தரவுத்தொகுப்புகளைப் பதிவிறக்கி நிறுவுவதற்கான நடைமுறை விளக்கத்திற்கு, இதைப் பார்வையிடவும் Google Colab இணைப்பு. இலிருந்து பல தரவுத்தொகுப்புகளைப் பதிவிறக்கலாம் அணைத்துக்கொள்ளும் முகம் தரவுத்தொகுப்பு மையம்.

பைப்லைன்() செயல்பாட்டின் செயல்பாட்டைப் பற்றி இந்தக் கட்டுரையைக் குறிப்பிடுவதன் மூலம் மேலும் அறியவும் ' மின்மாற்றிகளில் பைப்லைன்() செயல்பாட்டை எவ்வாறு பயன்படுத்துவது? ”.

கட்டிப்பிடிக்கும் முகத்தில் உள்ள டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

ஹக்கிங் ஃபேஸ் ஒரு வரிக் குறியீட்டைப் பயன்படுத்தி எளிதாக நிறுவக்கூடிய பல்வேறு பொது தரவுத்தொகுப்புகளை வழங்குகிறது. இந்தக் கட்டுரையில், இந்தத் தரவுத்தொகுப்புகளுக்கு பைப்லைன்களைப் பயன்படுத்துவதற்கான நடைமுறை விளக்கத்தைக் காண்போம். தரவுத்தொகுப்பில் பைப்லைன்களை செயல்படுத்த இரண்டு வழிகள் உள்ளன.

முறை 1: மறு செய்கை முறையைப் பயன்படுத்துதல்
முறை 2: தரவுத்தொகுப்பு நூலகத்தைப் பயன்படுத்துதல்

முறை 1: மறு செய்கை முறையைப் பயன்படுத்துதல்

பைப்லைன்() செயல்பாட்டை தரவுத்தொகுப்பு மற்றும் மாதிரியிலும் மீண்டும் செய்ய முடியும். இந்த நோக்கத்திற்காக, கீழே குறிப்பிடப்பட்டுள்ள படிகளைப் பின்பற்றவும்:

படி 1: டிரான்ஸ்பார்மர் லைப்ரரியை நிறுவவும்

மின்மாற்றி நூலகத்தை நிறுவ, பின்வரும் கட்டளையை வழங்கவும்:

!பிப் நிறுவும் மின்மாற்றி

படி 2: குழாய்களை இறக்குமதி செய்யவும்

டிரான்ஸ்பார்மர் லைப்ரரியில் இருந்து பைப்லைனை இறக்குமதி செய்யலாம். இந்த நோக்கத்திற்காக, பின்வரும் கட்டளையை வழங்கவும்:

மின்மாற்றிகள் இருந்து குழாய் இறக்குமதி

படி 3: பைப்லைனை செயல்படுத்தவும்

இங்கே, பைப்லைன் () செயல்பாடு மாதிரியில் செயல்படுத்தப்படுகிறது ' gpt2 ”. நீங்கள் மாதிரிகளை பதிவிறக்கம் செய்யலாம் கட்டிப்பிடிக்கும் முகம் மாதிரி மையம்:

def imp_pipeline():
வரம்பில் உள்ள x க்கு (1000):
விளைச்சல் f'செயல்படுத்தல் தரவுத்தொகுப்பு{x}'

generate_pipeline= பைப்லைன்(மாதிரி='gpt2', device=0)
ஜென்_சார்= 0
ஜெனரேட்_பைப்லைனில் (imp_pipeline()) வெளியீட்டிற்கு:
gen_char += len(வெளியீடு[0]['generated_text'])

இந்த குறியீட்டில், ' உருவாக்க_குழாய் ” என்பது மாதிரியுடன் பைப்லைன்() செயல்பாட்டைக் கொண்டிருக்கும் ஒரு மாறி gpt2 ”. இது 'என்று அழைக்கப்படும் போது imp_pipeline() ” செயல்பாடு, இது 1000 க்கு குறிப்பிடப்பட்ட வரம்பில் அதிகரிக்கப்பட்ட தரவை தானாகவே அங்கீகரிக்கிறது:

இது பயிற்சிக்கு சிறிது நேரம் எடுக்கும். அதற்கான இணைப்பு கூகுள் கோ மேலும் வழங்கப்படுகிறது.

முறை 2: தரவுத்தொகுப்பு நூலகத்தைப் பயன்படுத்துதல்

இந்த முறையில், 'தரவுத்தொகுப்புகள்' நூலகத்தைப் பயன்படுத்தி பைப்லைனை செயல்படுத்துவதை நாங்கள் நிரூபிப்போம்:

படி 1: மின்மாற்றியை நிறுவவும்

மின்மாற்றி நூலகத்தை நிறுவ, பின்வரும் கட்டளையை வழங்கவும்:

!பிப் நிறுவும் மின்மாற்றி

படி 2: டேட்டாசெட் லைப்ரரியை நிறுவவும்

என ' தரவுத்தொகுப்புகள் ” நூலகத்தில் அனைத்து பொது தரவுத்தொகுப்புகளும் உள்ளன, பின்வரும் கட்டளையைப் பயன்படுத்தி அதை நிறுவலாம். நிறுவுவதன் மூலம் ' தரவுத்தொகுப்புகள் ” நூலகம், அதன் பெயரை வழங்குவதன் மூலம் எந்த தரவுத்தொகுப்பையும் நேரடியாக இறக்குமதி செய்யலாம்:

!பிப் நிறுவல் தரவுத்தொகுப்புகள்

படி 3: டேட்டாசெட் பைப்லைன்

தரவுத்தொகுப்பில் பைப்லைனை உருவாக்க, பின்வரும் குறியீட்டைப் பயன்படுத்தவும். KeyDataset என்பது பயனருக்கு விருப்பமான மதிப்புகளை மட்டுமே வெளியிடும் அம்சமாகும்:

Transformers.pipelines.pt_utils இலிருந்து KeyDataset ஐ இறக்குமதி செய்கிறது
மின்மாற்றிகள் இருந்து குழாய் இறக்குமதி
தரவுத்தொகுப்புகளிலிருந்து load_dataset ஐ இறக்குமதி செய்க
gen_pipeline = பைப்லைன்(மாதிரி = 'hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') gen_pipeline (KeyDataset(loaddataset, 'audio')) வெளியீடு:
அச்சு ('இப்போது வெளியீட்டை அச்சிடுகிறது')
அச்சு ('---------------')
அச்சு (வெளியீடு)

மேலே உள்ள குறியீட்டின் வெளியீடு கீழே கொடுக்கப்பட்டுள்ளது:

இந்த வழிகாட்டியிலிருந்து அவ்வளவுதான். அதற்கான இணைப்பு கூகுள் கோ என்பதும் இக்கட்டுரையில் குறிப்பிடப்பட்டுள்ளது

முடிவுரை

தரவுத்தொகுப்பில் பைப்லைன்களைப் பயன்படுத்த, பைப்லைன்() செயல்பாட்டைப் பயன்படுத்தி தரவுத்தொகுப்பில் மீண்டும் மீண்டும் செய்யலாம் அல்லது ' தரவுத்தொகுப்புகள் ” நூலகம். Hugging Face ஆனது, தேவைகளின் அடிப்படையில் பயன்படுத்தக்கூடிய தரவுத்தொகுப்புகள் மற்றும் மாதிரிகள் ஆகிய இரண்டிற்கும் GitHub களஞ்சிய இணைப்பை அதன் பயனர்களுக்கு வழங்குகிறது. இந்தக் கட்டுரை டிரான்ஸ்ஃபார்மர்களில் உள்ள தரவுத்தொகுப்பில் பைப்லைன்களைப் பயன்படுத்துவதற்கான விரிவான வழிகாட்டியை வழங்கியுள்ளது.

டிரான்ஸ்ஃபார்மர்களில் டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

ஹக்கிங் ஃபேஸ் டேட்டாசெட் லைப்ரரி என்றால் என்ன?

கட்டிப்பிடிக்கும் முகத்தில் உள்ள டேட்டாசெட்டில் பைப்லைன்களை எவ்வாறு பயன்படுத்துவது?

முறை 1: மறு செய்கை முறையைப் பயன்படுத்துதல்

படி 1: டிரான்ஸ்பார்மர் லைப்ரரியை நிறுவவும்

படி 2: குழாய்களை இறக்குமதி செய்யவும்

படி 3: பைப்லைனை செயல்படுத்தவும்

முறை 2: தரவுத்தொகுப்பு நூலகத்தைப் பயன்படுத்துதல்

படி 1: மின்மாற்றியை நிறுவவும்

படி 2: டேட்டாசெட் லைப்ரரியை நிறுவவும்

படி 3: டேட்டாசெட் பைப்லைன்

முடிவுரை

வகை

பிரபல பதிவுகள்

விண்டோஸ் 11 இல் புட்டியை எவ்வாறு நிறுவுவது

டோக்கர் குறிச்சொற்களைப் பயன்படுத்தி படங்களுக்கு பதிப்புக் கட்டுப்பாட்டைச் சேர்ப்பது எப்படி?

முதலில் முழு களஞ்சியத்தையும் சரிபார்க்காமல், ஒரு ஸ்பேர்ஸ் செக்அவுட் செய்ய முடியுமா?

MariaDB மற்றும் MySQL இடையே உள்ள வேறுபாடு என்ன?

டிஸ்கார்டில் குரல் செய்தி போல் தோன்றும் எனது ஆடியோ கோப்பை நான் பதிவேற்றலாமா?

விண்டோஸ் டாஸ்க் மேனேஜரை எவ்வாறு பயன்படுத்துவது

கொள்கலன்களை நிறுத்தாமல் டோக்கரை மீண்டும் தொடங்குவது எப்படி?

அன்சிபில் குறிச்சொற்களை எவ்வாறு பயன்படுத்துவது

அட்டவணை இணைப்பு: அட்டவணையில் தரவு ஒருங்கிணைப்பு மாஸ்டரிங்

MySQL | கிராஸ் சேர்

லினக்ஸில் ஒரு கோப்பகத்தை எவ்வாறு கண்டுபிடிப்பது

மல்டிஸ்டேஜ் டோக்கர் உருவாக்கத்திற்கான தொடக்க வழிகாட்டி

Linux Mint 21 இல் Microsoft Edge ஐ எவ்வாறு நிறுவுவது

C++ இல் Size_t

ECS என்பது Docker போன்றதா?

ஃபெடோரா லினக்ஸில் பைத்தானுக்கு பிப்பை எவ்வாறு நிறுவுவது மற்றும் பயன்படுத்துவது

விண்டோஸ் 10 இல் எமோஜிகளை எவ்வாறு பயன்படுத்துவது

உபுண்டு 24.04 இல் NPM ஐ நிறுவவும்

Vim ஸ்வாப் கோப்புகளை நீக்குவது எப்படி

CSVக்கு Postgres ஏற்றுமதி