ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

இயற்கை மொழி செயலாக்கம் (NLP) தரவுகளின் மூல வடிவத்தில் செயல்படுகிறது. இயந்திர கற்றல் மாதிரிகள் சிக்கலான தரவுகளில் பயிற்சியளிக்கப்படுகின்றன, ஆனால் அவை மூலத் தரவைப் புரிந்து கொள்ள முடியாது. இந்தத் தரவின் மூல வடிவம் அதனுடன் தொடர்புடைய சில எண் மதிப்பைக் கொண்டிருக்க வேண்டும். இந்த மதிப்பு தரவுகளில் வார்த்தையின் மதிப்பு மற்றும் முக்கியத்துவத்தை தீர்மானிக்கிறது மற்றும் இந்த அடிப்படையில், கணக்கீடுகள் செய்யப்படுகின்றன.

இந்தக் கட்டுரையானது, ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களில் டோக்கனைசர்களைப் பயன்படுத்துவது பற்றிய படிப்படியான வழிகாட்டியை வழங்குகிறது.

டோக்கனைசர் என்றால் என்ன?

டோக்கனைசர் என்பது NLP இன் முக்கியமான கருத்தாகும், மேலும் அதன் முக்கிய நோக்கம் மூல உரையை எண்களாக மொழிபெயர்ப்பதாகும். இந்த நோக்கத்திற்காக பல்வேறு நுட்பங்கள் மற்றும் வழிமுறைகள் உள்ளன. இருப்பினும், ஒவ்வொரு நுட்பமும் ஒரு குறிப்பிட்ட நோக்கத்திற்காக உதவுகிறது என்பது கவனிக்கத்தக்கது.
ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

டோக்கனைசர் நூலகத்தைப் பயன்படுத்துவதற்கும் அதிலிருந்து செயல்பாடுகளை இறக்குமதி செய்வதற்கும் முன் முதலில் நிறுவப்பட வேண்டும். அதன் பிறகு, AutoTokenizer ஐப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிக்கவும், பின்னர் டோக்கனைசேஷன் செய்வதற்கு உள்ளீட்டை வழங்கவும்.

ஹக்கிங் ஃபேஸ் மூன்று முக்கிய வகை டோக்கனைசேஷன்களை அறிமுகப்படுத்துகிறது, அவை கீழே கொடுக்கப்பட்டுள்ளன:

வார்த்தை அடிப்படையிலான டோக்கனைசர்
எழுத்து அடிப்படையிலான டோக்கனைசர்
சப்வேர்ட் அடிப்படையிலான டோக்கனைசர்

டிரான்ஸ்ஃபார்மர்களில் டோக்கனைசர்களைப் பயன்படுத்துவதற்கான படிப்படியான வழிகாட்டி இங்கே:

படி 1: மின்மாற்றிகளை நிறுவவும்
மின்மாற்றிகளை நிறுவ, பின்வரும் கட்டளையில் pip கட்டளையைப் பயன்படுத்தவும்:

! பிப் நிறுவு மின்மாற்றிகள்

படி 2: வகுப்புகளை இறக்குமதி செய்யவும்
மின்மாற்றிகளில் இருந்து, இறக்குமதி குழாய் , மற்றும் AutoModelForSequenceClassification வகைப்பாடு செய்ய நூலகம்:

மின்மாற்றிகளில் இருந்து பைப்லைனை இறக்குமதி செய்கிறது, AutoModelForSequenceClassification

படி 3: மாதிரியை இறக்குமதி செய்யவும்
' AutoModelForSequenceClassification ” என்பது டோக்கனைசேஷனுக்கான தானியங்கு வகுப்பைச் சேர்ந்த ஒரு முறையாகும். தி from_pretrained() மாதிரி வகையின் அடிப்படையில் சரியான மாதிரி வகுப்பைத் திரும்பப் பெற முறை பயன்படுத்தப்படுகிறது.

இங்கே நாங்கள் மாதிரியின் பெயரை வழங்கியுள்ளோம் ' மாதிரி பெயர் ” மாறி:

மாதிரி பெயர் = 'distilbert-base-uncased-finetuned-sst-2-english'
முன்_பயிற்சி மாதிரி =AutoModelForSequenceClassification.from_pretrained ( மாதிரி பெயர் )

படி 4: ஆட்டோ டோக்கனைசரை இறக்குமதி செய்யவும்
'' ஐ கடந்து டோக்கன்களை உருவாக்க பின்வரும் கட்டளையை வழங்கவும் மாதிரி பெயர் ” வாதமாக:

மின்மாற்றிகளில் இருந்து ஆட்டோ டோக்கனைசர் இறக்குமதி செய்யப்படுகிறது

உருவாக்கப்பட்ட டோக்கன் =AutoTokenizer.from_pretrained ( மாதிரி பெயர் )

படி 5: டோக்கனை உருவாக்கவும்
இப்போது, ஒரு வாக்கியத்தில் டோக்கன்களை உருவாக்குவோம் 'நான் நல்ல உணவை விரும்புகிறேன்' பயன்படுத்துவதன் மூலம் ' உருவாக்கப்பட்ட டோக்கன் ” மாறி:

சொற்கள் =உருவாக்கம் ( 'எனக்கு நல்ல உணவு பிடிக்கும்' )
அச்சு ( சொற்கள் )

வெளியீடு பின்வருமாறு வழங்கப்படுகிறது:

மேலே உள்ள குறியீடு கூகுள் கோ இங்கே கொடுக்கப்பட்டுள்ளது.

முடிவுரை

ஹக்கிங் ஃபேஸில் டோக்கனைசர்களைப் பயன்படுத்த, பைப் கட்டளையைப் பயன்படுத்தி நூலகத்தை நிறுவவும், ஆட்டோ டோக்கனைசரைப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிக்கவும், பின்னர் டோக்கனைசேஷனைச் செய்வதற்கான உள்ளீட்டை வழங்கவும். டோக்கனைசேஷனைப் பயன்படுத்துவதன் மூலம், வாக்கியத்தின் பொருளைத் தக்கவைத்துக்கொள்ள வரிசைப்படுத்தப்பட்ட சொற்களுக்கு எடைகளை ஒதுக்குங்கள். இந்த மதிப்பெண் பகுப்பாய்விற்கான அவர்களின் மதிப்பையும் தீர்மானிக்கிறது. இந்தக் கட்டுரையானது கட்டிப்பிடிக்கும் முக மின்மாற்றிகளில் டோக்கனைசர்களை எவ்வாறு பயன்படுத்துவது என்பது பற்றிய விரிவான வழிகாட்டியாகும்.

ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

டோக்கனைசர் என்றால் என்ன?

ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

முடிவுரை

வகை

பிரபல பதிவுகள்

C++ To_String

விண்டோஸுக்கான கிட் பாஷில் மாற்றுப்பெயர்களை அமைப்பது எப்படி?

எடுத்துக்காட்டுகளுடன் C# இல் பதிவு வகைகளுக்கான அறிமுகம்

ஈமாக்ஸ் க்ளோஸ் பஃபர்

ராஸ்பெர்ரி பையில் வாட்ச்டாக்கை எவ்வாறு அமைப்பது (தானாக மறுதொடக்கம் செய்யாத ராஸ்பெர்ரி பை)

ஐபோனில் ஆட்டோ கேப்ஸை எவ்வாறு முடக்குவது

டிஸ்கார்டில் சவுண்ட்போர்டுக்கான ஒலிகளை எவ்வாறு நிர்வகிப்பது

உபுண்டு 22.04 கணினியை கண்காணிக்க காங்கியை எவ்வாறு நிறுவுவது மற்றும் பயன்படுத்துவது

Windows PowerShell ஐ எவ்வாறு நிறுவுவது (படிப்படியாக வழிகாட்டி)

எந்த HP மடிக்கணினியில் Bang & Olufsen உள்ளது

ராப்லாக்ஸில் பிழைக் குறியீடு 279 என்றால் என்ன?

LangChain இல் கட்டமைக்கப்பட்ட வெளியீட்டு பாகுபடுத்தியை எவ்வாறு பயன்படுத்துவது?

பூட்ஸ்டார்ப்பில் ஒரு குறிப்பிட்ட பகுதிக்கான கேட்டர் இடத்தை எவ்வாறு அகற்றுவது

சி++ இல் டைனமிக் மெமரி ஒதுக்கீடு

Debian 12 இல் NVIDIA CUDA 12 ஐ எவ்வாறு நிறுவுவது

ஒரு படத்தின் கீழ் ஒரு தலைப்பை எழுதுவது எப்படி? - CSS

லினக்ஸ் பாஷ் மற்றும் பைத்தானில் எக்ஸ்எம்எல் பிரட்டி பிரிண்ட்

Roblox இல் Bighead மற்றும் Bighead தொடர் என்றால் என்ன

COBOL என்றால் என்ன

CSS உடன் பல பின்னணி படங்களை எவ்வாறு பயன்படுத்துவது