ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

Hakkin Hpes Tiransparmarkalil Tokkanaicarkalai Eppati Payanpatuttuvatu



இயற்கை மொழி செயலாக்கம் (NLP) தரவுகளின் மூல வடிவத்தில் செயல்படுகிறது. இயந்திர கற்றல் மாதிரிகள் சிக்கலான தரவுகளில் பயிற்சியளிக்கப்படுகின்றன, ஆனால் அவை மூலத் தரவைப் புரிந்து கொள்ள முடியாது. இந்தத் தரவின் மூல வடிவம் அதனுடன் தொடர்புடைய சில எண் மதிப்பைக் கொண்டிருக்க வேண்டும். இந்த மதிப்பு தரவுகளில் வார்த்தையின் மதிப்பு மற்றும் முக்கியத்துவத்தை தீர்மானிக்கிறது மற்றும் இந்த அடிப்படையில், கணக்கீடுகள் செய்யப்படுகின்றன.

இந்தக் கட்டுரையானது, ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களில் டோக்கனைசர்களைப் பயன்படுத்துவது பற்றிய படிப்படியான வழிகாட்டியை வழங்குகிறது.

டோக்கனைசர் என்றால் என்ன?

டோக்கனைசர் என்பது NLP இன் முக்கியமான கருத்தாகும், மேலும் அதன் முக்கிய நோக்கம் மூல உரையை எண்களாக மொழிபெயர்ப்பதாகும். இந்த நோக்கத்திற்காக பல்வேறு நுட்பங்கள் மற்றும் வழிமுறைகள் உள்ளன. இருப்பினும், ஒவ்வொரு நுட்பமும் ஒரு குறிப்பிட்ட நோக்கத்திற்காக உதவுகிறது என்பது கவனிக்கத்தக்கது.
ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?







ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?

டோக்கனைசர் நூலகத்தைப் பயன்படுத்துவதற்கும் அதிலிருந்து செயல்பாடுகளை இறக்குமதி செய்வதற்கும் முன் முதலில் நிறுவப்பட வேண்டும். அதன் பிறகு, AutoTokenizer ஐப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிக்கவும், பின்னர் டோக்கனைசேஷன் செய்வதற்கு உள்ளீட்டை வழங்கவும்.



ஹக்கிங் ஃபேஸ் மூன்று முக்கிய வகை டோக்கனைசேஷன்களை அறிமுகப்படுத்துகிறது, அவை கீழே கொடுக்கப்பட்டுள்ளன:



  • வார்த்தை அடிப்படையிலான டோக்கனைசர்
  • எழுத்து அடிப்படையிலான டோக்கனைசர்
  • சப்வேர்ட் அடிப்படையிலான டோக்கனைசர்

டிரான்ஸ்ஃபார்மர்களில் டோக்கனைசர்களைப் பயன்படுத்துவதற்கான படிப்படியான வழிகாட்டி இங்கே:





படி 1: மின்மாற்றிகளை நிறுவவும்
மின்மாற்றிகளை நிறுவ, பின்வரும் கட்டளையில் pip கட்டளையைப் பயன்படுத்தவும்:

! பிப் நிறுவு மின்மாற்றிகள்



படி 2: வகுப்புகளை இறக்குமதி செய்யவும்
மின்மாற்றிகளில் இருந்து, இறக்குமதி குழாய் , மற்றும் AutoModelForSequenceClassification வகைப்பாடு செய்ய நூலகம்:

மின்மாற்றிகளில் இருந்து பைப்லைனை இறக்குமதி செய்கிறது, AutoModelForSequenceClassification

படி 3: மாதிரியை இறக்குமதி செய்யவும்
' AutoModelForSequenceClassification ” என்பது டோக்கனைசேஷனுக்கான தானியங்கு வகுப்பைச் சேர்ந்த ஒரு முறையாகும். தி from_pretrained() மாதிரி வகையின் அடிப்படையில் சரியான மாதிரி வகுப்பைத் திரும்பப் பெற முறை பயன்படுத்தப்படுகிறது.

இங்கே நாங்கள் மாதிரியின் பெயரை வழங்கியுள்ளோம் ' மாதிரி பெயர் ” மாறி:

மாதிரி பெயர் = 'distilbert-base-uncased-finetuned-sst-2-english'
முன்_பயிற்சி மாதிரி =AutoModelForSequenceClassification.from_pretrained ( மாதிரி பெயர் )

படி 4: ஆட்டோ டோக்கனைசரை இறக்குமதி செய்யவும்
'' ஐ கடந்து டோக்கன்களை உருவாக்க பின்வரும் கட்டளையை வழங்கவும் மாதிரி பெயர் ” வாதமாக:

மின்மாற்றிகளில் இருந்து ஆட்டோ டோக்கனைசர் இறக்குமதி செய்யப்படுகிறது

உருவாக்கப்பட்ட டோக்கன் =AutoTokenizer.from_pretrained ( மாதிரி பெயர் )

படி 5: டோக்கனை உருவாக்கவும்
இப்போது, ​​ஒரு வாக்கியத்தில் டோக்கன்களை உருவாக்குவோம் 'நான் நல்ல உணவை விரும்புகிறேன்' பயன்படுத்துவதன் மூலம் ' உருவாக்கப்பட்ட டோக்கன் ” மாறி:

சொற்கள் =உருவாக்கம் ( 'எனக்கு நல்ல உணவு பிடிக்கும்' )
அச்சு ( சொற்கள் )

வெளியீடு பின்வருமாறு வழங்கப்படுகிறது:

மேலே உள்ள குறியீடு கூகுள் கோ இங்கே கொடுக்கப்பட்டுள்ளது.

முடிவுரை

ஹக்கிங் ஃபேஸில் டோக்கனைசர்களைப் பயன்படுத்த, பைப் கட்டளையைப் பயன்படுத்தி நூலகத்தை நிறுவவும், ஆட்டோ டோக்கனைசரைப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிக்கவும், பின்னர் டோக்கனைசேஷனைச் செய்வதற்கான உள்ளீட்டை வழங்கவும். டோக்கனைசேஷனைப் பயன்படுத்துவதன் மூலம், வாக்கியத்தின் பொருளைத் தக்கவைத்துக்கொள்ள வரிசைப்படுத்தப்பட்ட சொற்களுக்கு எடைகளை ஒதுக்குங்கள். இந்த மதிப்பெண் பகுப்பாய்விற்கான அவர்களின் மதிப்பையும் தீர்மானிக்கிறது. இந்தக் கட்டுரையானது கட்டிப்பிடிக்கும் முக மின்மாற்றிகளில் டோக்கனைசர்களை எவ்வாறு பயன்படுத்துவது என்பது பற்றிய விரிவான வழிகாட்டியாகும்.