இந்தக் கட்டுரையானது, ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களில் டோக்கனைசர்களைப் பயன்படுத்துவது பற்றிய படிப்படியான வழிகாட்டியை வழங்குகிறது.
டோக்கனைசர் என்றால் என்ன?
டோக்கனைசர் என்பது NLP இன் முக்கியமான கருத்தாகும், மேலும் அதன் முக்கிய நோக்கம் மூல உரையை எண்களாக மொழிபெயர்ப்பதாகும். இந்த நோக்கத்திற்காக பல்வேறு நுட்பங்கள் மற்றும் வழிமுறைகள் உள்ளன. இருப்பினும், ஒவ்வொரு நுட்பமும் ஒரு குறிப்பிட்ட நோக்கத்திற்காக உதவுகிறது என்பது கவனிக்கத்தக்கது.
ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?
ஹக்கிங் ஃபேஸ் டிரான்ஸ்பார்மர்களில் டோக்கனைசர்களை எப்படி பயன்படுத்துவது?
டோக்கனைசர் நூலகத்தைப் பயன்படுத்துவதற்கும் அதிலிருந்து செயல்பாடுகளை இறக்குமதி செய்வதற்கும் முன் முதலில் நிறுவப்பட வேண்டும். அதன் பிறகு, AutoTokenizer ஐப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிக்கவும், பின்னர் டோக்கனைசேஷன் செய்வதற்கு உள்ளீட்டை வழங்கவும்.
ஹக்கிங் ஃபேஸ் மூன்று முக்கிய வகை டோக்கனைசேஷன்களை அறிமுகப்படுத்துகிறது, அவை கீழே கொடுக்கப்பட்டுள்ளன:
- வார்த்தை அடிப்படையிலான டோக்கனைசர்
- எழுத்து அடிப்படையிலான டோக்கனைசர்
- சப்வேர்ட் அடிப்படையிலான டோக்கனைசர்
டிரான்ஸ்ஃபார்மர்களில் டோக்கனைசர்களைப் பயன்படுத்துவதற்கான படிப்படியான வழிகாட்டி இங்கே:
படி 1: மின்மாற்றிகளை நிறுவவும்
மின்மாற்றிகளை நிறுவ, பின்வரும் கட்டளையில் pip கட்டளையைப் பயன்படுத்தவும்:
படி 2: வகுப்புகளை இறக்குமதி செய்யவும்
மின்மாற்றிகளில் இருந்து, இறக்குமதி குழாய் , மற்றும் AutoModelForSequenceClassification வகைப்பாடு செய்ய நூலகம்:
படி 3: மாதிரியை இறக்குமதி செய்யவும்
' AutoModelForSequenceClassification ” என்பது டோக்கனைசேஷனுக்கான தானியங்கு வகுப்பைச் சேர்ந்த ஒரு முறையாகும். தி from_pretrained() மாதிரி வகையின் அடிப்படையில் சரியான மாதிரி வகுப்பைத் திரும்பப் பெற முறை பயன்படுத்தப்படுகிறது.
இங்கே நாங்கள் மாதிரியின் பெயரை வழங்கியுள்ளோம் ' மாதிரி பெயர் ” மாறி:
மாதிரி பெயர் = 'distilbert-base-uncased-finetuned-sst-2-english'முன்_பயிற்சி மாதிரி =AutoModelForSequenceClassification.from_pretrained ( மாதிரி பெயர் )
படி 4: ஆட்டோ டோக்கனைசரை இறக்குமதி செய்யவும்
'' ஐ கடந்து டோக்கன்களை உருவாக்க பின்வரும் கட்டளையை வழங்கவும் மாதிரி பெயர் ” வாதமாக:
உருவாக்கப்பட்ட டோக்கன் =AutoTokenizer.from_pretrained ( மாதிரி பெயர் )
படி 5: டோக்கனை உருவாக்கவும்
இப்போது, ஒரு வாக்கியத்தில் டோக்கன்களை உருவாக்குவோம் 'நான் நல்ல உணவை விரும்புகிறேன்' பயன்படுத்துவதன் மூலம் ' உருவாக்கப்பட்ட டோக்கன் ” மாறி:
அச்சு ( சொற்கள் )
வெளியீடு பின்வருமாறு வழங்கப்படுகிறது:
மேலே உள்ள குறியீடு கூகுள் கோ இங்கே கொடுக்கப்பட்டுள்ளது.
முடிவுரை
ஹக்கிங் ஃபேஸில் டோக்கனைசர்களைப் பயன்படுத்த, பைப் கட்டளையைப் பயன்படுத்தி நூலகத்தை நிறுவவும், ஆட்டோ டோக்கனைசரைப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிக்கவும், பின்னர் டோக்கனைசேஷனைச் செய்வதற்கான உள்ளீட்டை வழங்கவும். டோக்கனைசேஷனைப் பயன்படுத்துவதன் மூலம், வாக்கியத்தின் பொருளைத் தக்கவைத்துக்கொள்ள வரிசைப்படுத்தப்பட்ட சொற்களுக்கு எடைகளை ஒதுக்குங்கள். இந்த மதிப்பெண் பகுப்பாய்விற்கான அவர்களின் மதிப்பையும் தீர்மானிக்கிறது. இந்தக் கட்டுரையானது கட்டிப்பிடிக்கும் முக மின்மாற்றிகளில் டோக்கனைசர்களை எவ்வாறு பயன்படுத்துவது என்பது பற்றிய விரிவான வழிகாட்டியாகும்.