இயந்திர கற்றல் மாதிரிகளின் பொருந்தக்கூடிய தன்மை மற்றும் பயன்பாட்டினை தரவுகளில் சோதிக்கப்படுகிறது. சோதனைகளின் நம்பகத்தன்மை இந்த மாதிரிகள் பயன்படுத்தப்படும் தரவின் அளவு மற்றும் தரத்தைப் பொறுத்தது. 'உங்கள்' சோதனைக்கு ஏற்ற பெரிய தரவுத்தொகுப்பை உருவாக்குவது, பெறுவது மற்றும் சுத்தம் செய்வது என்பது ஒரு முழுமையான பணியாகும். இயற்கை மொழி செயலாக்கம் (என்.எல்.பி.) ” மெஷின் லேர்னிங் மாதிரி.
ஹக்கிங் ஃபேஸ் இதற்கு ஒரு நேர்த்தியான தீர்வை வழங்குகிறது, அதன் விதிவிலக்கான பெரிய தரவுத்தொகுப்பு நூலகத்தைத் தேர்வுசெய்து, உங்கள் தேவைகளுக்குப் பொருந்தக்கூடிய ஒன்றைக் கண்டறியலாம். சிறந்த தரவுத்தொகுப்பை எவ்வாறு கண்டறிவது மற்றும் உங்கள் மாதிரியை போதுமான அளவு சோதிக்க அதை எவ்வாறு தயாரிப்பது என்பதை இங்கே நாங்கள் காண்பிப்போம்.
ஹக்கிங் ஃபேஸ் டேட்டாசெட்களை எப்படி பயன்படுத்துவது?
'என்ற உதாரணத்தைப் பயன்படுத்தி ஹக்கிங் ஃபேஸ் டேட்டாசெட்களை எவ்வாறு பயன்படுத்துவது என்பதை நாங்கள் உங்களுக்குக் காண்பிப்போம். டைனிஸ்டோரிஸ் ”ஹக்கிங் ஃபேஸிலிருந்து டேட்டாசெட்.
உதாரணமாக
TinyStories டேட்டாசெட் ரயில் பிரிப்பில் 2 மில்லியனுக்கும் அதிகமான வரிசை தரவுகளைக் கொண்டுள்ளது மற்றும் இது ஹக்கிங் ஃபேஸ் பிளாட்பார்மில் 2 ஆயிரத்துக்கும் மேற்பட்ட பதிவிறக்கங்களைக் கொண்டுள்ளது. கீழே கொடுக்கப்பட்டுள்ள Google Colab இல் உள்ள குறியீட்டில் இதைப் பயன்படுத்துவோம்:
! பிப் நிறுவு மின்மாற்றிகள்
! பிப் நிறுவு தரவுத்தொகுப்புகள்
தரவுத்தொகுப்புகளிலிருந்து load_dataset ஐ இறக்குமதி செய்க
தரவுத்தொகுப்பு = load_dataset ( 'ரோனெல்டன்/டைனிஸ்டோரிஸ்' )
TinyStories_Story = 3
example_string = தரவுத்தொகுப்பு [ 'தொடர்வண்டி' ] [ சிறுகதைகள்_கதை ] [ 'உரை' ]
அச்சு ( உதாரணம்_சரம் )
இந்த குறியீட்டில், கீழே குறிப்பிடப்பட்டுள்ள படிகளைக் கவனியுங்கள்:
படி 01 : முதல் படி ' நிறுவல் 'மின்மாற்றிகள் தரவுத்தொகுப்புகள்.
படி 02 : அடுத்து, தேவையான தரவுத்தொகுப்பை இறக்குமதி செய்யவும், ' டைனிஸ்டோரிஸ் ”உங்கள் திட்டத்தில்.
படி 03 : அடுத்து, தேர்ந்தெடுக்கப்பட்ட தரவுத்தொகுப்பை 'ஐப் பயன்படுத்தி ஏற்றவும் load_dataset() ” செயல்பாடு.
படி 04 : இப்போது, TinyStories தரவுத்தொகுப்பிலிருந்து நாம் விரும்பும் கதை எண்ணைக் குறிப்பிடுகிறோம். எங்கள் குறியீடு எடுத்துக்காட்டில் 03 என்ற எண்ணைக் குறிப்பிட்டுள்ளோம்.
படி 05 : கடைசியாக, வெளியீட்டைக் காட்ட “print()” முறையைப் பயன்படுத்துவோம்.
வெளியீடு
குறிப்பு: குறியீடு மற்றும் வெளியீட்டை நேரடியாக எங்கள் Google Colabல் பார்க்கலாம் .
முடிவுரை
' அணைத்துக்கொள்ளும் முகம் தரவுத்தொகுப்புகள் ” பயனர்கள் தங்கள் ஆன்லைன் லைப்ரரியில் இருந்து பெரிய தரவுத்தொகுப்புகளை நேரடியாக இறக்குமதி செய்யும் போது, அவர்களின் இயந்திர கற்றல் மாதிரிகளை சோதிப்பதை நம்பமுடியாத அளவிற்கு திறமையாக ஆக்குகிறது. இதன் விளைவாக, NLP அல்காரிதம்களின் பயன்பாடு எளிதாகவும் வேகமாகவும் மாறியுள்ளது, ஏனெனில் புரோகிராமர்கள் தங்கள் திட்டங்களை தரம் மற்றும் அளவு ஆகிய இரண்டையும் கொண்ட தரவுத்தொகுப்பில் சோதிக்க முடியும்.