ஹக்கிங் ஃபேஸ் டேட்டாசெட்களை எப்படி பயன்படுத்துவது

Hakkin Hpes Tettacetkalai Eppati Payanpatuttuvatu



இயந்திர கற்றல் மாதிரிகளின் பொருந்தக்கூடிய தன்மை மற்றும் பயன்பாட்டினை தரவுகளில் சோதிக்கப்படுகிறது. சோதனைகளின் நம்பகத்தன்மை இந்த மாதிரிகள் பயன்படுத்தப்படும் தரவின் அளவு மற்றும் தரத்தைப் பொறுத்தது. 'உங்கள்' சோதனைக்கு ஏற்ற பெரிய தரவுத்தொகுப்பை உருவாக்குவது, பெறுவது மற்றும் சுத்தம் செய்வது என்பது ஒரு முழுமையான பணியாகும். இயற்கை மொழி செயலாக்கம் (என்.எல்.பி.) ” மெஷின் லேர்னிங் மாதிரி.

ஹக்கிங் ஃபேஸ் இதற்கு ஒரு நேர்த்தியான தீர்வை வழங்குகிறது, அதன் விதிவிலக்கான பெரிய தரவுத்தொகுப்பு நூலகத்தைத் தேர்வுசெய்து, உங்கள் தேவைகளுக்குப் பொருந்தக்கூடிய ஒன்றைக் கண்டறியலாம். சிறந்த தரவுத்தொகுப்பை எவ்வாறு கண்டறிவது மற்றும் உங்கள் மாதிரியை போதுமான அளவு சோதிக்க அதை எவ்வாறு தயாரிப்பது என்பதை இங்கே நாங்கள் காண்பிப்போம்.







ஹக்கிங் ஃபேஸ் டேட்டாசெட்களை எப்படி பயன்படுத்துவது?

'என்ற உதாரணத்தைப் பயன்படுத்தி ஹக்கிங் ஃபேஸ் டேட்டாசெட்களை எவ்வாறு பயன்படுத்துவது என்பதை நாங்கள் உங்களுக்குக் காண்பிப்போம். டைனிஸ்டோரிஸ் ”ஹக்கிங் ஃபேஸிலிருந்து டேட்டாசெட்.



உதாரணமாக

TinyStories டேட்டாசெட் ரயில் பிரிப்பில் 2 மில்லியனுக்கும் அதிகமான வரிசை தரவுகளைக் கொண்டுள்ளது மற்றும் இது ஹக்கிங் ஃபேஸ் பிளாட்பார்மில் 2 ஆயிரத்துக்கும் மேற்பட்ட பதிவிறக்கங்களைக் கொண்டுள்ளது. கீழே கொடுக்கப்பட்டுள்ள Google Colab இல் உள்ள குறியீட்டில் இதைப் பயன்படுத்துவோம்:



! பிப் நிறுவு மின்மாற்றிகள்
! பிப் நிறுவு தரவுத்தொகுப்புகள்

தரவுத்தொகுப்புகளிலிருந்து load_dataset ஐ இறக்குமதி செய்க

தரவுத்தொகுப்பு = load_dataset ( 'ரோனெல்டன்/டைனிஸ்டோரிஸ்' )

TinyStories_Story = 3
example_string = தரவுத்தொகுப்பு [ 'தொடர்வண்டி' ] [ சிறுகதைகள்_கதை ] [ 'உரை' ]

அச்சு ( உதாரணம்_சரம் )


இந்த குறியீட்டில், கீழே குறிப்பிடப்பட்டுள்ள படிகளைக் கவனியுங்கள்:





படி 01 : முதல் படி ' நிறுவல் 'மின்மாற்றிகள் தரவுத்தொகுப்புகள்.

படி 02 : அடுத்து, தேவையான தரவுத்தொகுப்பை இறக்குமதி செய்யவும், ' டைனிஸ்டோரிஸ் ”உங்கள் திட்டத்தில்.



படி 03 : அடுத்து, தேர்ந்தெடுக்கப்பட்ட தரவுத்தொகுப்பை 'ஐப் பயன்படுத்தி ஏற்றவும் load_dataset() ” செயல்பாடு.

படி 04 : இப்போது, ​​TinyStories தரவுத்தொகுப்பிலிருந்து நாம் விரும்பும் கதை எண்ணைக் குறிப்பிடுகிறோம். எங்கள் குறியீடு எடுத்துக்காட்டில் 03 என்ற எண்ணைக் குறிப்பிட்டுள்ளோம்.

படி 05 : கடைசியாக, வெளியீட்டைக் காட்ட “print()” முறையைப் பயன்படுத்துவோம்.

வெளியீடு



குறிப்பு: குறியீடு மற்றும் வெளியீட்டை நேரடியாக எங்கள் Google Colabல் பார்க்கலாம் .

முடிவுரை

' அணைத்துக்கொள்ளும் முகம் தரவுத்தொகுப்புகள் ” பயனர்கள் தங்கள் ஆன்லைன் லைப்ரரியில் இருந்து பெரிய தரவுத்தொகுப்புகளை நேரடியாக இறக்குமதி செய்யும் போது, ​​அவர்களின் இயந்திர கற்றல் மாதிரிகளை சோதிப்பதை நம்பமுடியாத அளவிற்கு திறமையாக ஆக்குகிறது. இதன் விளைவாக, NLP அல்காரிதம்களின் பயன்பாடு எளிதாகவும் வேகமாகவும் மாறியுள்ளது, ஏனெனில் புரோகிராமர்கள் தங்கள் திட்டங்களை தரம் மற்றும் அளவு ஆகிய இரண்டையும் கொண்ட தரவுத்தொகுப்பில் சோதிக்க முடியும்.