R இல் உரைத் தரவை எவ்வாறு பகுப்பாய்வு செய்வது: சரம் கையாளுதலின் அடிப்படைகள்

R Il Urait Taravai Evvaru Pakuppayvu Ceyvatu Caram Kaiyalutalin Atippataikal



R நிரலாக்கத்தில் சரங்கள் இரண்டாவது மிகவும் பிரபலமான தரவு வகையாகும், மேலும் R இல் சரம் கையாளுதல் ஒரு முக்கியமான பணியாகும். R இல் உள்ள சரம் கையாளுதல் செயல்பாடு, சரங்களை மாற்றுதல் மற்றும் பாகுபடுத்துதல் உள்ளிட்ட உரைத் தரவைப் பயன்படுத்துவதற்கும் மாற்றுவதற்கும் பல செயல்பாடுகளைக் கொண்டுள்ளது. இந்த கட்டுரையில், சரம் கையாளுதலில் எங்களுக்கு உதவும் சில செயல்பாடுகளுக்குள் மூழ்குவோம். இந்த செயல்பாடுகள் R இல் உள்ளமைக்கப்பட்டவை மற்றும் சரம் பணிகளைச் செய்ய பல்வேறு நோக்கங்களுக்காகப் பயன்படுத்தப்படுகின்றன.

எடுத்துக்காட்டு 1: R இல் உள்ள Grep() செயல்பாட்டைப் பயன்படுத்தி சரத்திலிருந்து வடிவத்தின் நிலையைப் பெறவும்

சரத்திலிருந்து குறிப்பிடப்பட்ட வடிவத்தின் நிலையை பிரித்தெடுக்க, R இன் grep() செயல்பாடு பயன்படுத்தப்படுகிறது.

grep('i+', c('fix', 'split', 'corn n', 'paint'), perl=TRUE, value=FALSE)

இங்கே, நாங்கள் grep() செயல்பாட்டைப் பயன்படுத்துகிறோம், அங்கு “+i” வடிவமானது சரங்களின் வெக்டருக்குள் பொருந்தக்கூடிய ஒரு வாதமாக குறிப்பிடப்படுகிறது. நான்கு சரங்களைக் கொண்ட எழுத்து திசையன்களை அமைக்கிறோம். அதன் பிறகு, 'perl' வாதத்தை TRUE மதிப்புடன் அமைக்கிறோம், இது R ஆனது perl இணக்கமான வழக்கமான வெளிப்பாடு நூலகத்தைப் பயன்படுத்துகிறது என்பதைக் குறிக்கிறது, மேலும் 'மதிப்பு' அளவுரு கூறுகளின் குறியீடுகளை மீட்டெடுக்கப் பயன்படும் 'FALSE' மதிப்புடன் குறிப்பிடப்படுகிறது. வடிவத்துடன் பொருந்தக்கூடிய வெக்டரில்.







திசையன் எழுத்துகளின் ஒவ்வொரு சரத்திலிருந்தும் “+i” மாதிரி நிலை பின்வரும் வெளியீட்டில் காட்டப்படும்:





எடுத்துக்காட்டு 2: R இல் Gregexpr() செயல்பாட்டைப் பயன்படுத்தி வடிவத்தைப் பொருத்தவும்

அடுத்து, gregexpr() செயல்பாட்டைப் பயன்படுத்தி R இல் குறிப்பிட்ட சரத்தின் நீளத்துடன் குறியீட்டு நிலையை மீட்டெடுக்கிறோம்.





char_vec <- c('PROGRAMMINGLANGUAGE','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

இங்கே, 'char_vect' மாறியை அமைக்கிறோம், அங்கு சரங்கள் வெவ்வேறு எழுத்துக்களுடன் வழங்கப்படுகின்றன. அதன் பிறகு, 'char_vec' இல் சேமிக்கப்பட்டுள்ள சரங்களுடன் பொருந்துமாறு 'GRAMM' சரம் வடிவத்தை எடுக்கும் gregexpr() செயல்பாட்டை வரையறுக்கிறோம். பின்னர், “TRUE” மதிப்புடன் useBytes அளவுருவை அமைக்கிறோம். இந்த அளவுரு, கேரக்டரின் பைட் பைட் பைட் பைட் பொருத்தத்தை அடைய வேண்டும் என்பதைக் குறிக்கிறது.

gregexpr() செயல்பாட்டிலிருந்து பெறப்படும் பின்வரும் வெளியீடு திசையன் சரங்களின் குறியீடுகள் மற்றும் நீளத்தைக் குறிக்கிறது:



எடுத்துக்காட்டு 3: R இல் உள்ள Nchar() செயல்பாட்டைப் பயன்படுத்தி சரத்தில் உள்ள மொத்த எழுத்துக்களை எண்ணுங்கள்

பின்வருவனவற்றில் நாம் செயல்படுத்தும் nchar() முறையானது சரத்தில் எத்தனை எழுத்துக்கள் உள்ளன என்பதைத் தீர்மானிக்கவும் அனுமதிக்கிறது:

Res <- nchar('ஒவ்வொரு எழுத்தையும் எண்ணு')
அச்சு (Res)

இங்கே, 'Res' மாறிக்குள் அமைக்கப்பட்ட nchar() முறையை நாங்கள் அழைக்கிறோம். nchar() முறையானது nchar() முறையால் கணக்கிடப்படும் எழுத்துகளின் நீண்ட சரத்துடன் வழங்கப்படுகிறது மற்றும் குறிப்பிட்ட சரத்தில் உள்ள எதிர் எழுத்துகளின் எண்ணிக்கையை வழங்குகிறது. பின்னர், nchar() முறையின் முடிவுகளைக் காண “Res” மாறியை அச்சு() முறைக்கு அனுப்புகிறோம்.

குறிப்பிட்ட சரத்தில் 20 எழுத்துகள் உள்ளதைக் காட்டும் பின்வரும் வெளியீட்டில் முடிவு பெறப்பட்டது:

எடுத்துக்காட்டு 4: R இல் உள்ள சப்ஸ்ட்ரிங்() செயல்பாட்டைப் பயன்படுத்தி சரத்திலிருந்து சப்ஸ்ட்ரிங் பிரித்தெடுக்கவும்

சரத்திலிருந்து குறிப்பிட்ட சப்ஸ்ட்ரிங்கை பிரித்தெடுக்க, 'தொடக்கம்' மற்றும் 'நிறுத்து' வாதங்களுடன் சப்ஸ்ட்ரிங்() முறையைப் பயன்படுத்துகிறோம்.

str <- சப்ஸ்ட்ரிங்('காலை', 2, 4)
அச்சு (str)

இங்கே, எங்களிடம் ஒரு “str” மாறி உள்ளது, அங்கு சப்ஸ்ட்ரிங்() முறை அழைக்கப்படுகிறது. சப்ஸ்ட்ரிங்() முறையானது 'மார்னிங்' சரத்தை முதல் வாதமாகவும், '2' இன் மதிப்பை இரண்டாவது வாதமாகவும் எடுத்துக்கொள்கிறது, இது சரத்திலிருந்து இரண்டாவது எழுத்து பிரித்தெடுக்கப்பட வேண்டும் என்பதைக் குறிக்கிறது, மேலும் '4' வாதத்தின் மதிப்பு இதைக் குறிக்கிறது. நான்காவது எழுத்து பிரித்தெடுக்கப்பட வேண்டும். சப்ஸ்ட்ரிங்() முறையானது குறிப்பிட்ட நிலைக்கு இடையில் உள்ள சரத்திலிருந்து எழுத்துக்களைப் பிரித்தெடுக்கிறது.

பின்வரும் வெளியீடு சரத்தில் இரண்டாவது மற்றும் நான்காவது நிலைக்கு இடையில் பிரித்தெடுக்கப்பட்ட சப்ஸ்ட்ரிங்கைக் காட்டுகிறது:

எடுத்துக்காட்டு 5: R இல் உள்ள பேஸ்ட்() செயல்பாட்டைப் பயன்படுத்தி சரத்தை இணைக்கவும்

R இல் உள்ள பேஸ்ட்() செயல்பாடு சரம் கையாளுதலுக்கும் பயன்படுத்தப்படுகிறது, இது டிலிமிட்டர்களைப் பிரிப்பதன் மூலம் குறிப்பிட்ட சரங்களை இணைக்கிறது.

msg1 <- 'உள்ளடக்கம்'
msg2 <- 'எழுதுதல்'

பேஸ்ட்(msg1, msg2)

இங்கே, முறையே “msg1” மற்றும் “msg2” மாறிகளுக்கு சரங்களை குறிப்பிடுகிறோம். பின்னர், வழங்கப்பட்ட சரத்தை ஒற்றை சரமாக இணைக்க R இன் பேஸ்ட்() முறையைப் பயன்படுத்துகிறோம். பேஸ்ட்() முறையானது ஸ்டிரிங்ஸ் மாறியை ஒரு வாதமாக எடுத்துக்கொண்டு, சரங்களுக்கு இடையில் உள்ள இயல்புநிலை இடைவெளியுடன் ஒற்றை சரத்தை வழங்குகிறது.

பேஸ்ட்() முறையைச் செயல்படுத்தும்போது, ​​வெளியீடு அதில் உள்ள இடைவெளியுடன் ஒற்றை சரத்தை குறிக்கிறது.

எடுத்துக்காட்டு 6: R இல் உள்ள சப்ஸ்ட்ரிங்() செயல்பாட்டைப் பயன்படுத்தி சரத்தை மாற்றவும்

மேலும், பின்வரும் ஸ்கிரிப்டைப் பயன்படுத்தி சப்ஸ்ட்ரிங்() செயல்பாட்டைப் பயன்படுத்தி சரத்தில் சப்ஸ்ட்ரிங் அல்லது ஏதேனும் எழுத்தைச் சேர்ப்பதன் மூலமும் சரத்தை மேம்படுத்தலாம்:

str1 <- 'ஹீரோஸ்'
சப்ஸ்ட்ரிங்(str1, 5, 6) <- 'ic'

பூனை('    மாற்றியமைக்கப்பட்ட சரம்:', str1)

“Str1” மாறிக்குள் “ஹீரோஸ்” சரத்தை அமைத்துள்ளோம். பின்னர், சப்ஸ்ட்ரிங் () முறையைப் பயன்படுத்துகிறோம், அங்கு 'str1' என்பது துணைச்சரத்தின் 'தொடக்கம்' மற்றும் 'நிறுத்து' குறியீட்டு மதிப்புகளுடன் குறிப்பிடப்பட்டுள்ளது. சப்ஸ்ட்ரிங்() முறையானது 'iz' துணைச்சரத்துடன் ஒதுக்கப்படுகிறது, இது கொடுக்கப்பட்ட சரத்திற்கான செயல்பாட்டிற்குள் குறிப்பிடப்பட்ட நிலையில் வைக்கப்படுகிறது. அதன் பிறகு, புதுப்பிக்கப்பட்ட சரம் மதிப்பைக் குறிக்கும் R இன் cat() செயல்பாட்டைப் பயன்படுத்துகிறோம்.

சரத்தைக் காண்பிக்கும் வெளியீடு சப்ஸ்ட்ரிங் () முறையைப் பயன்படுத்தி புதியதுடன் புதுப்பிக்கப்படுகிறது:

எடுத்துக்காட்டு 7: R இல் உள்ள Format() செயல்பாட்டைப் பயன்படுத்தி சரத்தை வடிவமைக்கவும்

இருப்பினும், R இல் உள்ள சரம் கையாளுதல் செயல்பாட்டில் அதற்கேற்ப சரத்தை வடிவமைப்பதும் அடங்கும். இதற்கு, சரத்தை சீரமைத்து, குறிப்பிட்ட சரத்தின் அகலத்தை அமைக்கக்கூடிய ஃபார்மேட்() செயல்பாட்டைப் பயன்படுத்துகிறோம்.

இடம்1 <- வடிவம்('நிரல்கள்', அகலம் = 10, நியாயப்படுத்து = 'எல்')
இடம்2 <- வடிவம்('நிரல்கள்', அகலம் = 10, நியாயப்படுத்து = 'ஆர்')
இடம்3 <- வடிவம்('நிரல்கள்', அகலம் = 10, நியாயப்படுத்து = 'சி')

அச்சு (வேலையிடல்1)
அச்சு (வேலையிடல் 2)
அச்சு (வேலையிடல்3)

இங்கே, format() முறையில் வழங்கப்படும் “placement1” மாறியை அமைக்கிறோம். 'நிரல்கள்' சரத்தை format() முறைக்கு வடிவமைக்க வேண்டும். அகலம் அமைக்கப்பட்டு, சரத்தின் சீரமைப்பு 'நியாயப்படுத்து' வாதத்தைப் பயன்படுத்தி இடதுபுறமாக அமைக்கப்பட்டுள்ளது. இதேபோல், “placement2” மற்றும் “placement2” ஆகிய இரண்டு மாறிகளை உருவாக்கி, அதற்கேற்ப வழங்கப்பட்ட சரத்தை வடிவமைக்க format() முறையைப் பயன்படுத்துகிறோம்.

வெளியீடு இடது, வலது மற்றும் மைய சீரமைப்புகள் உட்பட பின்வரும் படத்தில் ஒரே சரத்திற்கான மூன்று வடிவமைப்பு பாணிகளைக் காட்டுகிறது:

எடுத்துக்காட்டு 8: R இல் சரத்தை கீழ் மற்றும் மேல் வழக்குகளாக மாற்றவும்

கூடுதலாக, நாம் பின்வரும் வகையில் tolower() மற்றும் toupper() செயல்பாடுகளைப் பயன்படுத்தி சரத்தை சிறிய மற்றும் பெரிய எழுத்தில் மாற்றலாம்:

s1 <- 'நல்ல உணவு நல்ல வாழ்க்கை'
முடிவு1 <- tolow(s1)

அச்சு (முடிவு1)

s2 <- 'தி ஆர் நிரலாக்க மொழி'
முடிவு2 <- toupper(s2)

அச்சு (முடிவு2)

இங்கே, பெரிய மற்றும் சிறிய எழுத்துக்களைக் கொண்ட சரத்தை வழங்குகிறோம். அதன் பிறகு, சரம் 's1' மாறியில் வைக்கப்படுகிறது. பின்னர், நாம் tolower() முறையை அழைக்கிறோம் மற்றும் 's1' சரத்தை அதன் உள்ளே உள்ள அனைத்து எழுத்துக்களையும் சிறிய எழுத்துக்களில் மாற்றுவோம். பின்னர், “result1” மாறியில் சேமிக்கப்பட்டுள்ள tolower() முறையின் முடிவுகளை அச்சிடுகிறோம். அடுத்து, 's2' மாறியில் மற்றொரு சரத்தை அமைக்கிறோம், அதில் அனைத்து எழுத்துக்களும் சிறிய எழுத்துக்களில் உள்ளன. தற்போதுள்ள சரத்தை பெரிய எழுத்தாக மாற்ற, இந்த “s2” சரத்திற்கு toupper() முறையைப் பயன்படுத்துகிறோம்.

வெளியீடு பின்வரும் படத்தில் குறிப்பிட்ட வழக்கில் இரண்டு சரங்களையும் காட்டுகிறது:

முடிவுரை

சரம் கையாளுதல் என குறிப்பிடப்படும் சரங்களை நிர்வகிப்பதற்கும் பகுப்பாய்வு செய்வதற்கும் பல்வேறு வழிகளைக் கற்றுக்கொண்டோம். சரத்திலிருந்து பாத்திரத்தின் நிலையைப் பிரித்தெடுத்து, வெவ்வேறு சரங்களை ஒன்றிணைத்து, சரத்தை குறிப்பிட்ட கேஸாக மாற்றினோம். மேலும், சரத்தை வடிவமைத்தோம், சரத்தை மாற்றியமைத்தோம், மேலும் சரத்தை கையாள இங்கு பல்வேறு செயல்பாடுகள் செய்யப்படுகின்றன.