R DataFrame இல் நெடுவரிசைகளின் எண்ணிக்கையைப் பெறுங்கள்

R Dataframe Il Netuvaricaikalin Ennikkaiyaip Perunkal



R இல், DataFrames உடன் பணிபுரியும் போது பல சூழ்நிலைகளில் தேவைப்படும் நெடுவரிசைகளின் எண்ணிக்கையைப் பெறுவது ஒரு அடிப்படை செயல்பாடாகும். தரவை துணை அமைப்பது, பகுப்பாய்வு செய்தல், கையாளுதல், வெளியிடுதல் மற்றும் காட்சிப்படுத்துதல் போன்றவற்றின் போது, ​​நெடுவரிசைகளின் எண்ணிக்கை தெரிந்து கொள்ள வேண்டிய முக்கியமான தகவலாகும். எனவே, குறிப்பிட்ட டேட்டாஃப்ரேமின் நெடுவரிசைகளின் மொத்தத்தைப் பெற R வெவ்வேறு அணுகுமுறைகளை வழங்குகிறது. இந்தக் கட்டுரையில், DataFrame இன் நெடுவரிசைகளின் எண்ணிக்கையைப் பெற உதவும் சில அணுகுமுறைகளைப் பற்றி விவாதிப்போம்.

எடுத்துக்காட்டு 1: Ncol() செயல்பாட்டைப் பயன்படுத்துதல்

டேட்டாஃப்ரேம்களின் மொத்த நெடுவரிசைகளைப் பெறுவதற்கு ncol() என்பது அடிக்கடி செயல்படும் செயல்பாடாகும்.







df <- data.frame('y1' = c(10, 12, 14, 19),

'y2' = c(15, 22, 24, 29),
'y3' = c(25, 32, 34, 39))


n <- ncol(df)

cat('-----தரவு சட்டத்தில் உள்ள நெடுவரிசைகளின் எண்ணிக்கை :', n)

இந்த எடுத்துக்காட்டில், R இல் உள்ள data.frame() செயல்பாட்டைப் பயன்படுத்தி 'y1', 'y2' மற்றும் 'y3' என பெயரிடப்பட்ட மூன்று நெடுவரிசைகளுடன் 'df' DataFrame ஐ முதலில் உருவாக்குகிறோம். ஒவ்வொரு நெடுவரிசையிலும் உள்ள கூறுகள் இதைப் பயன்படுத்தி குறிப்பிடப்படுகின்றன. உறுப்புகளின் திசையன் உருவாக்கும் c() செயல்பாடு. பின்னர், “n” மாறியைப் பயன்படுத்தி, “df” DataFrame இல் உள்ள மொத்த நெடுவரிசைகளைக் கண்டறிய ncol() செயல்பாடு பயன்படுத்தப்படுகிறது. இறுதியாக, விளக்கமான செய்தி மற்றும் “n” மாறியுடன், வழங்கப்பட்ட cat() செயல்பாடு கன்சோலில் முடிவுகளை அச்சிடுகிறது.



எதிர்பார்த்தபடி, பெறப்பட்ட வெளியீடு குறிப்பிடப்பட்ட DataFrame மூன்று நெடுவரிசைகளைக் கொண்டுள்ளது என்பதைக் குறிக்கிறது:







எடுத்துக்காட்டு 2: வெற்று தரவுச் சட்டத்திற்கான மொத்த நெடுவரிசைகளை எண்ணுங்கள்

அடுத்து, வெற்று DataFrame இல் ncol() செயல்பாட்டைப் பயன்படுத்துகிறோம், இது மொத்த நெடுவரிசைகளின் மதிப்புகளைப் பெறுகிறது, ஆனால் அந்த மதிப்பு பூஜ்ஜியமாகும்.

காலி_டிஎஃப் <- data.frame()

n <- ncol(empty_df)

cat('---தரவு சட்டத்தில் உள்ள நெடுவரிசைகள் :', n)

இந்த எடுத்துக்காட்டில், எந்த நெடுவரிசைகளையும் வரிசைகளையும் குறிப்பிடாமல் data.frame() ஐ அழைப்பதன் மூலம் வெற்று DataFrame, “empty_df” ஐ உருவாக்குகிறோம். அடுத்து, DataFrame இல் உள்ள நெடுவரிசைகளின் எண்ணிக்கையைக் கண்டறிய பயன்படும் ncol() செயல்பாட்டைப் பயன்படுத்துகிறோம். மொத்த நெடுவரிசைகளைப் பெற, ncol() செயல்பாடு “empty_df” DataFrame உடன் அமைக்கப்பட்டுள்ளது. “empty_df” DataFrame காலியாக இருப்பதால், அதில் நெடுவரிசைகள் எதுவும் இல்லை. எனவே, ncol(empty_df) இன் வெளியீடு 0 ஆகும். முடிவுகள் இங்கு பயன்படுத்தப்படும் cat() செயல்பாட்டின் மூலம் காட்டப்படும்.



DataFrame காலியாக இருப்பதால் வெளியீடு எதிர்பார்த்தபடி “0” மதிப்பைக் காட்டுகிறது.

எடுத்துக்காட்டு 3: Select_If() செயல்பாட்டை நீளம்() செயல்பாட்டுடன் பயன்படுத்துதல்

குறிப்பிட்ட வகையின் நெடுவரிசைகளின் எண்ணிக்கையை நாம் மீட்டெடுக்க விரும்பினால், R இன் நீளம்() செயல்பாட்டுடன் சேர்த்து select_if() செயல்பாட்டைப் பயன்படுத்த வேண்டும். ஒவ்வொரு வகையின் நெடுவரிசைகளின் மொத்தத்தைப் பெற இந்தச் செயல்பாடுகள் பயன்படுத்தப்படுகின்றன. . இந்த செயல்பாடுகளைப் பயன்படுத்துவதற்கான குறியீடு பின்வருவனவற்றில் செயல்படுத்தப்படுகிறது:

நூலகம்(dplyr)

x1<-கடிதங்கள்[1:10]

x2<-rpois(10,2)

x3<-rpois(10,5)

x4<-மாதிரி(c('கோடை','குளிர்காலம்'),10,replace=TRUE)

df1<-data.frame(x1,x2,x3,x4)

df1

நீளம்(select_if(df1,is.numeric))

இந்த எடுத்துக்காட்டில், நாம் முதலில் dplyr தொகுப்பை ஏற்றுவோம், இதனால் select_if() செயல்பாடு மற்றும் நீளம்() செயல்பாட்டை அணுகலாம். பின்னர், நாங்கள் நான்கு மாறிகளை உருவாக்குகிறோம் - முறையே 'x1', 'x2', 'x3' மற்றும் 'x4'. இங்கே, 'x1' ஆங்கில எழுத்துக்களின் முதல் 10 பெரிய எழுத்துக்களைக் கொண்டுள்ளது. 'x2' மற்றும் 'x3' மாறிகள் rpois() செயல்பாட்டைப் பயன்படுத்தி முறையே 2 மற்றும் 5 அளவுருக்களுடன் 10 சீரற்ற எண்களின் இரண்டு தனித்தனி வெக்டர்களை உருவாக்குகின்றன. 'x4' மாறி என்பது திசையன் c ('கோடை', 'குளிர்காலம்') இலிருந்து தோராயமாக மாதிரி எடுக்கப்பட்ட 10 கூறுகளைக் கொண்ட ஒரு காரணி திசையன் ஆகும்.

பின்னர், data.frame() செயல்பாட்டில் அனைத்து மாறிகளும் அனுப்பப்படும் 'df1' DataFrame ஐ உருவாக்க முயற்சிக்கிறோம். இறுதியாக, dplyr தொகுப்பிலிருந்து select_if() செயல்பாட்டைப் பயன்படுத்தி உருவாக்கப்பட்ட “df1” DataFrame இன் நீளத்தை தீர்மானிக்க நீளம்() செயல்பாட்டைப் பயன்படுத்துகிறோம். select_if() சார்பு ஒரு “df1” DataFrame இலிருந்து நெடுவரிசைகளை ஒரு வாதமாகத் தேர்ந்தெடுக்கிறது மற்றும் is.numeric() செயல்பாடு எண் மதிப்புகளைக் கொண்ட நெடுவரிசைகளை மட்டுமே தேர்ந்தெடுக்கிறது. பின்னர், நீளம்() செயல்பாடு முழுக் குறியீட்டின் வெளியீடான select_if() மூலம் தேர்ந்தெடுக்கப்பட்ட நெடுவரிசைகளின் மொத்தத்தைப் பெறுகிறது.

நெடுவரிசையின் நீளம் பின்வரும் வெளியீட்டில் காட்டப்பட்டுள்ளது, இது DataFrame இன் மொத்த நெடுவரிசைகளைக் குறிக்கிறது:

எடுத்துக்காட்டு 4: Sapply() செயல்பாட்டைப் பயன்படுத்துதல்

மாறாக, நெடுவரிசைகளின் விடுபட்ட மதிப்புகளை மட்டும் கணக்கிட விரும்பினால், நமக்கு sapply() செயல்பாடு இருக்கும். டேட்டாஃப்ரேமின் ஒவ்வொரு நெடுவரிசையிலும் sapply() செயல்பாடு குறிப்பிட்டுச் செயல்படும். sapply() செயல்பாடு முதலில் DataFrame உடன் ஒரு வாதமாக அனுப்பப்படுகிறது. பின்னர், அந்த டேட்டாஃப்ரேமில் செயல்படும் ஆபரேஷன் எடுக்கிறது. டேட்டாஃப்ரேம் நெடுவரிசைகளில் NA மதிப்புகளின் எண்ணிக்கையைப் பெற sapply() செயல்பாட்டின் செயலாக்கம் பின்வருமாறு வழங்கப்படுகிறது:

new_df <- data.frame(c1 = c(10, 11, NA, 13, NA),

c2 = c('N', NA, 'A', 'M', 'E'),
c3 = c(NA, 92, NA, NA, 95))

sapply(new_df, function(x) sum(is.na(x)))

இந்த எடுத்துக்காட்டில், 'c1', 'c2' மற்றும் 'c3' ஆகிய மூன்று நெடுவரிசைகளுடன் 'new_df' DataFrame ஐ உருவாக்குகிறோம். முதல் நெடுவரிசைகளான “c1” மற்றும் “c3”, NA ஆல் குறிப்பிடப்படும் சில விடுபட்ட மதிப்புகள் உட்பட எண் மதிப்புகளைக் கொண்டுள்ளது. இரண்டாவது நெடுவரிசை, “c2”, சில விடுபட்ட மதிப்புகள் உட்பட எழுத்துக்களைக் கொண்டுள்ளது, அவை NA ஆல் குறிப்பிடப்படுகின்றன. பின்னர், 'new_df' DataFrame க்கு sapply() செயல்பாட்டைப் பயன்படுத்துவோம் மற்றும் sapply() செயல்பாட்டிற்குள் உள்ள தொகை() வெளிப்பாட்டைப் பயன்படுத்தி ஒவ்வொரு நெடுவரிசையிலும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைக் கணக்கிடுவோம்.

is.na() செயல்பாடானது, நெடுவரிசையில் உள்ள ஒவ்வொரு உறுப்பும் விடுபட்டதா இல்லையா என்பதைக் குறிக்கும் தருக்க வெக்டரை வழங்கும் தொகை() செயல்பாட்டிற்குக் குறிப்பிடப்பட்ட வெளிப்பாடு ஆகும். ஒவ்வொரு நெடுவரிசையிலும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைக் கணக்கிட, தொகை() செயல்பாடு TRUE மதிப்புகளைச் சேர்க்கிறது.

எனவே, வெளியீடு ஒவ்வொரு நெடுவரிசையிலும் மொத்த NA மதிப்புகளைக் காட்டுகிறது:

எடுத்துக்காட்டு 5: மங்கலான() செயல்பாட்டைப் பயன்படுத்துதல்

கூடுதலாக, DataFrame இன் வரிசைகளுடன் மொத்த நெடுவரிசைகளையும் பெற விரும்புகிறோம். பின்னர், dim() செயல்பாடு DataFrame இன் பரிமாணங்களை வழங்குகிறது. dim() செயல்பாடு பொருளை ஒரு வாதமாக எடுத்துக்கொள்கிறது, அதன் பரிமாணங்களை நாம் மீட்டெடுக்க வேண்டும். மங்கலான () செயல்பாட்டைப் பயன்படுத்துவதற்கான குறியீடு இங்கே:

d1 <- data.frame(team=c('t1', 't2', 't3', 't4'),

புள்ளிகள்=c(8, 10, 7, 4))

மங்கல்(d1)

இந்த எடுத்துக்காட்டில், data.frame() செயல்பாட்டைப் பயன்படுத்தி உருவாக்கப்படும் 'd1' DataFrame ஐ முதலில் வரையறுக்கிறோம், அங்கு இரண்டு நெடுவரிசைகள் 'குழு' மற்றும் 'புள்ளிகள்' அமைக்கப்படுகின்றன. அதன் பிறகு, 'd1' DataFrame மீது dim() செயல்பாட்டை செயல்படுத்துகிறோம். மங்கலான() செயல்பாடு DataFrame இன் வரிசைகள் மற்றும் நெடுவரிசைகளின் எண்ணிக்கையை வழங்குகிறது. எனவே, நாம் dim(d1) ஐ இயக்கும் போது, ​​அது இரண்டு தனிமங்களைக் கொண்ட ஒரு வெக்டரைத் தருகிறது - இதில் முதலாவது 'd1' DataFrame இல் உள்ள வரிசைகளின் எண்ணிக்கையையும், இரண்டாவது நெடுவரிசைகளின் எண்ணிக்கையையும் பிரதிபலிக்கிறது.

வெளியீடு DataFrame இன் பரிமாணங்களைக் குறிக்கிறது, அங்கு மதிப்பு '4' மொத்த நெடுவரிசைகளைக் குறிக்கிறது மற்றும் '2' மதிப்பு வரிசைகளைக் குறிக்கிறது:

முடிவுரை

R இல் உள்ள நெடுவரிசைகளின் எண்ணிக்கையைக் கணக்கிடுவது DataFrame இல் செய்யக்கூடிய எளிய மற்றும் முக்கியமான செயல் என்பதை இப்போது அறிந்தோம். அனைத்து செயல்பாடுகளிலும், ncol() செயல்பாடு மிகவும் வசதியான வழியாகும். இப்போது, ​​கொடுக்கப்பட்ட DataFrame இலிருந்து நெடுவரிசைகளின் எண்ணிக்கையைப் பெறுவதற்கான வெவ்வேறு வழிகளை நாங்கள் நன்கு அறிந்திருக்கிறோம்.