ஹிஸ்டோகிராமில் பைஸ்பார்க் தரவை எவ்வாறு திட்டமிடுவது

பைஸ்பார்க்கில், ஹிஸ்டோகிராம் மற்றும் பிற சதி நுட்பங்களைப் பயன்படுத்தி தரவு காட்சிப்படுத்தல் செய்யப்படுகிறது. இது வரைகலை பிரதிநிதித்துவத்தில் உள்ள தரவுகளுடன் தரவு அறிவியல் பொறியாளர்களைப் புரிந்துகொள்ள உதவுகிறது. அவர்களுக்கு நேரம் ஒரு முக்கியமான தடையாகும். இந்தக் காட்சிப்படுத்தல்கள் மூலம், உரை/சிஎஸ்வி மற்றும் பிற தரவு வடிவங்களுடன் ஒப்பிடும் போது, அவர்கள் தரவை விரைவாக பகுப்பாய்வு செய்ய முடியும்.

இந்த வழிகாட்டியில், ஹிஸ்டோகிராமில் பைஸ்பார்க் டேட்டாவை எவ்வாறு திட்டமிடுவது என்று பார்ப்போம். இங்கு இரண்டு காட்சிகளைக் காணலாம். ஹிஸ்டோகிராம் PySpark Pandas DataFrame மற்றும் RDD தரவுகளில் உருவாக்கப்பட்டது. இந்த இரண்டு காட்சிகளுக்கும், PySpark இரண்டு செயல்பாடுகளை வழங்குகிறது: pyspark.pandas.DataFrame.plot.hist() & pyspark.RDD.histogram.

உள்ளடக்கத்தின் தலைப்பு:

PySpark Pandas DataFrame இல் ப்ளாட் ஹிஸ்டோகிராம்
பைஸ்பார்க் பாண்டாஸ் டேட்டா ஃப்ரேமில் பின்ஸ் அளவுருவுடன் ப்ளாட் ஹிஸ்டோகிராம்
பக்கெட் எண்ணைக் குறிப்பிடுவதன் மூலம் PySpark RDD இல் ஹிஸ்டோகிராம் வரையவும்
ஒவ்வொரு பக்கெட்டின் அளவைக் குறிப்பிடுவதன் மூலம் பைஸ்பார்க் RDD இல் உள்ள வரைபடத்தை வரையவும்

Pyspark.pandas.DataFrame.plot.hist()

இந்தச் சூழ்நிலையில், கிடைமட்ட x- அச்சுடன் சேர்ந்து நெடுவரிசைகளாக (பைஸ்பார்க் பாண்டாஸ் டேட்டாஃப்ரேமில் இருந்து) வகுப்புகளின் வரம்பை பக்கெட் செய்யும் தரவுகளின் வரைபடம் போன்ற பிரதிநிதித்துவமாக ஹிஸ்டோகிராம் காட்டப்படுகிறது. y-அச்சு ஒவ்வொரு நெடுவரிசைக்கும் PySpark Pandas DataFrame இல் நிகழ்வுகளின் எண்ணிக்கையைக் குறிக்கிறது.

தொடரியல்:

pyspark_pandas_DataFrame.plot.hist(பின்ஸ்,...)

இது ஒரு முழு எண் மற்றும் சில விருப்பத் திறவுகோல் மதிப்புருக்களான விருப்ப அளவுருவாக மொத்த தொட்டிகளின் எண்ணிக்கையை எடுக்கும். ஒவ்வொரு நெடுவரிசைக்கும் தொட்டிகள் குறிப்பிடப்படவில்லை என்றால், ஒரு பட்டை உருவாக்கப்படும்.

PySpark Pandas DataFrame இல் ப்ளாட் ஹிஸ்டோகிராம்

4 பதிவுகளுடன் 2 நெடுவரிசைகளைக் கொண்ட PySpark Pandas DataFrame ஐ உருவாக்கவும். plot.hist() செயல்பாட்டிற்கு எந்த அளவுருவையும் அனுப்பாமல் ஹிஸ்டோகிராம் வரையவும்.

பைஸ்பார்க் இறக்குமதி பாண்டாக்களிடமிருந்து

pyspark_pandas_dataframe=pandas.DataFrame({ 'கட்டிடம்_உயரம்' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'கட்டிட_பகுதி' :[ 2 , 3 , 1 , 4 ]})

அச்சு(pyspark_pandas_dataframe)

# பைஸ்பார்க்-பாண்டாஸ் ஹிஸ்டோகிராம்

pyspark_pandas_dataframe.plot.hist()

வெளியீடு:

இங்கே, நெடுவரிசைப் பெயர்கள் “கட்டிடம்_உயரம்” மற்றும் “கட்டிட_பகுதி”.

ஹிஸ்டோகிராமைப் பார்ப்போம்:

முந்தைய DataFrame இல் உள்ள மொத்த வரிசைகளின் எண்ணிக்கை 4. எனவே, 4 தொட்டிகள் உருவாக்கப்படுகின்றன.

பைஸ்பார்க் பாண்டாஸ் டேட்டா ஃப்ரேமில் பின்ஸ் அளவுருவுடன் ப்ளாட் ஹிஸ்டோகிராம்

பைஸ்பார்க் இறக்குமதி பாண்டாக்களிடமிருந்து

pyspark_pandas_dataframe=pandas.DataFrame({ 'கட்டிடம்_உயரம்' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'கட்டிட_பகுதி' :[ 2 , 3 , 1 , 4 ]})

# PySpark-Pandas ஹிஸ்டோகிராம் 2 தொட்டிகளுடன்

pyspark_pandas_dataframe.plot.hist(bins= 2 )

வெளியீடு:

இங்கே, நெடுவரிசைப் பெயர்கள் “கட்டிடம்_உயரம்” மற்றும் “கட்டிட_பகுதி”.

வரைபடத்தைப் பார்ப்போம் - சிவப்பு என்பது 'கட்டிட_பகுதி' மற்றும் நீலமானது 'கட்டிட_உயர' நெடுவரிசையைக் குறிக்கிறது:

நாங்கள் குறிப்பிட்டபடி, 2 தொட்டிகள் மற்றும் 2 பார்கள் மட்டுமே உருவாக்கப்பட்டன. நான்கு வரிசைகள் இங்கு 2 வாளிகளாகப் பிணைக்கப்பட்டுள்ளன.

பக்கெட் எண்ணைக் குறிப்பிடுவதன் மூலம் PySpark RDD இல் உள்ள வரைபடத்தை வரையவும்

நீங்கள் RDD உடன் பணிபுரியும் போது, ஒவ்வொரு வாளியிலும் இருக்கும் வாளிகள் மற்றும் மொத்த மதிப்புகளை உள்ளடக்கிய டூப்பிள் வடிவில் ஹிஸ்டோகிராம் திரும்பப் பெறலாம்.

தொடரியல்:

pyspark_RDD.ஹிஸ்டோகிராம்(வாளிகள்)

இந்த சூழ்நிலையில், ஹிஸ்டோகிராமில் சேர்க்கப்பட்டுள்ள வாளிகளின் எண்ணிக்கையை (முழு எண்) கடந்து செல்கிறோம். இது பின்வரும் வடிவமைப்பில் பக்கெட் வரம்புகள் மற்றும் தொடர்புடைய மதிப்பு நிகழ்வுகளை உள்ளடக்கிய பல பட்டியல்களை வழங்குகிறது: ([பக்கெட் வரம்புகள்...], [மதிப்பு நிகழ்வுகள்...]).

எடுத்துக்காட்டு 1:

10 மதிப்புகளுடன் 'Building_height' என்ற பெயரில் ஒரு RDD ஐ உருவாக்கி, 3 வாளிகள் கொண்ட ஹிஸ்டோகிராமை உருவாக்குவோம்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# 3 வாளிகளைக் குறிப்பிடுகிறது

Building_height.histogram( 3 )

வெளியீடு:

பக்கெட்-1 12.0 முதல் 86.223 வரை: இந்த வரம்பில், வாளியில் உள்ள மொத்த மதிப்புகளின் எண்ணிக்கை 5 ஆகும்.
பக்கெட்-2 86.223 முதல் 160.446 வரை: இந்த வரம்பில், வாளியில் உள்ள மொத்த மதிப்புகளின் எண்ணிக்கை 3 ஆகும்.
பக்கெட்-3 160.446 முதல் 234.67 வரை: இந்த வரம்பில், வாளியில் உள்ள மொத்த மதிப்புகளின் எண்ணிக்கை 2 ஆகும்.

எடுத்துக்காட்டு 2:

முன்பு உருவாக்கப்பட்ட RDD இல் 2 வாளிகளுடன் ஒரு வரைபடத்தை உருவாக்கவும்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# 2 வாளிகளைக் குறிப்பிடுகிறது

Building_height.histogram( 2 )

வெளியீடு:

பக்கெட் 1 12.0 முதல் 123.335 வரை இருக்கும். இந்த வரம்பில், வாளியில் இருக்கும் மொத்த மதிப்புகளின் எண்ணிக்கை 8 ஆகும்.
பக்கெட் 2 123.335 முதல் 234.67 வரை: இந்த வரம்பில், பக்கெட்டில் இருக்கும் மொத்த மதிப்புகளின் எண்ணிக்கை 2 ஆகும்.

ஒவ்வொரு பக்கெட்டின் அளவைக் குறிப்பிடுவதன் மூலம் பைஸ்பார்க் RDD இல் உள்ள வரைபடத்தை வரையவும்

முந்தைய சூழ்நிலையில், RDD.histogram() செயல்பாட்டிற்கு வாளிகளை அனுப்பினோம். இப்போது, ஒரு பட்டியலின் உள்ளே பக்கெட் அளவுகளை ஒன்றன் பின் ஒன்றாகக் கடந்து, இந்தப் பட்டியலை இந்தச் செயல்பாட்டிற்கு ஒரு அளவுருவாக அனுப்புகிறோம். அதிகரிக்கும்/ஏறும் வரிசையில் குறைந்தபட்சம் இரண்டு பக்கெட்டுகளைக் குறிப்பிட வேண்டும் என்பதையும், அதற்கு நகல் மதிப்புகள் இருக்காது என்பதையும் உறுதிப்படுத்திக் கொள்ளுங்கள்.

தொடரியல்:

pyspark_RDD.histogram([பக்கெட் வரம்புகள்...])

எடுத்துக்காட்டு 1:

10 மதிப்புகளுடன் 'Building_height' என்ற பெயரில் ஒரு RDD ஐ உருவாக்கி, [0, 50, 100, 150, 200, 250] மதிப்புகளின் பக்கர் வரம்பைக் கொண்டு ஒரு வரைபடத்தை உருவாக்குவோம்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# அளவு கொண்ட வாளியைக் குறிப்பிடுதல் - [0,50,100,150,200,250]

Building_height.histogram([ 0 , ஐம்பது , 100 , 150 , 200 , 250 ])

வெளியீடு:

பக்கெட் 1: (0 முதல் 50 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 3.
பக்கெட் 1: (50 முதல் 100 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2 ஆகும்.
பக்கெட் 1: (100 முதல் 150 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2.
பக்கெட் 1: (150 முதல் 200 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2.
பக்கெட் 1: (200 முதல் 250 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2.

எடுத்துக்காட்டு 2:

[0, 100, 200, 300] மதிப்புகளின் பக்கெட் வரம்பைக் கொண்டு ஒரு வரைபடத்தை உருவாக்கவும்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# அளவு கொண்ட வாளியைக் குறிப்பிடுதல் - [0,100,200,300]

Building_height.histogram([ 0 , 100 , 200 , 300 ])

வெளியீடு:

பக்கெட் 1: (0 முதல் 100 வரை). இந்த வாளியின் மொத்த மதிப்பு 5 ஆகும்.
பக்கெட் 2: (100 முதல் 200 வரை). இந்த வாளியின் மொத்த மதிப்பு 3.
பக்கெட் 3: (200 முதல் 300 வரை). இந்த வாளியின் மொத்த மதிப்பு 2.

முடிவுரை

PySpark Pandas DataFrame மற்றும் RDD இல் PySpark இல் ஹிஸ்டோகிராம்களை எவ்வாறு உருவாக்குவது என்று பார்த்தோம். histogram() என்பது RDD தரவுகளில் ஹிஸ்டோகிராம் பெற பயன்படும் செயல்பாடாகும். PySpark Pandas DataFrame இல் ஹிஸ்டோகிராம் காட்ட plot.hist() பயன்படுகிறது. அனைத்து அளவுருக்களையும் உள்ளடக்கியதன் மூலம் இந்த செயல்பாடுகளை எடுத்துக்காட்டுகளுடன் விவாதித்தோம்.

ஹிஸ்டோகிராமில் பைஸ்பார்க் தரவை எவ்வாறு திட்டமிடுவது

Pyspark.pandas.DataFrame.plot.hist()

PySpark Pandas DataFrame இல் ப்ளாட் ஹிஸ்டோகிராம்

பைஸ்பார்க் பாண்டாஸ் டேட்டா ஃப்ரேமில் பின்ஸ் அளவுருவுடன் ப்ளாட் ஹிஸ்டோகிராம்

பக்கெட் எண்ணைக் குறிப்பிடுவதன் மூலம் PySpark RDD இல் உள்ள வரைபடத்தை வரையவும்

எடுத்துக்காட்டு 1:

எடுத்துக்காட்டு 2:

ஒவ்வொரு பக்கெட்டின் அளவைக் குறிப்பிடுவதன் மூலம் பைஸ்பார்க் RDD இல் உள்ள வரைபடத்தை வரையவும்

எடுத்துக்காட்டு 1:

எடுத்துக்காட்டு 2:

முடிவுரை

வகை

பிரபல பதிவுகள்

டூப்ளிகேட்டியுடன் ராஸ்பெர்ரி பை டேட்டாவை காப்புப் பிரதி எடுக்கவும்

ஜாவாவில் ConcurrentHashMap கூறுகளை அகற்றி அணுகுவது எப்படி?

Git இல் மிக சமீபத்திய கமிட் வரலாற்றை மீண்டும் எழுதுவது எப்படி?

மீள் தேடல் புலத்தை அகற்று

C++ இல் சுட்டிக்கு சுட்டி

Git Revert, Checkout மற்றும் Reset ஆகியவற்றுக்கு இடையே உள்ள வேறுபாடு என்ன?

மோங்கோடிபி $மேக்ஸ் ஆபரேட்டர்

ராஸ்பெர்ரி பையில் புளூடூத்தை எவ்வாறு அமைப்பது

HTML உடன் PDF கோப்புடன் இணைக்கிறது

முதன்மை விசையைப் பயன்படுத்தி ஆரக்கிளில் ஒரு அட்டவணையை உருவாக்குவது எப்படி?

பவர்ஷெல் நகலை கிளிப்போர்டு செயல்பாட்டிற்கு பயன்படுத்துதல்

LangChain இல் LLMCchains ஐ எவ்வாறு இயக்குவது?

Android இல் உங்கள் Spotify கேட்டல் வரலாற்றை எவ்வாறு அணுகுவது

பாஷ் ஸ்கிரிப்ட்டில் Find Command ஐ எவ்வாறு பயன்படுத்துவது

கோலாங்கில் பிழைகளை எவ்வாறு கையாள்வது?

டெயில்விண்டில் ரெஸ்பான்சிவ் பிரேக் பாயின்ட்களை எப்படி பயன்படுத்துவது?

C++ சரம் ஒரு துணைச்சரத்தைக் கொண்டுள்ளது

HAProxy ஐ ஒரு தலைகீழ் ப்ராக்ஸியாக எவ்வாறு கட்டமைப்பது

Minecraft இல் பனி டன்ட்ரா பயோமை எவ்வாறு கண்டுபிடிப்பது