ஹிஸ்டோகிராமில் பைஸ்பார்க் தரவை எவ்வாறு திட்டமிடுவது

Histokiramil Paispark Taravai Evvaru Tittamituvatu



பைஸ்பார்க்கில், ஹிஸ்டோகிராம் மற்றும் பிற சதி நுட்பங்களைப் பயன்படுத்தி தரவு காட்சிப்படுத்தல் செய்யப்படுகிறது. இது வரைகலை பிரதிநிதித்துவத்தில் உள்ள தரவுகளுடன் தரவு அறிவியல் பொறியாளர்களைப் புரிந்துகொள்ள உதவுகிறது. அவர்களுக்கு நேரம் ஒரு முக்கியமான தடையாகும். இந்தக் காட்சிப்படுத்தல்கள் மூலம், உரை/சிஎஸ்வி மற்றும் பிற தரவு வடிவங்களுடன் ஒப்பிடும் போது, ​​அவர்கள் தரவை விரைவாக பகுப்பாய்வு செய்ய முடியும்.

இந்த வழிகாட்டியில், ஹிஸ்டோகிராமில் பைஸ்பார்க் டேட்டாவை எவ்வாறு திட்டமிடுவது என்று பார்ப்போம். இங்கு இரண்டு காட்சிகளைக் காணலாம். ஹிஸ்டோகிராம் PySpark Pandas DataFrame மற்றும் RDD தரவுகளில் உருவாக்கப்பட்டது. இந்த இரண்டு காட்சிகளுக்கும், PySpark இரண்டு செயல்பாடுகளை வழங்குகிறது: pyspark.pandas.DataFrame.plot.hist() & pyspark.RDD.histogram.

உள்ளடக்கத்தின் தலைப்பு:







Pyspark.pandas.DataFrame.plot.hist()

இந்தச் சூழ்நிலையில், கிடைமட்ட x- அச்சுடன் சேர்ந்து நெடுவரிசைகளாக (பைஸ்பார்க் பாண்டாஸ் டேட்டாஃப்ரேமில் இருந்து) வகுப்புகளின் வரம்பை பக்கெட் செய்யும் தரவுகளின் வரைபடம் போன்ற பிரதிநிதித்துவமாக ஹிஸ்டோகிராம் காட்டப்படுகிறது. y-அச்சு ஒவ்வொரு நெடுவரிசைக்கும் PySpark Pandas DataFrame இல் நிகழ்வுகளின் எண்ணிக்கையைக் குறிக்கிறது.



தொடரியல்:



pyspark_pandas_DataFrame.plot.hist(பின்ஸ்,...)

இது ஒரு முழு எண் மற்றும் சில விருப்பத் திறவுகோல் மதிப்புருக்களான விருப்ப அளவுருவாக மொத்த தொட்டிகளின் எண்ணிக்கையை எடுக்கும். ஒவ்வொரு நெடுவரிசைக்கும் தொட்டிகள் குறிப்பிடப்படவில்லை என்றால், ஒரு பட்டை உருவாக்கப்படும்.





PySpark Pandas DataFrame இல் ப்ளாட் ஹிஸ்டோகிராம்

4 பதிவுகளுடன் 2 நெடுவரிசைகளைக் கொண்ட PySpark Pandas DataFrame ஐ உருவாக்கவும். plot.hist() செயல்பாட்டிற்கு எந்த அளவுருவையும் அனுப்பாமல் ஹிஸ்டோகிராம் வரையவும்.

பைஸ்பார்க் இறக்குமதி பாண்டாக்களிடமிருந்து

pyspark_pandas_dataframe=pandas.DataFrame({ 'கட்டிடம்_உயரம்' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'கட்டிட_பகுதி' :[ 2 , 3 , 1 , 4 ]})

அச்சு(pyspark_pandas_dataframe)

# பைஸ்பார்க்-பாண்டாஸ் ஹிஸ்டோகிராம்

pyspark_pandas_dataframe.plot.hist()

வெளியீடு:



இங்கே, நெடுவரிசைப் பெயர்கள் “கட்டிடம்_உயரம்” மற்றும் “கட்டிட_பகுதி”.

ஹிஸ்டோகிராமைப் பார்ப்போம்:

முந்தைய DataFrame இல் உள்ள மொத்த வரிசைகளின் எண்ணிக்கை 4. எனவே, 4 தொட்டிகள் உருவாக்கப்படுகின்றன.

பைஸ்பார்க் பாண்டாஸ் டேட்டா ஃப்ரேமில் பின்ஸ் அளவுருவுடன் ப்ளாட் ஹிஸ்டோகிராம்

4 பதிவுகளுடன் 2 நெடுவரிசைகளைக் கொண்ட PySpark Pandas DataFrame ஐ உருவாக்கவும். plot.hist() செயல்பாட்டிற்கு எந்த அளவுருவையும் அனுப்பாமல் ஹிஸ்டோகிராம் வரையவும்.

பைஸ்பார்க் இறக்குமதி பாண்டாக்களிடமிருந்து

pyspark_pandas_dataframe=pandas.DataFrame({ 'கட்டிடம்_உயரம்' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'கட்டிட_பகுதி' :[ 2 , 3 , 1 , 4 ]})

# PySpark-Pandas ஹிஸ்டோகிராம் 2 தொட்டிகளுடன்

pyspark_pandas_dataframe.plot.hist(bins= 2 )

வெளியீடு:

இங்கே, நெடுவரிசைப் பெயர்கள் “கட்டிடம்_உயரம்” மற்றும் “கட்டிட_பகுதி”.

வரைபடத்தைப் பார்ப்போம் - சிவப்பு என்பது 'கட்டிட_பகுதி' மற்றும் நீலமானது 'கட்டிட_உயர' நெடுவரிசையைக் குறிக்கிறது:

நாங்கள் குறிப்பிட்டபடி, 2 தொட்டிகள் மற்றும் 2 பார்கள் மட்டுமே உருவாக்கப்பட்டன. நான்கு வரிசைகள் இங்கு 2 வாளிகளாகப் பிணைக்கப்பட்டுள்ளன.

பக்கெட் எண்ணைக் குறிப்பிடுவதன் மூலம் PySpark RDD இல் உள்ள வரைபடத்தை வரையவும்

நீங்கள் RDD உடன் பணிபுரியும் போது, ​​ஒவ்வொரு வாளியிலும் இருக்கும் வாளிகள் மற்றும் மொத்த மதிப்புகளை உள்ளடக்கிய டூப்பிள் வடிவில் ஹிஸ்டோகிராம் திரும்பப் பெறலாம்.

தொடரியல்:

pyspark_RDD.ஹிஸ்டோகிராம்(வாளிகள்)

இந்த சூழ்நிலையில், ஹிஸ்டோகிராமில் சேர்க்கப்பட்டுள்ள வாளிகளின் எண்ணிக்கையை (முழு எண்) கடந்து செல்கிறோம். இது பின்வரும் வடிவமைப்பில் பக்கெட் வரம்புகள் மற்றும் தொடர்புடைய மதிப்பு நிகழ்வுகளை உள்ளடக்கிய பல பட்டியல்களை வழங்குகிறது: ([பக்கெட் வரம்புகள்...], [மதிப்பு நிகழ்வுகள்...]).

எடுத்துக்காட்டு 1:

10 மதிப்புகளுடன் 'Building_height' என்ற பெயரில் ஒரு RDD ஐ உருவாக்கி, 3 வாளிகள் கொண்ட ஹிஸ்டோகிராமை உருவாக்குவோம்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# 3 வாளிகளைக் குறிப்பிடுகிறது

Building_height.histogram( 3 )

வெளியீடு:

  1. பக்கெட்-1 12.0 முதல் 86.223 வரை: இந்த வரம்பில், வாளியில் உள்ள மொத்த மதிப்புகளின் எண்ணிக்கை 5 ஆகும்.
  2. பக்கெட்-2 86.223 முதல் 160.446 வரை: இந்த வரம்பில், வாளியில் உள்ள மொத்த மதிப்புகளின் எண்ணிக்கை 3 ஆகும்.
  3. பக்கெட்-3 160.446 முதல் 234.67 வரை: இந்த வரம்பில், வாளியில் உள்ள மொத்த மதிப்புகளின் எண்ணிக்கை 2 ஆகும்.

எடுத்துக்காட்டு 2:

முன்பு உருவாக்கப்பட்ட RDD இல் 2 வாளிகளுடன் ஒரு வரைபடத்தை உருவாக்கவும்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# 2 வாளிகளைக் குறிப்பிடுகிறது

Building_height.histogram( 2 )

வெளியீடு:

  1. பக்கெட் 1 12.0 முதல் 123.335 வரை இருக்கும். இந்த வரம்பில், வாளியில் இருக்கும் மொத்த மதிப்புகளின் எண்ணிக்கை 8 ஆகும்.
  2. பக்கெட் 2 123.335 முதல் 234.67 வரை: இந்த வரம்பில், பக்கெட்டில் இருக்கும் மொத்த மதிப்புகளின் எண்ணிக்கை 2 ஆகும்.

ஒவ்வொரு பக்கெட்டின் அளவைக் குறிப்பிடுவதன் மூலம் பைஸ்பார்க் RDD இல் உள்ள வரைபடத்தை வரையவும்

முந்தைய சூழ்நிலையில், RDD.histogram() செயல்பாட்டிற்கு வாளிகளை அனுப்பினோம். இப்போது, ​​ஒரு பட்டியலின் உள்ளே பக்கெட் அளவுகளை ஒன்றன் பின் ஒன்றாகக் கடந்து, இந்தப் பட்டியலை இந்தச் செயல்பாட்டிற்கு ஒரு அளவுருவாக அனுப்புகிறோம். அதிகரிக்கும்/ஏறும் வரிசையில் குறைந்தபட்சம் இரண்டு பக்கெட்டுகளைக் குறிப்பிட வேண்டும் என்பதையும், அதற்கு நகல் மதிப்புகள் இருக்காது என்பதையும் உறுதிப்படுத்திக் கொள்ளுங்கள்.

தொடரியல்:

pyspark_RDD.histogram([பக்கெட் வரம்புகள்...])

இந்த சூழ்நிலையில், ஹிஸ்டோகிராமில் சேர்க்கப்பட்டுள்ள வாளிகளின் எண்ணிக்கையை (முழு எண்) கடந்து செல்கிறோம். இது பின்வரும் வடிவமைப்பில் பக்கெட் வரம்புகள் மற்றும் தொடர்புடைய மதிப்பு நிகழ்வுகளை உள்ளடக்கிய பல பட்டியல்களை வழங்குகிறது: ([பக்கெட் வரம்புகள்...], [மதிப்பு நிகழ்வுகள்...]).

எடுத்துக்காட்டு 1:

10 மதிப்புகளுடன் 'Building_height' என்ற பெயரில் ஒரு RDD ஐ உருவாக்கி, [0, 50, 100, 150, 200, 250] மதிப்புகளின் பக்கர் வரம்பைக் கொண்டு ஒரு வரைபடத்தை உருவாக்குவோம்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# அளவு கொண்ட வாளியைக் குறிப்பிடுதல் - [0,50,100,150,200,250]

Building_height.histogram([ 0 , ஐம்பது , 100 , 150 , 200 , 250 ])

வெளியீடு:

  1. பக்கெட் 1: (0 முதல் 50 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 3.
  2. பக்கெட் 1: (50 முதல் 100 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2 ஆகும்.
  3. பக்கெட் 1: (100 முதல் 150 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2.
  4. பக்கெட் 1: (150 முதல் 200 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2.
  5. பக்கெட் 1: (200 முதல் 250 வரை) : இந்த வாளியின் மொத்த மதிப்புகள் 2.

எடுத்துக்காட்டு 2:

[0, 100, 200, 300] மதிப்புகளின் பக்கெட் வரம்பைக் கொண்டு ஒரு வரைபடத்தை உருவாக்கவும்.

பைஸ்பார்க் இறக்குமதி

pyspark.sql இலிருந்து SparkSession இறக்குமதி

pyspark.rdd இலிருந்து RDD இறக்குமதி

spark_app = SparkSession.builder.appName( 'லினக்ஸ்' ).getOrCreate()

# 10 மதிப்புகளுடன் ஒரு RDD ஐ உருவாக்கவும்

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

அச்சு ( 'உண்மை:' ,Building_height.collect())

# அளவு கொண்ட வாளியைக் குறிப்பிடுதல் - [0,100,200,300]

Building_height.histogram([ 0 , 100 , 200 , 300 ])

வெளியீடு:

  1. பக்கெட் 1: (0 முதல் 100 வரை). இந்த வாளியின் மொத்த மதிப்பு 5 ஆகும்.
  2. பக்கெட் 2: (100 முதல் 200 வரை). இந்த வாளியின் மொத்த மதிப்பு 3.
  3. பக்கெட் 3: (200 முதல் 300 வரை). இந்த வாளியின் மொத்த மதிப்பு 2.

முடிவுரை

PySpark Pandas DataFrame மற்றும் RDD இல் PySpark இல் ஹிஸ்டோகிராம்களை எவ்வாறு உருவாக்குவது என்று பார்த்தோம். histogram() என்பது RDD தரவுகளில் ஹிஸ்டோகிராம் பெற பயன்படும் செயல்பாடாகும். PySpark Pandas DataFrame இல் ஹிஸ்டோகிராம் காட்ட plot.hist() பயன்படுகிறது. அனைத்து அளவுருக்களையும் உள்ளடக்கியதன் மூலம் இந்த செயல்பாடுகளை எடுத்துக்காட்டுகளுடன் விவாதித்தோம்.