பைத்தானுடன் வலைத்தளங்களில் உள்நுழைதல்

Logging Into Websites With Python



இன்றைய வலை பயன்பாடுகளில் உள்நுழைவு அம்சம் ஒரு முக்கியமான செயல்பாடாகும். இந்த அம்சம் தளத்தின் பயனர்கள் அல்லாதவர்களிடமிருந்து சிறப்பு உள்ளடக்கத்தை வைத்திருக்க உதவுகிறது மற்றும் பிரீமியம் பயனர்களை அடையாளம் காணவும் பயன்படுகிறது. எனவே நீங்கள் வலைத்தளத்தை வலைத்தளத்தை ஸ்கிராப் செய்ய விரும்பினால், பதிவுசெய்யப்பட்ட பயனர்களுக்கு மட்டுமே உள்ளடக்கம் கிடைத்தால் உள்நுழைவு அம்சத்தை நீங்கள் காணலாம்.

வலை ஸ்கிராப்பிங் டுடோரியல்கள் கடந்த காலத்தில் மூடப்பட்டிருந்தன, எனவே இந்த டுடோரியல் உலாவியைப் பயன்படுத்தி கைமுறையாக செய்வதற்குப் பதிலாக குறியீட்டைக் கொண்டு உள்நுழைந்து வலைத்தளங்களில் அணுகலைப் பெறும் அம்சத்தை மட்டுமே உள்ளடக்கியது.







இந்த டுடோரியலைப் புரிந்துகொள்ளவும், வலைத்தளங்களில் உள்நுழைவதற்கான ஸ்கிரிப்ட்களை எழுதவும், உங்களுக்கு HTML பற்றிய சில புரிதல் தேவை. அற்புதமான வலைத்தளங்களை உருவாக்க போதுமானதாக இல்லை, ஆனால் ஒரு அடிப்படை வலைப்பக்கத்தின் கட்டமைப்பைப் புரிந்து கொள்ள போதுமானது.



இது கோரிக்கைகள் மற்றும் அழகான சூப் பைதான் நூலகங்களுடன் செய்யப்படும். பைதான் நூலகங்களைத் தவிர, குறியீட்டை எழுதுவதற்கு முன் ஆரம்ப பகுப்பாய்விற்கு அவை முக்கியமானதாக இருப்பதால், Google Chrome அல்லது Mozilla Firefox போன்ற ஒரு நல்ல உலாவி உங்களுக்குத் தேவைப்படும்.



கோரிக்கைகள் மற்றும் அழகான சூப் நூலகங்களை முனையத்திலிருந்து பிப் கட்டளையுடன் கீழே காணப்படுவது போல் நிறுவலாம்:





குழாய் நிறுவல் கோரிக்கைகள்
குழாய் நிறுவல் BeautifulSoup4

நிறுவலின் வெற்றியை உறுதிப்படுத்த, தட்டச்சு செய்வதன் மூலம் செய்யப்படும் பைத்தானின் ஊடாடும் ஷெல் செயல்படுத்தவும் மலைப்பாம்பு முனையத்தில்

பின்னர் இரண்டு நூலகங்களையும் இறக்குமதி செய்யுங்கள்:



இறக்குமதிகோரிக்கைகளை
இருந்துbs4இறக்குமதிஅழகான சூப்

பிழைகள் இல்லாவிட்டால் இறக்குமதி வெற்றிகரமாக இருக்கும்.

செயல்முறை

ஸ்கிரிப்டுகளுடன் ஒரு வலைத்தளத்தில் உள்நுழைய HTML மற்றும் இணையம் எவ்வாறு செயல்படுகிறது என்ற யோசனை தேவை. வலை எப்படி வேலை செய்கிறது என்பதை சுருக்கமாக பார்க்கலாம்.

வலைத்தளங்கள் இரண்டு முக்கிய பகுதிகளால் ஆனது, கிளையன்ட்-சைட் மற்றும் சர்வர்-சைட். கிளையன்ட்-சைட் என்பது பயனர் தொடர்புகொள்ளும் ஒரு வலைத்தளத்தின் ஒரு பகுதியாகும், அதே நேரத்தில் சர்வர்-சைட் என்பது வணிக தர்க்கம் மற்றும் தரவுத்தளத்தை அணுகுவது போன்ற பிற சேவையக செயல்பாடுகள் செயல்படுத்தப்படும் வலைத்தளத்தின் ஒரு பகுதியாகும்.

நீங்கள் ஒரு இணையதளத்தை அதன் இணைப்பின் மூலம் திறக்க முயற்சிக்கும்போது, ​​நீங்கள் HTML கோப்புகளையும் CSS மற்றும் JavaScript போன்ற பிற நிலையான கோப்புகளையும் கொண்டு வருமாறு சேவையகப் பக்கத்தில் கோரிக்கை விடுக்கிறீர்கள். இந்த கோரிக்கை GET கோரிக்கை என்று அழைக்கப்படுகிறது. இருப்பினும், நீங்கள் ஒரு படிவத்தை நிரப்பும்போது, ​​மீடியா கோப்பு அல்லது ஆவணத்தை பதிவேற்றும்போது, ​​ஒரு இடுகையை உருவாக்கி, சமர்ப்பி பொத்தானைச் சொல்வோம் என்பதைக் கிளிக் செய்தால், நீங்கள் சர்வர் பக்கத்திற்கு தகவலை அனுப்புகிறீர்கள். இந்த கோரிக்கை POST கோரிக்கை என்று அழைக்கப்படுகிறது.

எங்கள் ஸ்கிரிப்டை எழுதும் போது அந்த இரண்டு கருத்துகளையும் புரிந்துகொள்வது முக்கியம்.

இணையதளத்தை ஆய்வு செய்தல்

இந்த கட்டுரையின் கருத்துக்களைப் பயிற்சி செய்ய, நாங்கள் இதைப் பயன்படுத்துவோம் ஸ்க்ரேப் செய்ய மேற்கோள்கள் இணையதளம்.

வலைத்தளங்களில் உள்நுழைவதற்கு பயனர்பெயர் மற்றும் கடவுச்சொல் போன்ற தகவல்கள் தேவை.

எனினும் இந்த இணையதளம் வெறும் கருத்தின் சான்றாக பயன்படுத்தப்படுவதால், எதுவும் போகும். எனவே நாங்கள் பயன்படுத்துவோம் நிர்வாகம் பயனர்பெயராக மற்றும் 12345 கடவுச்சொல்லாக.

முதலில், பக்கத்தின் மூலத்தைப் பார்ப்பது முக்கியம், ஏனெனில் இது வலைப்பக்கத்தின் கட்டமைப்பைப் பற்றிய ஒரு கண்ணோட்டத்தை அளிக்கும். வலைப்பக்கத்தில் வலது கிளிக் செய்து பக்க மூலத்தைப் பார்க்க கிளிக் செய்வதன் மூலம் இதைச் செய்யலாம். அடுத்து, நீங்கள் உள்நுழைவு படிவத்தை ஆய்வு செய்யுங்கள். உள்நுழைவு பெட்டிகளில் ஒன்றில் வலது கிளிக் செய்து கிளிக் செய்வதன் மூலம் இதைச் செய்யலாம் உறுப்பு ஆய்வு . உறுப்பை ஆய்வு செய்யும் போது, ​​நீங்கள் பார்க்க வேண்டும் உள்ளீடு குறிச்சொற்கள் மற்றும் பின்னர் ஒரு பெற்றோர் வடிவம் அதற்கு மேலே எங்காவது டேக் செய்யவும். உள்நுழைவுகள் அடிப்படையில் வடிவங்கள் இருப்பதை இது காட்டுகிறது அஞ்சல் வலைத்தளத்தின் சேவையகப் பக்கத்திற்கு மாற்றப்பட்டது.

இப்போது, ​​குறிப்பு பெயர் பயனர்பெயர் மற்றும் கடவுச்சொல் பெட்டிகளுக்கான உள்ளீட்டு குறிச்சொற்களின் பண்பு, குறியீட்டை எழுதும் போது அவை தேவைப்படும். இந்த வலைத்தளத்திற்கு, தி பெயர் பயனர்பெயர் மற்றும் கடவுச்சொல்லின் பண்புக்கூறு பயனர்பெயர் மற்றும் கடவுச்சொல் முறையே.

அடுத்து, உள்நுழைவதற்கு முக்கியமான வேறு அளவுருக்கள் உள்ளனவா என்பதை நாம் தெரிந்து கொள்ள வேண்டும். இதை விரைவாக விளக்குவோம். வலைத்தளங்களின் பாதுகாப்பை அதிகரிக்க, கிராஸ் சைட் ஃபோர்கரி தாக்குதல்களைத் தடுக்க டோக்கன்கள் பொதுவாக உருவாக்கப்படுகின்றன.

எனவே, அந்த டோக்கன்கள் POST கோரிக்கையில் சேர்க்கப்படாவிட்டால், உள்நுழைவு தோல்வியடையும். அப்படிப்பட்ட அளவுருக்களைப் பற்றி நமக்கு எப்படித் தெரியும்?

நாங்கள் நெட்வொர்க் தாவலைப் பயன்படுத்த வேண்டும். இந்த தாவலை Google Chrome அல்லது Mozilla Firefox இல் பெற, டெவலப்பர் கருவிகளைத் திறந்து நெட்வொர்க் தாவலைக் கிளிக் செய்யவும்.

நீங்கள் நெட்வொர்க் தாவலில் இருந்தவுடன், தற்போதைய பக்கத்தைப் புதுப்பிக்க முயற்சிக்கவும், கோரிக்கைகள் வருவதை நீங்கள் கவனிப்பீர்கள். நாங்கள் உள்நுழைய முயற்சிக்கும்போது POST கோரிக்கைகள் அனுப்பப்படுவதை நீங்கள் கவனிக்க வேண்டும்.

நெட்வொர்க் தாவலைத் திறக்கும்போது நாம் அடுத்து என்ன செய்வோம் என்பது இங்கே. உள்நுழைவு விவரங்களை வைத்து உள்நுழைய முயற்சிக்கவும், நீங்கள் பார்க்கும் முதல் கோரிக்கை POST கோரிக்கையாக இருக்க வேண்டும்.

POST கோரிக்கையை கிளிக் செய்து படிவ அளவுருக்கள் பார்க்கவும். வலைத்தளத்தில் ஒரு இருப்பதை நீங்கள் கவனிப்பீர்கள் csrf_token மதிப்பு கொண்ட அளவுரு. அந்த மதிப்பு ஒரு டைனமிக் மதிப்பு, எனவே நாம் அத்தகைய மதிப்புகளைப் பயன்படுத்திப் பிடிக்க வேண்டும் பெறு பயன்படுத்துவதற்கு முன் முதலில் கோரிக்கை அஞ்சல் கோரிக்கை

நீங்கள் வேலை செய்யும் மற்ற வலைத்தளங்களுக்கு, ஒருவேளை நீங்கள் பார்க்காமல் இருக்கலாம் csrf_token ஆனால் மாறும் வகையில் உருவாக்கப்பட்ட மற்ற டோக்கன்கள் இருக்கலாம். காலப்போக்கில், உள்நுழைவு முயற்சியில் உண்மையிலேயே முக்கியமான அளவுருக்களை அறிந்து கொள்வதில் நீங்கள் சிறந்து விளங்குவீர்கள்.

குறியீடு

முதலில், உள்நுழைவு பக்கத்தின் பக்க உள்ளடக்கத்திற்கான அணுகலைப் பெற நாம் கோரிக்கைகள் மற்றும் BeautifulSoup ஐப் பயன்படுத்த வேண்டும்.

இருந்துகோரிக்கைகளைஇறக்குமதிஅமர்வு
இருந்துbs4இறக்குமதிஅழகான சூப்எனbs

உடன்அமர்வு() எனகள்:
தளம் =கள்பெறு('http://quotes.toscrape.com/login')
அச்சு(தளம்.உள்ளடக்கம்)

நாங்கள் உள்நுழைவதற்கு முன் உள்நுழைவு பக்கத்தின் உள்ளடக்கத்தை அச்சிடலாம் மற்றும் நீங்கள் உள்நுழைவு முக்கிய வார்த்தையைத் தேடுகிறீர்கள். நாம் இன்னும் உள்நுழையவில்லை என்பதைக் காட்டும் முக்கிய உள்ளடக்கம் பக்க உள்ளடக்கத்தில் காணப்படும்.

அடுத்து, நாம் தேடுவோம் csrf_token முன்னதாக நெட்வொர்க் தாவலைப் பயன்படுத்தும் போது அளவுருக்களில் ஒன்றாகக் காணப்பட்ட முக்கிய சொல். முக்கிய சொல் ஒரு பொருத்தத்தைக் காட்டினால் உள்ளீடு டேக், பின்னர் ஒவ்வொரு முறையும் நீங்கள் பியூட்டிஃபுல் சூப்பைப் பயன்படுத்தி ஸ்கிரிப்டை இயக்கும்போது மதிப்பைப் பிரித்தெடுக்கலாம்.

இருந்துகோரிக்கைகளைஇறக்குமதிஅமர்வு
இருந்துbs4இறக்குமதிஅழகான சூப்எனbs

உடன்அமர்வு() எனகள்:
தளம் =கள்பெறு('http://quotes.toscrape.com/login')
bs_ உள்ளடக்கம்=bs(தளம்.உள்ளடக்கம், 'html.parser')
டோக்கன் =bs_ உள்ளடக்கம்.கண்டுபிடிக்க('உள்ளீடு', {'பெயர்':'csrf_token'})['மதிப்பு']
உள்நுழைவு_ தரவு= {'பயனர்பெயர்':'நிர்வாகம்','கடவுச்சொல்':'12345', 'csrf_token':டோக்கன்}
கள்அஞ்சல்('http://quotes.toscrape.com/login',உள்நுழைவு_ தரவு)
முகப்பு_பக்கம்=கள்பெறு('http://quotes.toscrape.com')
அச்சு(முகப்பு_பக்கம்.உள்ளடக்கம்)

உள்நுழைந்த பிறகு பக்கத்தின் உள்ளடக்கத்தை இது அச்சிடும், மேலும் நீங்கள் வெளியேறும் முக்கிய வார்த்தையைத் தேடினால். நாம் வெற்றிகரமாக உள்நுழைய முடிந்தது என்பதைக் காட்டும் முக்கிய உள்ளடக்கம் பக்க உள்ளடக்கத்தில் காணப்படும்.

குறியீட்டின் ஒவ்வொரு வரியையும் பார்ப்போம்.

இருந்துகோரிக்கைகளைஇறக்குமதிஅமர்வு
இருந்துbs4இறக்குமதிஅழகான சூப்எனbs

மேலே உள்ள குறியீட்டின் கோடுகள் கோரிக்கைகள் நூலகத்திலிருந்து அமர்வு பொருளையும் மற்றும் bs4 நூலகத்திலிருந்து அழகான சூப் பொருளையும் மாற்றுப்பெயரைப் பயன்படுத்தி இறக்குமதி செய்யப் பயன்படுகிறது. bs .

உடன்அமர்வு() எனகள்:

நீங்கள் கோரிக்கையின் சூழலை வைத்துக்கொள்ளும் போது கோரிக்கை அமர்வு பயன்படுத்தப்படுகிறது, எனவே அந்த கோரிக்கை அமர்வின் குக்கீகள் மற்றும் அனைத்து தகவல்களும் சேமிக்கப்படும்.

bs_ உள்ளடக்கம்=bs(தளம்.உள்ளடக்கம், 'html.parser')
டோக்கன் =bs_ உள்ளடக்கம்.கண்டுபிடிக்க('உள்ளீடு', {'பெயர்':'csrf_token'})['மதிப்பு']

இந்த குறியீடு இங்கே பியூட்டிஃபுல் சூப் நூலகத்தைப் பயன்படுத்துகிறது csrf_token வலைப்பக்கத்திலிருந்து பிரித்தெடுக்கப்பட்டு பின்னர் டோக்கன் மாறிக்கு ஒதுக்கப்படும். பியூட்டிஃபுல் சூப்பைப் பயன்படுத்தி முனையிலிருந்து தரவைப் பிரித்தெடுப்பது பற்றி நீங்கள் அறியலாம்.

உள்நுழைவு_ தரவு= {'பயனர்பெயர்':'நிர்வாகம்','கடவுச்சொல்':'12345', 'csrf_token':டோக்கன்}
கள்அஞ்சல்('http://quotes.toscrape.com/login',உள்நுழைவு_ தரவு)

இங்குள்ள குறியீடு உள்நுழைவதற்குப் பயன்படுத்தப்படும் அளவுருக்களின் அகராதியை உருவாக்குகிறது. அகராதிகளின் விசைகள் பெயர் உள்ளீட்டு குறிச்சொற்களின் பண்புகள் மற்றும் மதிப்புகள் மதிப்பு உள்ளீட்டு குறிச்சொற்களின் பண்புக்கூறுகள்.

தி அஞ்சல் அளவுருக்களுடன் ஒரு இடுகை கோரிக்கையை அனுப்ப மற்றும் எங்களை உள்நுழைய இந்த முறை பயன்படுத்தப்படுகிறது.

முகப்பு_பக்கம்=கள்பெறு('http://quotes.toscrape.com')
அச்சு(முகப்பு_பக்கம்.உள்ளடக்கம்)

உள்நுழைவுக்குப் பிறகு, மேலே உள்ள குறியீட்டின் கோடுகள் உள்நுழைவு வெற்றிகரமாக இருப்பதைக் காட்ட பக்கத்திலிருந்து தகவல்களைப் பிரித்தெடுக்கின்றன.

முடிவுரை

பைத்தானைப் பயன்படுத்தி வலைத்தளங்களில் உள்நுழைவதற்கான செயல்முறை மிகவும் எளிதானது, இருப்பினும் வலைத்தளங்களின் அமைப்பு ஒரே மாதிரியாக இல்லை, எனவே சில தளங்கள் மற்றவர்களை விட உள்நுழைவது மிகவும் கடினம். உங்களிடம் உள்ள உள்நுழைவு சவால்களை சமாளிக்க இன்னும் நிறைய செய்ய முடியும்.

இவை அனைத்திலும் மிக முக்கியமான விஷயம், HTML, கோரிக்கைகள், அழகான சூப் பற்றிய அறிவு மற்றும் உங்கள் வலை உலாவியின் டெவலப்பர் கருவிகளின் நெட்வொர்க் தாவலில் இருந்து பெறப்பட்ட தகவல்களைப் புரிந்துகொள்ளும் திறன்.