HTML பக்கத்தில் ஒரு உறுப்பைக் கண்டுபிடிக்க XPath மற்றும் Selenium ஐப் பயன்படுத்துதல்

எக்ஸ்எம்எல் பாத் மொழி என்றும் அழைக்கப்படும் எக்ஸ்பாத், எக்ஸ்எம்எல் ஆவணத்திலிருந்து உறுப்புகளைத் தேர்ந்தெடுக்கும் மொழி. HTML மற்றும் XML ஆகியவை ஒரே ஆவண அமைப்பைப் பின்பற்றுவதால், ஒரு வலைப்பக்கத்திலிருந்து உறுப்புகளைத் தேர்ந்தெடுக்க XPath ஐப் பயன்படுத்தலாம்.

வலைப்பக்கத்திலிருந்து உறுப்புகளை கண்டறிதல் மற்றும் தேர்ந்தெடுப்பது செலினியம் மூலம் வலை ஸ்கிராப்பிங்கிற்கு முக்கியமாகும். வலைப்பக்கத்திலிருந்து உறுப்புகளைக் கண்டறிந்து தேர்ந்தெடுக்க, நீங்கள் செலினியத்தில் XPath தேர்வாளர்களைப் பயன்படுத்தலாம்.

இந்த கட்டுரையில், செலினியம் பைதான் நூலகத்துடன் செலினியத்தில் எக்ஸ்பாத் தேர்வாளர்களைப் பயன்படுத்தி வலைப் பக்கங்களிலிருந்து உறுப்புகளை எவ்வாறு கண்டறிவது மற்றும் தேர்ந்தெடுப்பது என்பதை நான் உங்களுக்குக் காண்பிக்கப் போகிறேன். எனவே, ஆரம்பிக்கலாம்.

முன்நிபந்தனைகள்:

இந்த கட்டுரையின் கட்டளைகளையும் எடுத்துக்காட்டுகளையும் முயற்சிக்க, உங்களிடம் இருக்க வேண்டும்,

உங்கள் கணினியில் ஒரு லினக்ஸ் விநியோகம் (முன்னுரிமை உபுண்டு) நிறுவப்பட்டுள்ளது.
உங்கள் கணினியில் பைதான் 3 நிறுவப்பட்டுள்ளது.
உங்கள் கணினியில் PIP 3 நிறுவப்பட்டுள்ளது.
பைதான் virtualenv உங்கள் கணினியில் தொகுப்பு நிறுவப்பட்டுள்ளது.
உங்கள் கணினியில் Mozilla Firefox அல்லது Google Chrome இணைய உலாவிகள் நிறுவப்பட்டுள்ளன.
பயர்பாக்ஸ் கெக்கோ டிரைவர் அல்லது குரோம் வெப் டிரைவரை எப்படி நிறுவ வேண்டும் என்பதை அறிந்திருக்க வேண்டும்.

4, 5 மற்றும் 6 தேவைகளை பூர்த்தி செய்ய, எனது கட்டுரையைப் படியுங்கள் பைதான் 3 இல் செலினியம் அறிமுகம் . மற்ற தலைப்புகளில் பல கட்டுரைகளை நீங்கள் காணலாம் LinuxHint.com . உங்களுக்கு ஏதேனும் உதவி தேவைப்பட்டால் அவற்றை சரிபார்க்கவும்.

திட்ட கோப்பகத்தை அமைத்தல்:

எல்லாவற்றையும் ஒழுங்கமைக்க, ஒரு புதிய திட்ட கோப்பகத்தை உருவாக்கவும் செலினியம்-எக்ஸ்பாத்/ பின்வருமாறு:

$mkdir -பிவிசெலினியம்-எக்ஸ்பாத்/ஓட்டுனர்கள்

க்கு செல்லவும் செலினியம்-எக்ஸ்பாத்/ திட்ட அடைவு பின்வருமாறு:

$குறுவட்டுசெலினியம்-எக்ஸ்பாத்/

பின்வருமாறு திட்ட கோப்பகத்தில் ஒரு பைதான் மெய்நிகர் சூழலை உருவாக்கவும்:

$virtualenv .venv

மெய்நிகர் சூழலை பின்வருமாறு செயல்படுத்தவும்:

$ஆதாரம்.venv/நான்/செயல்படுத்த

பின்வருமாறு PIP3 ஐப் பயன்படுத்தி செலினியம் பைதான் நூலகத்தை நிறுவவும்:

$ pip3 செலினியம் நிறுவவும்

தேவையான அனைத்து இணைய இயக்கியையும் பதிவிறக்கி நிறுவவும் ஓட்டுனர்கள்/ திட்டத்தின் அடைவு. எனது கட்டுரையில் வலை இயக்கிகளை பதிவிறக்கம் செய்து நிறுவும் செயல்முறையை விளக்கியுள்ளேன் பைதான் 3 இல் செலினியம் அறிமுகம் .

Chrome டெவலப்பர் கருவியைப் பயன்படுத்தி XPath தேர்வாளரைப் பெறுங்கள்:

இந்த பிரிவில், கூகிள் குரோம் இணைய உலாவியின் உள்ளமைக்கப்பட்ட டெவலப்பர் கருவியைப் பயன்படுத்தி செலினியம் மூலம் நீங்கள் தேர்ந்தெடுக்க விரும்பும் வலைப்பக்க உறுப்பின் எக்ஸ்பாத் தேர்வாளரை எவ்வாறு கண்டுபிடிப்பது என்பதை நான் உங்களுக்குக் காண்பிக்கப் போகிறேன்.

Google Chrome இணைய உலாவியைப் பயன்படுத்தி XPath தேர்வாளரைப் பெற, Google Chrome ஐத் திறந்து, நீங்கள் தரவைப் பிரித்தெடுக்க விரும்பும் வலைத்தளத்தைப் பார்வையிடவும். பின்னர், பக்கத்தின் காலியான பகுதியில் வலது சுட்டி பொத்தானை (RMB) அழுத்தவும் மற்றும் கிளிக் செய்யவும் ஆய்வு செய்யவும் திறக்க குரோம் டெவலப்பர் கருவி .

நீங்களும் அழுத்தலாம் + ஷிப்ட் + நான் திறக்க குரோம் டெவலப்பர் கருவி .

குரோம் டெவலப்பர் கருவி திறக்கப்பட வேண்டும்.

நீங்கள் விரும்பிய வலைப்பக்க உறுப்பின் HTML பிரதிநிதித்துவத்தைக் கண்டுபிடிக்க, கிளிக் செய்யவும் ஆய்வு செய்யவும் (

ஐகான், கீழே உள்ள ஸ்கிரீன்ஷாட்டில் குறிக்கப்பட்டுள்ளது.

பின்னர், உங்களுக்கு விருப்பமான வலைப்பக்க உறுப்பின் மீது வட்டமிட்டு, அதை தேர்ந்தெடுக்க இடது சுட்டி பொத்தானை (LMB) அழுத்தவும்.

நீங்கள் தேர்ந்தெடுத்த வலை உறுப்பின் HTML பிரதிநிதித்துவம் இதில் முன்னிலைப்படுத்தப்படும் கூறுகள் என்ற தாவல் குரோம் டெவலப்பர் கருவி, கீழே உள்ள ஸ்கிரீன்ஷாட்டில் நீங்கள் பார்க்க முடியும்.

நீங்கள் விரும்பும் உறுப்பின் XPath தேர்வாளரைப் பெற, அதில் இருந்து உறுப்பைத் தேர்ந்தெடுக்கவும் கூறுகள் என்ற தாவல் குரோம் டெவலப்பர் கருவி மற்றும் அதில் (RMB) வலது கிளிக் செய்யவும். பிறகு, தேர்ந்தெடுக்கவும் நகல் > எக்ஸ்பாத்தை நகலெடுக்கவும், கீழே உள்ள ஸ்கிரீன்ஷாட்டில் குறிக்கப்பட்டுள்ளது.

நான் எக்ஸ்பாத் தேர்வை ஒரு உரை எடிட்டரில் ஒட்டியுள்ளேன். கீழே உள்ள ஸ்கிரீன்ஷாட்டில் காட்டப்பட்டுள்ளபடி XPath தேர்வாளர் தெரிகிறது.

பயர்பாக்ஸ் டெவலப்பர் கருவியைப் பயன்படுத்தி எக்ஸ்பாத் தேர்வைப் பெறுங்கள்:

இந்த பகுதியில், மொஸில்லா பயர்பாக்ஸ் இணைய உலாவியின் உள்ளமைக்கப்பட்ட டெவலப்பர் கருவியைப் பயன்படுத்தி செலினியம் மூலம் நீங்கள் தேர்ந்தெடுக்க விரும்பும் வலைப்பக்க உறுப்பின் எக்ஸ்பாத் தேர்வாளரை எவ்வாறு கண்டுபிடிப்பது என்பதை நான் உங்களுக்குக் காண்பிக்கப் போகிறேன்.

பயர்பாக்ஸ் வலை உலாவியைப் பயன்படுத்தி எக்ஸ்பாத் தேர்வாளரைப் பெற, பயர்பாக்ஸைத் திறந்து நீங்கள் தரவைப் பிரித்தெடுக்க விரும்பும் வலைத்தளத்தைப் பார்வையிடவும். பின்னர், பக்கத்தின் காலியான பகுதியில் வலது சுட்டி பொத்தானை (RMB) அழுத்தவும் மற்றும் கிளிக் செய்யவும் உறுப்பை ஆய்வு (கே) திறக்க பயர்பாக்ஸ் டெவலப்பர் கருவி .

பயர்பாக்ஸ் டெவலப்பர் கருவி திறக்கப்பட வேண்டும்.

நீங்கள் தேர்ந்தெடுத்த வலை உறுப்பின் HTML பிரதிநிதித்துவம் இதில் முன்னிலைப்படுத்தப்படும் இன்ஸ்பெக்டர் என்ற தாவல் பயர்பாக்ஸ் டெவலப்பர் கருவி, கீழே உள்ள ஸ்கிரீன்ஷாட்டில் நீங்கள் பார்க்க முடியும்.

நீங்கள் விரும்பும் உறுப்பின் XPath தேர்வாளரைப் பெற, அதில் இருந்து உறுப்பைத் தேர்ந்தெடுக்கவும் இன்ஸ்பெக்டர் என்ற தாவல் பயர்பாக்ஸ் டெவலப்பர் கருவி மற்றும் அதில் (RMB) வலது கிளிக் செய்யவும். பிறகு, தேர்ந்தெடுக்கவும் நகல் > XPath கீழே உள்ள ஸ்கிரீன்ஷாட்டில் குறிக்கப்பட்டுள்ளது.

நீங்கள் விரும்பும் உறுப்பின் எக்ஸ்பாத் தேர்வாளர் இதுபோன்று இருக்க வேண்டும்.

எக்ஸ்பாத் தேர்வாளரைப் பயன்படுத்தி வலைப் பக்கங்களிலிருந்து தரவைப் பிரித்தெடுத்தல்:

இந்த பிரிவில், செலினியம் பைதான் நூலகத்துடன் எக்ஸ்பாத் தேர்வாளர்களைப் பயன்படுத்தி இணையப் பக்க உறுப்புகளைத் தேர்ந்தெடுத்து அவற்றிலிருந்து தரவைப் பிரித்தெடுப்பது எப்படி என்பதை நான் உங்களுக்குக் காண்பிக்கப் போகிறேன்.

முதலில், ஒரு புதிய பைதான் ஸ்கிரிப்டை உருவாக்கவும் ex01.py பின்வரும் குறியீடுகளின் வரிகளை உள்ளிடவும்.

இருந்துசெலினியம்இறக்குமதிவெப் டிரைவர்
இருந்துசெலினியம்வெப் டிரைவர்.பொதுவான.விசைகள் இறக்குமதிவிசைகள்
இருந்துசெலினியம்வெப் டிரைவர்.பொதுவான.மூலம் இறக்குமதிமூலம்
விருப்பங்கள்=வெப் டிரைவர்.ChromeOptions()
விருப்பங்கள்.தலை இல்லாத = உண்மை
உலாவி=வெப் டிரைவர்.குரோம்(இயங்கக்கூடிய பாதை='./drivers/chromedriver',
விருப்பங்கள்=விருப்பங்கள்)
உலாவிபெறு('https://www.unixtimestamp.com/')
நேர முத்திரை=உலாவிஎக்ஸ்பாத் மூலம் எலிமென்ட்_ கண்டுபிடி('/html/body/div [1]/div [1]
/div [2]/div [1]/div/div/h3 [2] ')
அச்சு('தற்போதைய நேர முத்திரை: %s'%(நேர முத்திரை.உரை.பிளவு('')[0]))
உலாவிநெருக்கமான()

நீங்கள் முடித்தவுடன், சேமிக்கவும் ex01.py பைதான் ஸ்கிரிப்ட்.

வரி 1-3 தேவையான அனைத்து செலினியம் கூறுகளையும் இறக்குமதி செய்கிறது.

வரி 5 ஒரு Chrome விருப்பங்கள் பொருளை உருவாக்குகிறது, மேலும் வரி 6 Chrome இணைய உலாவிக்கு தலை இல்லாத பயன்முறையை செயல்படுத்துகிறது.

வரி 8 ஒரு Chrome ஐ உருவாக்குகிறது உலாவி பொருளைப் பயன்படுத்தி குரோமெட்ரைவர் இருந்து பைனரி ஓட்டுனர்கள்/ திட்டத்தின் அடைவு.

வரி 10 உலாவியை unixtimestamp.com வலைத்தளத்தை ஏற்றச் சொல்கிறது.

XPath தேர்வாளரைப் பயன்படுத்தி பக்கத்திலிருந்து நேர முத்திரை தரவைக் கொண்ட உறுப்பை வரி 12 கண்டறிந்து அதை சேமித்து வைக்கிறது நேர முத்திரை மாறி.

வரி 13 உறுப்பு இருந்து நேர முத்திரை தரவு பாகுபடுத்தி அதை கன்சோலில் அச்சிடுகிறது.

குறிக்கப்பட்ட XPath தேர்வாளரை நகலெடுத்துள்ளேன் h2 இருந்து உறுப்பு unixtimestamp.com Chrome டெவலப்பர் கருவியைப் பயன்படுத்துதல்.

14 வது வரி உலாவியை மூடுகிறது.

பைதான் ஸ்கிரிப்டை இயக்கவும் ex01.py பின்வருமாறு:

$ python3 ex01.பை

நீங்கள் பார்க்க முடியும் என, நேர முத்திரை தரவு திரையில் அச்சிடப்படுகிறது.

இங்கே, நான் பயன்படுத்தினேன் browser.find_element_by_xpath (தேர்வி) முறை இந்த முறையின் ஒரே அளவுரு தேர்வாளர், உறுப்பின் எக்ஸ்பாத் தேர்வாளர்.

அதற்கு பதிலாக browser.find_element_by_xpath () முறை, நீங்கள் பயன்படுத்தலாம் browser.find_element (மூலம், தேர்வாளர்) முறை இந்த முறைக்கு இரண்டு அளவுருக்கள் தேவை. முதல் அளவுரு மூலம் இருக்கும் XPATH மூலம் நாங்கள் எக்ஸ்பாத் தேர்வாளர் மற்றும் இரண்டாவது அளவுருவைப் பயன்படுத்துவோம் தேர்வாளர் XPath தேர்வாளராக இருக்கும். முடிவு ஒரே மாதிரியாக இருக்கும்.

எப்படி என்று பார்க்க browser.find_element () எக்ஸ்பாத் தேர்வாளருக்கு முறை வேலை செய்கிறது, புதிய பைதான் ஸ்கிரிப்டை உருவாக்கவும் ex02.py , அனைத்து வரிகளையும் நகலெடுத்து ஒட்டவும் ex01.py க்கு ex02.py மற்றும் மாற்றம் வரி 12 கீழே உள்ள ஸ்கிரீன்ஷாட்டில் குறிக்கப்பட்டுள்ளது.

நீங்கள் பார்க்க முடியும் என, பைதான் ஸ்கிரிப்ட் ex02.py அதே முடிவை அளிக்கிறது ex01.py .

$ python3 ex02.பை

தி browser.find_element_by_xpath () மற்றும் browser.find_element () வலைப்பக்கங்களிலிருந்து ஒரு தனிமத்தைக் கண்டறிந்து தேர்ந்தெடுக்க முறைகள் பயன்படுத்தப்படுகின்றன. எக்ஸ்பாத் தேர்வாளர்களைப் பயன்படுத்தி பல உறுப்புகளைக் கண்டறிந்து தேர்ந்தெடுக்க விரும்பினால், நீங்கள் பயன்படுத்த வேண்டும் browser.find_elements_by_xpath () அல்லது browser.find_elements () முறைகள்.

தி browser.find_elements_by_xpath () முறை அதே வாதத்தை எடுக்கும் browser.find_element_by_xpath () முறை

தி browser.find_elements () முறை அதே வாதங்களை எடுத்துக்கொள்கிறது browser.find_element () முறை

எக்ஸ்பாத் தேர்வாளரைப் பயன்படுத்தி பெயர்களின் பட்டியலைப் பிரித்தெடுப்பதற்கான உதாரணத்தைப் பார்ப்போம் random-name-generator.info செலினியம் பைதான் நூலகத்துடன்.

வரிசைப்படுத்தப்படாத பட்டியல் ( இறக்க குறிச்சொல்) 10 ஐக் கொண்டுள்ளது இல் ஒவ்வொன்றின் உள்ளே உள்ள குறிச்சொற்கள் சீரற்ற பெயரைக் கொண்டிருக்கும். அனைத்தையும் தேர்ந்தெடுக்க XPath இல் உள்ளே குறிச்சொற்கள் இறக்க இந்த வழக்கில் டேக் உள்ளது //*[@id = main]/div [3]/div [2]/ol // li

எக்ஸ்பாத் தேர்வாளர்களைப் பயன்படுத்தி வலைப் பக்கத்திலிருந்து பல உறுப்புகளைத் தேர்ந்தெடுப்பதற்கான ஒரு உதாரணத்தைப் பார்ப்போம்.

புதிய பைதான் ஸ்கிரிப்டை உருவாக்கவும் ex03.py மற்றும் பின்வரும் குறியீடுகளின் வரிகளை அதில் தட்டச்சு செய்யவும்.

இருந்துசெலினியம்இறக்குமதிவெப் டிரைவர்
இருந்துசெலினியம்வெப் டிரைவர்.பொதுவான.விசைகள் இறக்குமதிவிசைகள்
இருந்துசெலினியம்வெப் டிரைவர்.பொதுவான.மூலம் இறக்குமதிமூலம்
விருப்பங்கள்=வெப் டிரைவர்.ChromeOptions()
விருப்பங்கள்.தலை இல்லாத = உண்மை
உலாவி=வெப் டிரைவர்.குரோம்(இயங்கக்கூடிய பாதை='./drivers/chromedriver',
விருப்பங்கள்=விருப்பங்கள்)
உலாவிபெறு('http://random-name-generator.info/')
பெயர்கள்=உலாவிஎக்ஸ்பாத் மூலம் உறுப்புகளைக் கண்டறியவும்('
//*[@id = 'main']/div [3]/div [2]/ol // li ')
க்கானபெயர்இல்பெயர்கள்:
அச்சு(பெயர்உரை)
உலாவிநெருக்கமான()

நீங்கள் முடித்தவுடன், சேமிக்கவும் ex03.py பைதான் ஸ்கிரிப்ட்.

வரி 1-8 இல் உள்ளதைப் போன்றது ex01.py பைதான் ஸ்கிரிப்ட். எனவே, நான் அவற்றை மீண்டும் இங்கு விளக்கப் போவதில்லை.

வரி 10 உலாவியை random-name-generator.info என்ற இணையதளத்தை ஏற்றுமாறு சொல்கிறது.

வரி 12 பெயர் பட்டியலை பயன்படுத்தி தேர்வு செய்கிறது browser.find_elements_by_xpath () முறை இந்த முறை எக்ஸ்பாத் தேர்வைப் பயன்படுத்துகிறது //*[@id = main]/div [3]/div [2]/ol // li பெயர் பட்டியலைக் கண்டுபிடிக்க. பின்னர், பெயர் பட்டியல் சேமிக்கப்படுகிறது பெயர்கள் மாறி.

13 மற்றும் 14 வரிகளில், ஏ க்கான லூப் மூலம் மீண்டும் செய்ய பயன்படுத்தப்படுகிறது பெயர்கள் கன்சோலில் பெயர்களை பட்டியலிட்டு அச்சிடவும்.

வரி 16 உலாவியை மூடுகிறது.

பைதான் ஸ்கிரிப்டை இயக்கவும் ex03.py பின்வருமாறு:

$ python3 ex03.பை

நீங்கள் பார்க்க முடியும் என, பெயர்கள் வலைப்பக்கத்திலிருந்து பிரித்தெடுக்கப்பட்டு கன்சோலில் அச்சிடப்படுகின்றன.

பயன்படுத்துவதற்கு பதிலாக browser.find_elements_by_xpath () முறை, நீங்கள் பயன்படுத்தலாம் browser.find_elements () முன்பு போல் முறை. இந்த முறையின் முதல் வாதம் எக்ஸ்பாத், இரண்டாவது வாதம் எக்ஸ்பாத் தேர்வாளர்.

பரிசோதனை செய்ய browser.find_elements () முறை, ஒரு புதிய பைதான் ஸ்கிரிப்டை உருவாக்கவும் ex04.py , எல்லா குறியீடுகளையும் நகலெடுக்கவும் ex03.py க்கு ex04.py கீழே உள்ள ஸ்கிரீன்ஷாட்டில் குறிப்பிடப்பட்டுள்ளபடி வரி 12 ஐ மாற்றவும்.

நீங்கள் முன்பு போலவே அதே முடிவைப் பெற வேண்டும்.

$ python3 ex04.பை

எக்ஸ்பாத் தேர்வாளரின் அடிப்படைகள்:

ஃபயர்பாக்ஸ் அல்லது கூகுள் குரோம் இணைய உலாவியின் டெவலப்பர் கருவி தானாகவே எக்ஸ்பாத் தேர்வை உருவாக்குகிறது. ஆனால் இந்த XPath தேர்வாளர்கள் சில நேரங்களில் உங்கள் திட்டத்திற்கு போதுமானதாக இல்லை. அப்படியானால், உங்கள் எக்ஸ்பாத் தேர்வை உருவாக்க ஒரு குறிப்பிட்ட எக்ஸ்பாத் தேர்வாளர் என்ன செய்கிறார் என்பதை நீங்கள் தெரிந்து கொள்ள வேண்டும். இந்த பிரிவில், எக்ஸ்பாத் தேர்வாளர்களின் அடிப்படைகளை நான் உங்களுக்குக் காட்டப் போகிறேன். பிறகு, நீங்கள் உங்கள் சொந்த XPath தேர்வாளரை உருவாக்க முடியும்.

புதிய கோப்பகத்தை உருவாக்கவும் www/ உங்கள் திட்டக் கோப்பகத்தில் பின்வருமாறு:

$mkdir -விwww

புதிய கோப்பை உருவாக்கவும் web01.html இல் www/ அந்த கோப்பில் பின்வரும் வரிகளை அடைவு மற்றும் தட்டச்சு செய்யவும்.

நீங்கள் முடித்தவுடன், சேமிக்கவும் web01.html கோப்பு.

பின்வரும் கட்டளையைப் பயன்படுத்தி போர்ட் 8080 இல் ஒரு எளிய HTTP சேவையகத்தை இயக்கவும்:

$ python3 -m http.சர்வர்-அடைவு www/8080

HTTP சேவையகம் தொடங்க வேண்டும்.

நீங்கள் அணுக முடியும் web01.html URL ஐ பயன்படுத்தி கோப்பு http: // Localhost: 8080/web01.html , கீழே உள்ள ஸ்கிரீன்ஷாட்டில் நீங்கள் பார்க்க முடியும்.

பயர்பாக்ஸ் அல்லது குரோம் டெவலப்பர் கருவி திறக்கப்படும் போது, அழுத்தவும் + எஃப் தேடல் பெட்டியைத் திறக்க. உங்கள் எக்ஸ்பாத் தேர்வாளரை இங்கே தட்டச்சு செய்யலாம் மற்றும் அது எதை எளிதாக தேர்ந்தெடுக்கிறது என்று பார்க்கலாம். இந்தப் பகுதி முழுவதும் இந்தக் கருவியைப் பயன்படுத்தப் போகிறேன்.

ஒரு எக்ஸ்பாத் தேர்வி a உடன் தொடங்குகிறது முன்னோக்கி சாய்வு (/) பெரும்பாலான நேரம். இது லினக்ஸ் அடைவு மரம் போன்றது. தி / வலைப்பக்கத்தில் உள்ள அனைத்து கூறுகளின் மூலமாகும்.

முதல் உறுப்பு html . எனவே, எக்ஸ்பாத் தேர்வாளர் /html முழுவதையும் தேர்ந்தெடுக்கிறது html குறிச்சொல்.

உள்ளே html குறிச்சொல், எங்களிடம் உள்ளது உடல் குறிச்சொல். தி உடல் குறிச்சொல்லை எக்ஸ்பாத் தேர்வி மூலம் தேர்ந்தெடுக்கலாம் /html/உடல்

தி h1 தலைப்பு உள்ளே உள்ளது உடல் குறிச்சொல். தி h1 தலைப்பை எக்ஸ்பாத் தேர்வி மூலம் தேர்ந்தெடுக்கலாம் /html/உடல்/h1

இந்த வகை எக்ஸ்பாத் தேர்வாளர் ஒரு முழுமையான பாதை தேர்வாளர் என்று அழைக்கப்படுகிறார். முழுமையான பாதை தேர்வில், நீங்கள் பக்கத்தின் ரூட் (/) இலிருந்து வலைப்பக்கத்தை கடக்க வேண்டும். ஒரு முழுமையான பாதை தேர்வாளரின் தீமை என்னவென்றால், வலைப்பக்க கட்டமைப்பில் சிறிதளவு மாற்றம் கூட உங்கள் XPath தேர்வை செல்லாததாக்கலாம். இந்தப் பிரச்சினைக்கான தீர்வு உறவினர் அல்லது பகுதி எக்ஸ்பாத் தேர்வாளர்.

உறவினர் பாதை அல்லது பகுதி பாதை எப்படி வேலை செய்கிறது என்பதைப் பார்க்க, ஒரு புதிய கோப்பை உருவாக்கவும் web02.html இல் www/ அடைவு மற்றும் அதில் பின்வரும் வரிகளின் குறியீடுகளை உள்ளிடவும்.

நீங்கள் முடித்தவுடன், சேமிக்கவும் web02.html கோப்பு மற்றும் உங்கள் இணைய உலாவியில் ஏற்றவும்.

நீங்கள் பார்க்க முடியும் என, எக்ஸ்பாத் தேர்வாளர் // div/p தேர்ந்தெடுக்கும் ப உள்ளே குறிச்சொல் div குறிச்சொல். உறவினர் எக்ஸ்பாத் தேர்வாளருக்கு இது ஒரு எடுத்துக்காட்டு.

உறவினர் எக்ஸ்பாத் தேர்வுக்குழு தொடங்குகிறது // . நீங்கள் தேர்ந்தெடுக்க விரும்பும் உறுப்பின் கட்டமைப்பை நீங்கள் குறிப்பிடுகிறீர்கள். இந்த வழக்கில், div/p .

அதனால், // div/p அதாவது தேர்ந்தெடுக்கவும் ப உள்ளே ஒரு உறுப்பு div உறுப்பு, அதற்கு முன் என்ன வருகிறது என்பது முக்கியமல்ல.

போன்ற பல்வேறு பண்புகளின் மூலக்கூறுகளையும் நீங்கள் தேர்ந்தெடுக்கலாம் ஐடி , வர்க்கம் , வகை, முதலியன XPath தேர்வாளரைப் பயன்படுத்தி. அதை எப்படி செய்வது என்று பார்ப்போம்.

புதிய கோப்பை உருவாக்கவும் web03.html இல் www/ அடைவு மற்றும் அதில் பின்வரும் வரிகளின் குறியீடுகளை உள்ளிடவும்.

< html மொழி='மீது'>
< தலை >
< மெட்டா charset='யுடிஎஃப் -8'>
< மெட்டா பெயர்='வியூ போர்ட்' உள்ளடக்கம்='அகலம் = சாதன அகலம், ஆரம்ப-அளவு = 1.0'>
< தலைப்பு > அடிப்படை HTML ஆவணம்</ தலைப்பு >
</ தலை >
< உடல் >
< h1 > வணக்கம் உலகம்</ h1 >
< div வர்க்கம்='கொள்கலன் 1'>
< ப > இது ஒரு செய்தி</ ப >
< இடைவெளி > இது மற்றொரு செய்தி</ இடைவெளி >
</ div >
< div வர்க்கம்='கொள்கலன் 1'>
< h2 > தலைப்பு2</ h2 >
< ப > சில மக்கள்
வலிகள், தொல்லைகள் மற்றும் தேர்ந்தெடுக்கப்பட்டவருக்கு விழாதவற்றைத் தேர்ந்தெடுப்பது புத்திசாலித்தனம்
எளிதான விமானங்கள் மற்றும் பிற சிறந்த சேவைகள் இல்லையா? அவர் எங்கிருந்து பிறந்தார்?</ ப >
</ div >

< இடைவெளி ஐடி='அடிக்குறிப்பு-செய்தி'> இது ஒரு அடிக்குறிப்பு</ இடைவெளி >
</அடிக்குறிப்பு>
</ உடல் >
</ html >

நீங்கள் முடித்தவுடன், சேமிக்கவும் web03.html கோப்பு மற்றும் உங்கள் இணைய உலாவியில் ஏற்றவும்.

நீங்கள் அனைத்தையும் தேர்ந்தெடுக்க விரும்புகிறீர்கள் என்று சொல்லலாம் div கொண்டிருக்கும் கூறுகள் வர்க்கம் பெயர் கொள்கலன் 1 . அதைச் செய்ய, நீங்கள் எக்ஸ்பாத் தேர்வைப் பயன்படுத்தலாம் // div [@class = 'கொள்கலன் 1 ′]

நீங்கள் பார்க்கிறபடி, XPath தேர்வாளருடன் பொருந்தக்கூடிய 2 கூறுகள் என்னிடம் உள்ளன // div [@class = 'கொள்கலன் 1 ′]

முதல் தேர்வு செய்ய div உடன் உறுப்பு வர்க்கம் பெயர் கொள்கலன் 1 , கூட்டு [1] எக்ஸ்பாத்தின் முடிவில், கீழே உள்ள ஸ்கிரீன்ஷாட்டில் காட்டப்பட்டுள்ளபடி தேர்ந்தெடுக்கவும்.

அதே வழியில், நீங்கள் இரண்டாவது தேர்வு செய்யலாம் div உடன் உறுப்பு வர்க்கம் பெயர் கொள்கலன் 1 XPath தேர்வாளரைப் பயன்படுத்தி // div [@class = 'கொள்கலன் 1 ′] [2]

மூலம் உறுப்புகளைத் தேர்ந்தெடுக்கலாம் ஐடி அத்துடன்.

எடுத்துக்காட்டாக, உள்ள உறுப்பைத் தேர்ந்தெடுக்க ஐடி இன் அடிக்குறிப்பு-செய்தி , நீங்கள் XPath தேர்வாளரைப் பயன்படுத்தலாம் //*[@id = 'அடிக்குறிப்பு-செய்தி']

இங்கே, தி * முன்பு [@id = 'அடிக்குறிப்பு-செய்தி'] குறிச்சொல்லைப் பொருட்படுத்தாமல் எந்த உறுப்புகளையும் தேர்ந்தெடுக்கப் பயன்படுகிறது.

அது எக்ஸ்பாத் தேர்வாளரின் அடிப்படையாகும். இப்போது, உங்கள் செலினியம் திட்டங்களுக்கு உங்கள் சொந்த XPath தேர்வாளரை உருவாக்க முடியும்.

முடிவுரை:

இந்த கட்டுரையில், செலினியம் பைதான் நூலகத்துடன் எக்ஸ்பாத் தேர்வாளரைப் பயன்படுத்தி வலைப்பக்கங்களிலிருந்து உறுப்புகளை எவ்வாறு கண்டுபிடிப்பது மற்றும் தேர்ந்தெடுப்பது என்பதை நான் உங்களுக்குக் காட்டியுள்ளேன். நான் மிகவும் பொதுவான எக்ஸ்பாத் தேர்வுகளையும் விவாதித்தேன். இந்த கட்டுரையைப் படித்த பிறகு, செலினியம் பைதான் நூலகத்துடன் எக்ஸ்பாத் தேர்வாளரைப் பயன்படுத்தி வலைப் பக்கங்களிலிருந்து உறுப்புகளைத் தேர்ந்தெடுப்பதில் நீங்கள் மிகவும் நம்பிக்கையுடன் இருக்க வேண்டும்.

HTML பக்கத்தில் ஒரு உறுப்பைக் கண்டுபிடிக்க XPath மற்றும் Selenium ஐப் பயன்படுத்துதல்

முன்நிபந்தனைகள்:

திட்ட கோப்பகத்தை அமைத்தல்:

பின்வருமாறு PIP3 ஐப் பயன்படுத்தி செலினியம் பைதான் நூலகத்தை நிறுவவும்:

Chrome டெவலப்பர் கருவியைப் பயன்படுத்தி XPath தேர்வாளரைப் பெறுங்கள்:

பயர்பாக்ஸ் டெவலப்பர் கருவியைப் பயன்படுத்தி எக்ஸ்பாத் தேர்வைப் பெறுங்கள்:

எக்ஸ்பாத் தேர்வாளரைப் பயன்படுத்தி வலைப் பக்கங்களிலிருந்து தரவைப் பிரித்தெடுத்தல்:

எக்ஸ்பாத் தேர்வாளரின் அடிப்படைகள்:

முடிவுரை:

வகை

பிரபல பதிவுகள்

செயல்முறை கண்காணிப்பு “PROCMON23.SYS ஐ எழுத முடியவில்லை” துவக்க பதிவை இயக்குகிறது - வின்ஹெல்போன்லைன்

HTML இல் DOM உறுப்பு 'clientTop' என்றால் என்ன?

PyTorch இல் GPU பயன்பாட்டை அதிகரிப்பது எப்படி?

Raspberry Pi இல் GitLab ஐ எவ்வாறு நிறுவுவது

பிழை 740 கோரப்பட்ட செயல்பாட்டிற்கு விண்டோஸ் 10 ஐ உயர்த்த வேண்டும்

பாட்பிரஸ் ஸ்டுடியோவில் சைட் பேனலைப் பயன்படுத்துதல்

Debian 11 Bullseye இல் PHP சமீபத்திய பதிப்பை எவ்வாறு நிறுவுவது

ஜிட் ரீசெட் -கலப்பு, -மென்மை, மற்றும் -கடினத்திற்கு இடையே உள்ள வித்தியாசம் என்ன?

ஆண்ட்ராய்டில் டிஸ்கவர் பட்டியை அகற்றுவது எப்படி

வணிக உலகில் ControlNet எவ்வாறு உதவுகிறது?

விண்டோஸ் மூவி மேக்கரை பதிவிறக்கம் செய்வது எப்படி?

தொலைபேசி எண் இல்லாமல் டிஸ்கார்டை எவ்வாறு பயன்படுத்துவது

Arduino IDE இல்லாமல் ESP32 ஐப் பயன்படுத்தலாமா?

ராஸ்பெர்ரி பையில் வாட்ச்டாக்கை எவ்வாறு அமைப்பது (தானாக மறுதொடக்கம் செய்யாத ராஸ்பெர்ரி பை)

விண்டோஸ் தொகுதி கோப்பு எடுத்துக்காட்டு குறியீடு

MATLAB இல் ஒரு ஹிஸ்டோகிராம் வரைவது எப்படி

JavaScript எண்.MAX_SAFE_INTEGER என்றால் என்ன?

Node.js இல் ஒரு இடையகத்தை நகலெடுப்பது, ஒப்பிடுவது மற்றும் இணைப்பது எப்படி?

விண்டோஸ் 11 இல் மவுஸ் உறைபனியை எவ்வாறு சரிசெய்வது?

லினக்ஸில் ஐபி முகவரியிலிருந்து ஹோஸ்ட்பெயரை எவ்வாறு பெறுவது