Back to Question Center
0

ការបញ្ឈប់: ប្រើ Python ដើម្បី Scrape គេហទំព័រ

1 answers:

ការកាប់ទំព័របណ្ដាញដែលបានកំណត់ផងដែរថាជាការទាញយកទិន្នន័យតាមអ៊ីនធឺណិតគឺជាដំណើរការនៃការទទួលបានទិន្នន័យពីអ៊ីនធឺណិត។ និងនាំចេញទិន្នន័យទៅជាទ្រង់ទ្រាយដែលអាចប្រើបាន. ក្នុងករណីជាច្រើនបច្ចេកទេសនេះត្រូវបានប្រើដោយអ្នកគ្រប់គ្រងដើម្បីទាញយកទិន្នន័យដ៏មានតម្លៃជាច្រើនពីគេហទំព័រដែលទិន្នន័យដែលត្រូវបានរក្សាទុកត្រូវបានរក្សាទុកទៅជា Microsoft Excel ឬឯកសារមូលដ្ឋាន។.

សម្រាប់អ្នកចាប់ផ្តើមដំបូង Python គឺជាផ្នែកមួយនៃភាសាសរសេរកម្មវិធីដែលគេនិយមប្រើជាទូទៅដែលសង្កត់ធ្ងន់ទៅលើការអានកូដ។. បច្ចុប្បន្ន Python កំពុងដំណើរការជា Python 2 និង Python 3. ភាសាសរសេរកម្មវិធីនេះមានលក្ខណៈពិសេសការគ្រប់គ្រងសតិដោយស្វ័យប្រវត្តិនិងប្រព័ន្ធប្រភេទបែបថាមវន្ត. ឥឡូវនេះភាសាកម្មវិធី Python ក៏មានលក្ខណៈពិសេសការអភិវឌ្ឍដែលមានមូលដ្ឋានលើសហគមន៍.

ហេតុអ្វីបានជា Python?

ការទទួលបានទិន្នន័យពីវេបសាយឌីជីថលដែលតម្រូវឱ្យចូលគឺជាបញ្ហាប្រឈមដ៏សំខាន់សម្រាប់អ្នកគ្រប់គ្រងជាច្រើន. នៅក្នុងមេរៀន scraping នេះអ្នកនឹងរៀន របៀបកំចាត់គេហទំព័រមួយ ដែលតម្រូវឱ្យមានការអនុញ្ញាតចូលដោយប្រើ Python. ខាងក្រោមនេះជាមគ្គុទេសក៍ជំហានដោយជំហានដែលនឹងអនុញ្ញាតឱ្យអ្នកដើម្បីបំពេញដំណើរការ scraping មានប្រសិទ្ធិភាព.

ជំហានទី 1: សិក្សាគេហទំព័រគោលដៅ

ដើម្បីដកស្រង់ទិន្នន័យពីវេបសាយថាមវន្តដែលតម្រូវឱ្យមានការអនុញ្ញាតចូលអ្នកត្រូវរៀបចំព័ត៌មានលំអិតដែលត្រូវការ។.

ដើម្បីចាប់ផ្តើមសូមចុចកណ្ដុរស្ដាំលើ "ឈ្មោះអ្នកប្រើ" ហើយជ្រើសជម្រើស "ពិនិត្យធាតុ". "ឈ្មោះអ្នកប្រើ" នឹងជាគន្លឹះ.

ចុចកណ្ដុរស្ដាំលើរូបសញ្ញា "ពាក្យសម្ងាត់" ហើយជ្រើសរើស "ពិនិត្យធាតុ".

ស្វែងរក "authentication_token" នៅក្រោមប្រភពទំព័រ. អនុញ្ញាតស្លាកបញ្ចូលលាក់របស់អ្នកជាតម្លៃរបស់អ្នក. ទោះជាយ៉ាងណាក៏ដោយវាជាការសំខាន់ណាស់ដែលត្រូវកត់សម្គាល់ថាវេបសាយផ្សេងៗប្រើស្លាកបញ្ចូលលាក់ខុសៗគ្នា.

វែបសាយមួយចំនួនប្រើទំរង់បែបបទសាមញ្ញខណៈពេលដែលអ្នកផ្សេងទៀតយកទម្រង់ស្មុគស្មាញ. ក្នុងករណីដែលអ្នកកំពុងធ្វើការលើគេហទំព័រឋិតិវន្ដដែលប្រើរចនាសម្ព័ន្ធស្មុគស្មាញសូមពិនិត្យមើលកំណត់ហេតុសំណើររបស់កម្មវិធីរុករករបស់អ្នកហើយសម្គាល់តម្លៃសំខាន់ៗនិងកូនសោដែលនឹងត្រូវបានប្រើដើម្បីចូលក្នុងគេហទំព័រ.

ជំហានទី 2: ការចូលទៅក្នុងវែបសាយត៍របស់អ្នក

ក្នុងជំហាននេះបង្កើតវត្ថុសម័យដែលនឹងអនុញ្ញាតឱ្យអ្នកបន្តវេនចូលតាមសំណើរបស់អ្នកទាំងអស់. រឿងទីពីរដែលត្រូវពិចារណាគឺស្រង់ចេញ "csrf token" ពីទំព័របណ្ដាញគោលដៅរបស់អ្នក. សញ្ញាសម្ងាត់នេះនឹងជួយអ្នកក្នុងពេលចូល. ក្នុងករណីនេះប្រើ XPath និង lxml ដើម្បីទទួលយកនិមិត្តសញ្ញា. អនុវត្តដំណាក់កាលចូលដោយផ្ញើសំណើទៅ URL ចូល.

ជំហានទី 3: ទិន្នន័យរំដោះ

ឥឡូវអ្នកអាចស្រង់ទិន្នន័យចេញពីគេហទំព័រគោលដៅរបស់អ្នក. ប្រើ XPath ដើម្បីកំណត់ធាតុគោលដៅរបស់អ្នកនិងបង្កើតលទ្ធផល. ដើម្បីធ្វើឱ្យលទ្ធផលរបស់អ្នកមានសុពលភាពសូមពិនិត្យមើលសំណុំបែបបទលេខកូដស្ថានភាពលទ្ធផលលទ្ធផលនីមួយៗ. ទោះជាយ៉ាងណាក៏ដោយការផ្ទៀងផ្ទាត់លទ្ធផលមិនបានជូនដំណឹងដល់អ្នកថាតើដំណាក់កាលចូលបានជោគជ័យប៉ុន្តធ្វើជាអ្នកចង្អុលបង្ហាញ.

ចំពោះអ្នកជំនាញវិភាគអ្នកគួរតែកត់សម្គាល់ថាតម្លៃត្រឡប់មកវិញនៃការវាយតម្លៃ XPath ខុសគ្នា។. លទ្ធផលអាស្រ័យលើកន្សោម XPath ដែលដំណើរការដោយអ្នកប្រើចុងក្រោយ. ចំណេះដឹងក្នុងការប្រើកន្សោមធម្មតានៅក្នុង XPath និងការបង្កើតការបង្ហាញ XPath នឹងជួយអ្នកក្នុងការដកស្រង់ទិន្នន័យពីគេហទំព័រដែលតម្រូវឱ្យមានការអនុញ្ញាតចូល។.

ដោយប្រើ Python អ្នកមិនត្រូវការផែនការបម្រុងទុកផ្ទាល់ខ្លួនឬការព្រួយបារម្ភអំពីការគាំងថាសរឹង. Python ទាញយកទិន្នន័យយ៉ាងមានប្រសិទ្ធិភាពពីគេហទំព័រឋិតិវន្តនិងថាមវន្តដែលទាមទារការអនុញ្ញាតចូលដើម្បីដំណើរការមាតិកា. យកបទពិសោធន៍ស្កេបបណ្ដាញ របស់អ្នកទៅកម្រិតបន្ទាប់ដោយដំឡើងកំណែ Python នៅលើកុំព្យូទ័ររបស់អ្នក.

December 22, 2017
ការបញ្ឈប់: ប្រើ Python ដើម្បី Scrape គេហទំព័រ
Reply