Back to Question Center
0

Semalt Ekspert: Python dhe BeautifulSoup. Hapni faqet me lehtësi

1 answers:

Gjatë kryerjes së analizave të të dhënave ose projekteve të mësimit të makinës, mund të keni nevojë të grisni faqet e internetit për të marrë të dhënat e nevojshme dhe të përfunduar projektin tuaj. Gjuha e programimit Python ka një koleksion të fuqishëm të mjeteve dhe moduleve që mund të përdoren për këtë qëllim. Për shembull, mund të përdorni modulin BeautifulSoup për analizimin e HTML.

Këtu do të hedhim një vështrim në BeautifulSoup dhe të zbulojmë pse tani është duke u përdorur gjerësisht në scraping web - blackleaf returns address.

Features BeautifulSoup

- Ofron metoda të ndryshme për navigim të lehtë, kërkimin dhe modifikimin e pemëve të analizave, duke ju lejuar të shpërndani me lehtësi një dokument dhe të nxjerrni gjithçka që ju nevojitet pa shkruar shumë kod.

- Ai konverton automatikisht dokumentet që dalin në UTF-8 dhe dokumentet hyrëse në Unicode. Kjo do të thotë që ju nuk duhet të shqetësoheni për encoding me kusht që dokumenti të ketë përcaktuar një encoding ose Supë e Bukur mund ta zbulojë atë.

- BeautifulSoup konsiderohet superiore ndaj parsers të tjerë të njohura Python si html5lib dhe lxml. Kjo lejon përpjekjen e strategjive të ndryshme të analizës. Megjithatë, një nga disavantazhet e këtij moduli është se ai siguron më shumë fleksibilitet në kurriz të shpejtësisë.

Çka keni nevojë për të fshehur faqen e internetit me BeautifulSoup?

Që të filloni të punoni me BeautifulSoup, duhet të keni mjedis programimi Python (lokal ose server) të vendosur në kompjuterin tuaj. Python zakonisht është para-instaluar në OS X, por nëse përdorni Windows do t'ju duhet të shkarkoni dhe instaloni gjuhën nga faqja zyrtare e internetit.

Ju duhet të instaloni modulet BeautifulSoup dhe Kërkesat.

Së fundi, të qenit i njohur dhe i rehatshëm që punon me etiketimin dhe strukturën HTML është definitivisht i dobishëm pasi që do të punosh me të dhëna nga burime të internetit.

Me mjedisin e programimit Python të vendosur mirë, tani mund të krijoni një skedar të ri (duke përdorur nano, për shembull) me çdo emër që ju pëlqen.

Biblioteka e Kërkesave ju mundëson të përdorni një formë të lexueshme njerëzore HTTP në programet tuaja Python ndërsa BeautifulSoup merr skrapimin me shpejtësi më të madhe. Ju mund të përdorni deklaratën e importit për të marrë të dy bibliotekat.

Si të mblidhni dhe analizoni një faqe interneti

Përdorni kërkesat. get

për të mbledhur URL-në e faqes së internetit nga e cila dëshironi të nxjerrni të dhëna. Tjetra, krijoni një objekt BeautifulSoup ose pemë të analizës. Ky objekt merr dokumentin nga Kërkesat si argumentet e tij dhe pastaj e analizon atë. Me faqen e mbledhur, parsed dhe vendosur si një objekt BeautifulSoup, atëherë ju mund të vazhdoni të mbledhni të dhënat që ju nevojiten.

Sa herë që doni të grumbulloni të dhëna web, ju duhet të dini se si këto të dhëna përshkruhen nga Modeli i Objektit të Dokumenteve (DOM) të faqes së internetit. Në shfletuesin tuaj të Internetit, klikoni me të djathtën (nëse përdorni Windows) ose klikoni CTRL + (nëse përdorni MACOS) në një nga artikujt që përbëjnë pjesë të të dhënave me interes. Për shembull, nëse doni të nxjerrni të dhëna për kombësitë e nxënësve, klikoni mbi një prej emrave të një studenti. Shfaqet një meny për kontekst, dhe brenda tij, do të shihni një artikull të menusë të ngjashëm me Inspekti Element (për Firefox) ose Inspekto (për Chrome). Klikoni butonin e kontrollit përkatës të Inspektimit dhe mjetet e zhvilluesit të uebit do të shfaqen brenda shfletuesit tuaj.

BeautifulSoup është një mjet i thjeshtë por i fuqishëm i analizës së HTML që ju lejon shumë fleksibilitet kur faqet e internetit të scraping . Kur e përdorni atë, mos harroni të zbatoni rregullat e përgjithshme të scraping si kontrollimi i Termave dhe Kushteve të internetit; rivendosjen e faqes rregullisht dhe përditësimin e kodit tuaj sipas ndryshimeve të bëra në këtë faqe interneti. Duke pasur këtë njohuri në lidhje me faqet e internetit të Scraping me Python dhe BeautifulSoup, tani mund të merrni me lehtësi të dhënat web që ju nevojiten për projektin tuaj.

December 22, 2017