Back to Question Center
0

Semalt: 3 hapa për Scraping Faqe Web PHP

1 answers:

Scraping në internet, i quajtur edhe ekstraktimi i të dhënave në internet ose mbledhja e uebit, është procesi i nxjerrjes së të dhënave nga një faqe interneti ose blog. Ky informacion pastaj përdoret për të vendosur meta tags, përshkrime meta, fjalë kyçe dhe lidhje në një faqe, duke përmirësuar performancën e saj të përgjithshme në rezultatet e motor kërkimi.

  • Parsing dokumentesh - Përfshin një dokument XML ose HTML që konvertohet në DOM (Model i Objektit të Dokumentit ) fotografi. PHP na siguron një shtrirje të madhe DOM.
  • Shprehje të rregullta - Është një mënyrë për të grumbulluar të dhënat nga dokumentet e internetit në formën e shprehjeve të rregullta. Çështja me të dhënat e grumbullimit të faqeve të internetit të palës së tretë lidhet me të drejtën e autorit sepse nuk keni leje për të përdorur këto të dhëna. Por me PHP, ju lehtë mund të gërmoj të dhënat pa probleme në lidhje me të drejtat e autorit ose me cilësi të ulët. Si një programues PHP, mund të keni nevojë për të dhëna nga faqet e internetit të ndryshme për qëllime të kodimit. Këtu kemi shpjeguar se si të marrim të dhëna nga faqet e tjera në mënyrë efikase, por para kësaj, duhet të mbani në mend se në fund do të merrni ose index.php ose scrape.js fotografi.

    Para së gjithash, duhet të krijoni formularin në index.php duke klikuar në butonin Submit dhe futni URL-në e internetit për grumbullimin e të dhënave.



    Hapat2: Krijo Funksionin e PHP-së për të marrë të dhënat e faqes së internetit:

    Hapi i dytë është krijimi i Scrapes PHP funksion në file scrape.php pasi ajo do të ndihmojë në marrjen e të dhënave dhe përdorimin e bibliotekës URL. Ai gjithashtu do t'ju lejojë të lidheni dhe të komunikoni me serverat dhe protokollet e ndryshme pa asnjë problem..

    funksioni scrapeSiteData ($ website_url) {

    nëse (! Function_exists ('curl_init')) {

    vdes ('cURL nuk instalohet. ');

    }

    $ curl = curl_init

    ;

    curl_setopt ($ curl, CURLOPT_URL, $ website_url);

    curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

    $ output = curl_exec ($ curl);

    curl_close ($ curl);

    kthimi $ output;

    }

    Këtu mund të shohim nëse PHP cURL është instaluar siç duhet apo jo. Tre CURL kryesore duhet të përdoren në zonën e funksioneve dhe curl_init

    do të ndihmojë fillimin e seancave, curl_exec

    do ta ekzekutojë atë dhe curl_close

    do të ndihmojë në mbylljen e lidhjes. Variablat të tilla si CURLOPT_URL përdoren për të vendosur URL-të e internetit që na nevojiten për të kapur. CURLOPT_RETURNTRANSFER i dytë do të ndihmojë në ruajtjen e faqeve të skrapuara në formën e ndryshueshme sesa në formën e parazgjedhur, e cila në fund të fundit do të shfaqë të gjithë webfaqen.

    Hapat3: Krijoni të dhëna specifike nga faqja e internetit:

    Është koha të merreni me funksionalitetet e skedarit tuaj PHP dhe të zgjidhni faqen specifike të faqes tuaj web. Nëse nuk dëshironi të gjitha të dhënat nga URL-ja specifike, duhet të redaktoni përdorimin e variablave CURLOPT_RETURNTRANSFER dhe të theksoni pjesët që dëshironi të kryeni. ($ _ POST ['submit'])) {

    $ html = scrapeWebsiteData ($ _ POST ['website_url']);

    $ start_point = strpos ($ html, 'Postimet më të fundit');

    $ end_point = strpos ($ html, '', $ start_point);

    $ length = $ end_point- $ start_point;

    $ html = substr ($ html, $ start_point, gjatësia $);

    echo $ html;

    }

    Ne ju sugjerojmë që të zhvilloni njohuritë themelore të PHP-së dhe Shprehjet e Rregullta përpara se të përdorni ndonjë nga këto kodime ose të mbushni një blog apo faqe të veçantë për qëllime personale.

4 days ago
Semalt: 3 hapa për Scraping Faqe Web PHP
Reply