Semalt: URL-k kinyerése weboldalakról, gyönyörű levesgel

A Beautiful Soup egy magas szintű Python csomag, amelyet XML és HTML dokumentumok elemzésére használnak. A Beautiful Soup Python könyvtár elemzési fát hoz létre, amely hasznos információk kinyerésére szolgál a HyperText Markup Language (HTML) segítségével. Ez a könyvtár elérhető Python 2 és Python 3 verziókhoz egyaránt.

A legtöbb esetben úgy találja, hogy a céladatokhoz csak egy weboldal részeként lehet hozzáférni és azokat felhasználni. Ebben az esetben olyan webes kaparási technikát kell használnia, amely az elemzhető formátumokban képes adatokat kinyerni. Itt jön be a Beautiful Soup könyvtár.

követelmények

Szüksége van a megfelelő modulokra a Beautiful Soup könyvtár használatához. Az induláshoz telepítenie kell a Python 2.7 programozási nyelvet a számítógépére. Ebben a bejegyzésben megtanulja, hogyan kaparhat meg egy weboldalt és kivonhat az összes URL-t a Requests and Beautiful Soup 4 segítségével. A HTML elemzés egy csináld magad feladat, különösen a Beautiful Soup technikai segítségével.

Miért érdemes használni a gyönyörű levest?

A Beautiful Soup egy kiemelkedő Python-csomag, amelyet 2004 óta használnak webhelyek lekaparására és HTML-címkék elemzésére. A közelmúltban a Beautiful Soup 4 váltotta fel a Beautiful Soup 3 -ot az iparban. Vegye figyelembe, hogy a BS4 mindkét Python verzión működik, míg a BS3 csak a Python 2.7 verzión. A könyvtár a következő beépített szolgáltatásokból áll:

  • Kódolási képesség - Nem kell pánikba esnie a kódolások után, amikor a szükséges gyönyörű leves modulokat telepíti a számítógépére. A könyvtár automatikusan konvertálja a bemeneteket Unicode-ba és a kimeneteket UTF-8-ba.
  • Navigációs képesség - A gyönyörű leves egyszerűen használható módszereket kínál az elemző fa keresésére, navigálására és módosítására.

Hogyan kell használni a Beautiful Soup könyvtárat?

A Beautiful Soup telepítése után a számítógépre elkezdheti a könyvtár használatát. Az induláshoz importálja a bs4 könyvtárat a Python-kód elejére. Adjon át tartalmat vagy URL-t a Beautiful Soup-nak, hogy leves-objektumot hozzon létre. A könyvtár azonban nem hozza le a cél weboldalt önmagában. Itt ezt a feladatot kézzel kell elvégeznie. A Python és a Beautiful Soup kombinációjával is könnyen letöltheti a preferált weboldalakat.

A kérési könyvtár szerepei

Egy oldal lekaparásához először le kell töltenie. Töltse le a weboldalakat a kérelem könyvtár segítségével. A kérelem könyvtár úgy működik, hogy "GET" kérést tesz a webszervereknek, amelyek viszont letöltik a preferált weboldal HTML tartalmát.

URL-k kibontása a weboldalakról

Most részletes információval rendelkezik a Beautiful Soup könyvtárról. A BS4 könyvtár és a Python kombinációja segít a weboldal gyors letöltésében. Az összes URL kibontásához a céloldalról használja a "mindent megtalál" módszert. Ez a módszer elemeket fog összeállítani a címkével. A bs4-ből importáljon mind a gyönyörű levest, mind a kéréseket. Futtassa a kódot, és írjon be egy webhelyet vagy weboldalt az URL-ek kivonásához.

mass gmail