Semalt прапануе 5 крокаў да ачысткі вэб-старонак

Scrap - гэта адкрытая крыніца і аснова для атрымання інфармацыі з розных сайтаў. Ён выкарыстоўвае API і напісаны на Python. У цяперашні час скрапія падтрымліваецца кампаніяй, якая займаецца выскрабаннем пад назвай Scrapinghub Ltd.

Гэта просты падручнік пра тое, як пісаць вэб-сканер пры дапамозе Scrapy, разабраць Craigslist і захоўваць інфармацыю ў фармаце CSV. Ніжэй прыведзены пяць асноўных этапаў гэтага ўрока:

1. Стварыце новы праект Scrap

2. Напішыце павука, каб прайсці поўны сайт і здабываць дадзеныя

3. Экспартуйце скрабаваныя дадзеныя з дапамогай каманднага радка

4. Зменіце павука, каб перайсці па спасылках

5. Выкарыстоўвайце аргументы павука

1. Ствары праект

Першы крок - стварэнне праекта. Вам прыйдзецца спампаваць і ўсталяваць Scrapy. У радку пошуку вы павінны ўвесці імя каталога, у якім вы хочаце захаваць дадзеныя. Scrap выкарыстоўвае розныя павукі для здабывання інфармацыі, і гэтыя павукі робяць першапачатковыя запыты на стварэнне каталогаў. Каб прымусіць павука працаваць, трэба наведаць спіс каталогаў і ўставіць там пэўны код. Сачыце за файламі ў бягучым каталогу і заўважыце два новыя файлы: quotes-a.html і quotes-b.html.

2. Напішыце павука, каб сканаваць вэб-сайт і здабываць дадзеныя:

Лепшы спосаб напісаць павук і здабываць дадзеныя - гэта стварэнне розных селектараў у шкарлупіне Scrap. Вы заўсёды павінны прыкласці URL-адрасы ў двукоссі; у адваротным выпадку Scrap імгненна зменіць характар і назвы гэтых URL. Вы павінны выкарыстоўваць падвойныя двукоссі вакол URL, каб правільна напісаць павука. Вы павінны выкарыстоўваць.extract_first () і пазбягаць памылкі ў індэксе.

3. Экспартаваць скрабаваныя дадзеныя з дапамогай каманднага радка:

Важна экспартаваць скрабаваныя дадзеныя з дапамогай каманднага радка. Калі вы не экспартуеце яго, вы не атрымаеце дакладных вынікаў. Павук будзе ствараць розныя каталогі, якія змяшчаюць карысную інфармацыю. Вы павінны выкарыстоўваць ключавыя словы Python, каб экспартаваць гэтую інфармацыю лепш. Магчымы імпарт дадзеных у файлы JSON. Файлы JSON карысныя праграмістам. Такія інструменты, як JQ, дапамагаюць экспартаваць вычышчаныя дадзеныя без праблем.

4. Зменіце павука, каб перайсці па спасылках:

У невялікіх праектах вы можаце змяніць павукоў, каб адпаведным чынам сачыць за спасылкамі. Але гэта не трэба пры вялікіх па памерах праектах выскрабання дадзеных . Файл запаўняльніка для "Pipelines" будзе створаны пры змене павука. Гэты файл можа знаходзіцца ў раздзеле падручнік / pipelines.py. З дапамогай Scrap вы можаце стварыць складаныя павукі і змяніць іх месцазнаходжанне ў любы час. Вы можаце здабываць некалькі сайтаў адначасова і праводзіць розныя праекты па выманні дадзеных.

5. Выкарыстоўвайце аргументы павука:

Зваротны зварот parse_author - гэта павучыны аргумент, які можна выкарыстоўваць для атрымання дадзеных з дынамічных сайтаў. Вы таксама можаце даць аргументы каманднага радка павукам з пэўным кодам. Аргументы павука ў самыя кароткія тэрміны становяцца атрыбутамі павукоў і змяняюць агульны выгляд вашых дадзеных.

У гэтым падручніку мы разгледзелі толькі асновы скрапіі. Ёсць мноства функцый і варыянтаў гэтага інструмента. Вам проста трэба загрузіць і актываваць Scrap, каб даведацца больш пра яго тэхнічныя характарыстыкі.