Semalt веб-сайттардан ақпарат алудың қарапайым әдісін бөліседі

Web Scraping - веб- сайттардан мазмұн алудың танымал әдісі. Арнайы бағдарламаланған алгоритм сайттың басты бетіне келіп, сіз көрсеткен бөлімдердің интерьерлерін жинай отырып, барлық ішкі сілтемелерді орындай бастайды. Нәтижесінде дайын барлық CSV файлы қатаң тәртіпте орналасқан. Алынған CSV-ді болашақта бірегей дерлік мазмұн жасау үшін пайдалануға болады. Тұтастай алғанда, кесте ретінде мұндай мәліметтер өте маңызды. Құрылыс дүкенінің барлық өнімдері кестеде көрсетілген деп елестетіп көріңіз. Сонымен қатар, әр өнім үшін, өнімнің әр түрі мен маркасы үшін барлық өрістер мен сипаттамалар толтырылған. Интернет-дүкенде жұмыс жасайтын кез-келген копирайтер осындай CSV-файлды алғысы келеді.

Веб-сайттардан немесе веб-парақтардан мәліметтерді алуға арналған көптеген құралдар бар, және сіз кез-келген бағдарламалау тілдерімен таныс болмасаңыз, уайымдамаңыз, осы мақалада мен Scrapinghub-ті қолданудың ең қарапайым жолын көрсетемін.

Ең алдымен, scrapinghub.com сайтына өтіп, тіркеліп, кіріңіз.

Ұйымыңыз туралы келесі қадамды өткізіп жіберуге болады.

Содан кейін сіз өзіңіздің профиліңізге кіресіз. Сізге жоба жасау керек.

Мұнда сіз алгоритмді таңдауыңыз керек (біз «Portia» алгоритмін қолданамыз) және жобаға атау беру керек. Оны қандай да бір ерекше жағдай деп атайық. Мысалы, «111».

Енді біз алгоритмнің жұмыс кеңістігіне кіреміз, онда сіз өзіңізден деректерді шығарғыңыз келетін веб-сайттың URL мекенжайын теруіңіз керек. Содан кейін «Жаңа өрмекші» түймесін басыңыз.

Біз мысал ретінде көрсететін бетке өтеміз. Мекенжай тақырыпта жаңартылған. «Осы параққа түсініктеме беру» түймесін басыңыз.

Мәзір пайда болатын тінтуір курсорын оңға жылжытыңыз. Мұнда бізді «Шығарылған элемент» қойындысы қызықтырады, мұнда «Элементтерді өңдеу» түймесін басу керек.

Біздің өрістеріміздің бос тізімі көрсетіледі. «+ Өріс» түймесін басыңыз.

Мұнда бәрі қарапайым: өрістердің тізімін жасау керек. Әр элемент үшін сізге атау енгізу керек (бұл жағдайда тақырып пен мазмұн), өрістің қажет-қажет емес екенін («Талап етіледі») және оның өзгеріп отыра алатындығын көрсетіңіз («Әр түрлі»). Егер элемент «талап етіледі» деп көрсетсеңіз, алгоритм бұл өрісті толтыра алмайтын беттерді жай жіберіп жібереді. Егер жалауша қойылмаса, процесс мәңгіге созылуы мүмкін.

Енді бізге қажет өрісті басып, оның не екенін көрсетіңіз:

Орындалды ма? Содан кейін веб-сайттың тақырыбында «Үлгіні сақтау» түймесін басыңыз. Осыдан кейін сіз жұмыс кеңістігіне оралуға болады. Енді алгоритм бір нәрсені қалай алуға болатынын біледі, біз оған міндет қоюымыз керек. Ол үшін «Өзгерістерді жариялау» түймесін басыңыз.

Тапсырмалар тақтасына өтіп, «Өрмекшіні іске қосу» түймесін басыңыз. Веб-сайтты, басымдылықты таңдаңыз және «Іске қосу» түймесін басыңыз.

Ал, қыру жұмыстары аяқталды. Оның жылдамдығы курсорды жіберілген сұраулардың санына бағыттау арқылы көрінеді:

CSV-де дайын жіптерді алу жылдамдығы - басқа нөмірге нұсқау арқылы.

Жасалған элементтердің тізімін көру үшін осы нөмірді нұқыңыз. Сіз ұқсас нәрсені көресіз:

Аяқтағаннан кейін нәтижені осы батырманы басу арқылы сақтауға болады:

Міне бітті! Енді сіз бағдарламалау тәжірибесі жоқ веб-сайттардан ақпарат ала аласыз.