| | |
| Stránka: 1 z 1
| [ Príspevkov: 3 ] | |
Autor | Správa |
---|
Registrovaný: 01.05.05 Príspevky: 13348 Témy: 1496 Bydlisko: Bratislava | Napísal JanoF: 27.02.2018 17:51 | |
|
Spravil som a staram sa uz asi rok o dataminer? neviem ako sa takemu cosi nadava, to je jedno. Z x velkych webov automaticky stahuje, testuje zmeny uz na stiahnute podstranky a nasledne spravi aj aktualizacie, data su dalej spracovana v inej aplikacii a ta je v php, cize tam nic neriesim. Cele to mam spravene aktualne v php (tusim tam je php 7 aleob 7.1) a spustene to je cez php cli, spusta sa to pravidelne pomocou cronu. Na stahovanie tam pouzivam curl kedze pracujem aj s hlavickami, vsetko to je ulozene v sql. Skusil som zo srandy spravit v pythone pripojene do db, aj podobny velmi jednoduchy parser z nejakej stranky a pride mi to celkom rychlejsie. Otazka je ci ma vyznam riesit taketo veci cez python, alebo to nema az taky vplyv na vykon? Neviem ako sa to bude chovat ked bude bezat paralelne cez 10-20 spustenych skriptov a mozno nejaky pythonak sa tu najde co bude vediet. Nechce sa mi s tym moc babrat ak to nebude mat zmysel. Tiez by som potreboval, ale aj moznost zistovat hlavicky ktore dostanem z danej url, alebo pri odoslani na nejaku url moznost nastavit hlavicky s ktorymi sa ma poslat poziadavka, tak ci sa to vobec v pythone da. Nikdy som nic s pythonom nerobil, dnes prvy krat, pride mi to celkom jednoduche co sa syntaxy tyka. Popripade ak ma niekto skusenost co by bolo vykonnejsie ako php co by sluzilo ako parser z par stoviek tisic url.
//hlavicky uz su pase, zistil som ze sa to da
import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.example.com/') takze to ma uz nezaujima, uz len to ci to ma zmysel co sa vykonu tyka
_________________ Streacom DA2 | SilverStone Titanium SX800-LTI 800W | ASRock X299E-ITX/ac | Intel Core i9-9980XE & be quiet! Dark Rock TF | Kingston HyperX Impact 64 GB DDR4 2666 MHz | NVIDIA Titan RTX 24 GB | Intel SSD Optane 905P 480 GB NVMe U.2 & Intel SSD 750 1,2 TB NVMe U.2 & Intel SSD 660p 2 TB NVMe M.2 & Seagate BackUp Plus Portable 56 TB USB | 55" 4K OLED Dell Alienware AW5520QF & 24" LCD EIZO FlexScan EV2451 | Ergotron LX Wall Mount Keyboard Arm | Logitech Craft | Logitech G603 | Logitech F710 | Harman Kardon Sabre SB 35 & Sennheiser RS 175 | Microsoft Windows 7 Ultimate | APC Back-UPS ES 700 | Lenovo ThinkPad X250 | iPhone X 256 GB & Pitaka Aramid | SilverStone ML05B Milo | Corsair SF600 SFX 600W | ASRock X99E-ITX/ac | Intel Xeon E5-2683 v4 & NOCTUA NH-L12S | Kingston HyperX Savage 32 GB DDR4 2400 MHz | NVIDIA GeForce GT 710 1 GB | Intel SSD Optane Memory 32 GB NVMe M.2 & Intel SSD 730 240 GB SATA | Ubuntu Server |
|
Registrovaný: 17.07.11 Prihlásený: 29.12.20 Príspevky: 1516 Témy: 3 | Napísal BX: 27.02.2018 18:12 | |
|
Ak by mi šlo o rýchlosť, osobne by som šiel do Node.js. Napísať v tom stiahnutie stránky, vyparsovanie čohosi a uloženie do databázi je ľahké. Problém u týchto parserov je, že úzke hrdlo je práve to stiahnutie stránky a všetko ostatné okolo je oproti tomu zanedbateľne rýchle. Takže nejaké mega zrýchlenie by som od toho aj tak nečakal. Iba ak je to parsovanie nejako náročné a robíš tam ešte niečo naviac s reťazcami a poľami... tam vie javascript pomôcť.
_________________ Na súkromné správy týkajúce sa problémov, ktoré sa riešia vo fóre, neodpovedám! |
|
Registrovaný: 01.05.05 Príspevky: 13348 Témy: 1496 Bydlisko: Bratislava | Napísal autor témy JanoF: 16.03.2018 1:30 | |
|
Ok diky, aj som si myslel ze najdolezitejsie je prave to stiahnutie stranky a ten balast okolo nie je az tak narocny. Parsovanie ani nie je moc narocne, vytahujem odtial len par dat, ulozim a skript ide dalej, len ma zaujimalo ze ci by to cez python neslo rychlejsie...nevedel som ze ci sa oplati kvoli tomu studovat python, aj ked by som chcel okolo neho trochu zajst a skusit nieco spravit, asi to aj skusim spravit aj v pythone a porovnam to tak ze co bude rychlejsie na nejakej tej istej vzorke.
_________________ Streacom DA2 | SilverStone Titanium SX800-LTI 800W | ASRock X299E-ITX/ac | Intel Core i9-9980XE & be quiet! Dark Rock TF | Kingston HyperX Impact 64 GB DDR4 2666 MHz | NVIDIA Titan RTX 24 GB | Intel SSD Optane 905P 480 GB NVMe U.2 & Intel SSD 750 1,2 TB NVMe U.2 & Intel SSD 660p 2 TB NVMe M.2 & Seagate BackUp Plus Portable 56 TB USB | 55" 4K OLED Dell Alienware AW5520QF & 24" LCD EIZO FlexScan EV2451 | Ergotron LX Wall Mount Keyboard Arm | Logitech Craft | Logitech G603 | Logitech F710 | Harman Kardon Sabre SB 35 & Sennheiser RS 175 | Microsoft Windows 7 Ultimate | APC Back-UPS ES 700 | Lenovo ThinkPad X250 | iPhone X 256 GB & Pitaka Aramid | SilverStone ML05B Milo | Corsair SF600 SFX 600W | ASRock X99E-ITX/ac | Intel Xeon E5-2683 v4 & NOCTUA NH-L12S | Kingston HyperX Savage 32 GB DDR4 2400 MHz | NVIDIA GeForce GT 710 1 GB | Intel SSD Optane Memory 32 GB NVMe M.2 & Intel SSD 730 240 GB SATA | Ubuntu Server |
|
| Stránka: 1 z 1
| [ Príspevkov: 3 ] | |
Podobné témy | Témy | Odpovede | Zobrazenia | Posledný príspevok |
---|
| Predám knihy (C++, PHP, AJAX, Python...) v Predám | 0 | 448 | 02.06.2014 18:45 marrten | | python v Perl, Python, Ruby, CGI | 1 | 740 | 19.12.2011 23:09 Ďuri | | Python v Perl, Python, Ruby, CGI | 12 | 889 | 02.07.2021 8:41 void | | Python skusenosti v Perl, Python, Ruby, CGI | 19 | 1283 | 12.07.2013 23:36 phodinux | | Python zoznam v Perl, Python, Ruby, CGI | 1 | 681 | 14.06.2013 21:35 reDo | | Vyvojar Python v Ponuka práce | 0 | 629 | 31.05.2012 20:47 webwrx | | Python, program v Perl, Python, Ruby, CGI | 6 | 1065 | 02.07.2013 19:04 reDo | | python LinearDiscriminantAnalysis v Perl, Python, Ruby, CGI | 0 | 461 | 22.08.2016 13:23 marian_r | | Python-funkcia v Perl, Python, Ruby, CGI | 12 | 698 | 12.11.2014 0:21 Misosvk | | Help python v Perl, Python, Ruby, CGI | 6 | 1801 | 20.04.2009 8:18 bji | | Python- web dotaz v Perl, Python, Ruby, CGI | 2 | 1525 | 08.02.2010 8:53 juho | | Python a pxssh v Perl, Python, Ruby, CGI | 0 | 333 | 11.01.2018 9:19 arno | | pspad a python v Perl, Python, Ruby, CGI | 2 | 610 | 19.11.2012 12:47 zeto750 | | Je vhodny python? v Perl, Python, Ruby, CGI | 1 | 786 | 02.09.2021 1:32 JanoF | | [Python] Nacitanie retazca v Perl, Python, Ruby, CGI | 8 | 671 | 31.10.2013 0:47 F3RY | | Python pre začiatočníkov v Perl, Python, Ruby, CGI | 1 | 564 | 08.09.2020 11:14 Joeyeti |
| Nemôžete zakladať nové témy v tomto fóre Nemôžete odpovedať na témy v tomto fóre Nemôžete upravovať svoje príspevky v tomto fóre Nemôžete mazať svoje príspevky v tomto fóre
|
|