
27.01.2010, 10:28
|
|
Постоянный
Регистрация: 12.06.2008
Сообщений: 654
С нами:
9427413
Репутация:
973
|
|
Код:
#!/usr/bin/env python
#-*-encoding:UTF-8-*-
import re
import urllib2
import time
HEADERS = {
"User-Agent" : "Opera/9.64 (Windows NT 5.1; U; en) Presto/2.1.1",
"Accept" : "text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1",
"Accept-Language" : "ru,uk-UA;q=0.9,uk;q=0.8,en;q=0.7",
"Accept-Charset" : "iso-8859-1, utf-8, utf-16, *;q=0.1",
"Accept-Encoding" : "identity, *;q=0",
"Connection" : "Keep-Alive"
}
def curl_url_get(url):
request = urllib2.Request(url, headers=HEADERS)
data = urllib2.urlopen(request).read()
return data
dork = 'inurl:page_id+"Gallery+powered+by+fMoblog"'
page = 10
reg = 'class=r»«a href="([^"&]*)'
print "# start"
print "# dork:" + dork
print "# all page: " + str(page)
fo = open('google.txt','w')
print "# google.txt open"
for i in xrange(0,page):
url = "http://www.google.com/search?q="+dork+"&start=" + str(i*10)
rez = curl_url_get(url)
rez = re.findall(reg,rez)
for item in rez:
fo.write(item+"\n")
print "# page "+str(i+1)+" done"
time.sleep(2)
fo.close
print '# all done'
Кому там нужен типа гуглопарсер.
Из того парсера просто убрал pyCURL, не более того.
То что он ничего не находит это не значит, что я там чего-то накосячил.
Регулярка там кривая нах =\.
P.S. Под Python 2.6
Последний раз редактировалось login999; 27.01.2010 в 10:31..
|
|
|