Показать сообщение отдельно

  #2  
Старый 27.01.2010, 10:28
login999
Постоянный
Регистрация: 12.06.2008
Сообщений: 654
С нами: 9427413

Репутация: 973


По умолчанию

Код:
#!/usr/bin/env python
#-*-encoding:UTF-8-*-

import re
import urllib2
import time

HEADERS = {
           "User-Agent" : "Opera/9.64 (Windows NT 5.1; U; en) Presto/2.1.1",
           "Accept" : "text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1",
           "Accept-Language" : "ru,uk-UA;q=0.9,uk;q=0.8,en;q=0.7",
           "Accept-Charset" : "iso-8859-1, utf-8, utf-16, *;q=0.1",
           "Accept-Encoding" : "identity, *;q=0",
           "Connection" : "Keep-Alive"
          }


def curl_url_get(url):
    request = urllib2.Request(url, headers=HEADERS)
    data = urllib2.urlopen(request).read()
    return data

dork = 'inurl:page_id+"Gallery+powered+by+fMoblog"'
page = 10
reg = 'class=r»«a href="([^"&]*)'
print "# start"
print "# dork:" + dork
print "# all page: " + str(page)
fo = open('google.txt','w')
print "# google.txt open"
for i in xrange(0,page):
    url = "http://www.google.com/search?q="+dork+"&start=" + str(i*10)
    rez = curl_url_get(url)
    rez = re.findall(reg,rez)
    for item in rez:
        fo.write(item+"\n")
    print "# page "+str(i+1)+" done"
    time.sleep(2)
fo.close
print '# all done'
Кому там нужен типа гуглопарсер.
Из того парсера просто убрал pyCURL, не более того.
То что он ничего не находит это не значит, что я там чего-то накосячил.
Регулярка там кривая нах =\.
P.S. Под Python 2.6

Последний раз редактировалось login999; 27.01.2010 в 10:31..
 
Ответить с цитированием