五月 26th, 2010

python 抓取页面

No Comments, Python, by cnphpbb.
好久没用了。再把python拣起来,下面的代码只是测试下程序。
#coding=utf-8

import sys
import urllib2
import gzip
import StringIO

# 页面url
url = "http://www.915.com/news/201005/25-052512922010.html"
# 页面编码
page_encode = "utf8"

request = urllib2.Request(url)
request.add_header("Accept-encoding", "gzip")
usock = urllib2.urlopen(request)
page = usock.read()
# 处理gzip过的页面
if usock.headers.get('content-encoding', None) == 'gzip':
    page = gzip.GzipFile(fileobj=StringIO.StringIO(page)).read()

# 转unicode(gbk/utf8)
if not isinstance(page, unicode):
    page = unicode(page, page_encode)

print(page)

开始记录我的新项目开发经过!
如果一样东西/一件事可以被忘记,就让它被忘记。
刻意去忘记,或,刻意不被忘记,都没有意义。
我们都在朝前走。
我只希望,当我们想回头的时候,我们能清楚地看到过去曾经发生的一切,
美好的,或者丑陋的;对的,或者错的,拾掇拾掇心情,我们可以接着上路。
有许多事,想忘的,却是忘不了;有许多事,你要记,却也未必记得住。
浩大的世界,
把裁判权交给时间老人,不要,急急忙忙就开道德法庭,更不要,试图去做最高法官。