requests+BeautifulSoup爬取双色球历史数据

练手入门级爬虫，利用requests+BeautifulSoup(美丽汤>_<)来爬取http://v2ex.com 网站上面的所有帖子，包括帖子标题，作者，时间，主要是正则表达式的学习：

#练习02：2014-11-01
#http://baidu.lecai.com/lottery/draw/list/50
#需求是获取http://baidu.lecai.com/lottery/draw/list/50 彩票网站上面开设双色球以来每一期的开奖日期，开奖期号，开奖号码，当期销量
#通过观察，发现该彩票网站上面包含2003～2014的数据，其url规律是：http://baidu.lecai.com/lottery/draw/list/50?d=2003-01-01
if ...

more ...

requests+BeautifulSoup爬取V2EX.COM网站所有帖子

练手入门级爬虫，利用requests+BeautifulSoup(美丽汤>_<)来爬取http://v2ex.com 网站上面的所有帖子，包括帖子标题，作者，时间，主要是正则表达式的学习：

#练习01：2014-10-26
#http://v2ex.com/t/\d+
#需求是获取v2ex网站上面所有的帖子标题，作者，时间
#通过观察，发现v2ex网站上面的帖子的url规律是：http://v2ex.com/t/ + 数字 【截至到写这个程序，v2ex一共有141542个帖子】
"""
if __name__ == "__main__":
    for x in range(1, 5710):   #一共有5710页
        req_html_doc = requests.get("http://v2ex.com/recent?p ...

more ...

requests+BeautifulSoup爬取双色球历史数据

requests+BeautifulSoup爬取V2EX.COM网站所有帖子

blogroll

social

Categories

Tags