requests+BeautifulSoup爬取双色球历史数据
练手入门级爬虫,利用requests+BeautifulSoup(美丽汤>_<)来爬取http://v2ex.com 网站上面的所有帖子,包括帖子标题,作者,时间,主要是正则表达式的学习:
#练习02:2014-11-01
#http://baidu.lecai.com/lottery/draw/list/50
#需求是获取http://baidu.lecai.com/lottery/draw/list/50 彩票网站上面开设双色球以来每一期的开奖日期,开奖期号,开奖号码,当期销量
#通过观察,发现该彩票网站上面包含2003~2014的数据,其url规律是:http://baidu.lecai.com/lottery/draw/list/50?d=2003-01-01
if ...
requests+BeautifulSoup爬取V2EX.COM网站所有帖子
练手入门级爬虫,利用requests+BeautifulSoup(美丽汤>_<)来爬取http://v2ex.com 网站上面的所有帖子,包括帖子标题,作者,时间,主要是正则表达式的学习:
#练习01:2014-10-26
#http://v2ex.com/t/\d+
#需求是获取v2ex网站上面所有的帖子标题,作者,时间
#通过观察,发现v2ex网站上面的帖子的url规律是:http://v2ex.com/t/ + 数字 【截至到写这个程序,v2ex一共有141542个帖子】
"""
if __name__ == "__main__":
for x in range(1, 5710): #一共有5710页
req_html_doc = requests.get("http://v2ex.com/recent?p ...