2015年的股市是当下的热门话题,同事的朋友弄了一个简单的弹股吐槽单页面单日PV就能达30W+ ,相当于本博客一年的PV量。所以站在技术角度,这里也写几篇关于股票技术面的文章。首先本篇先从获取A股列表说起。
目的:获取当前上交所和深交所有A股列表。
一、官方站获取
官方站有两个:
1、上交所官网
2、深交所官网
所不同的是,深交所直接提供了EXCEL导出的方式
<a href="https://www.361way.com/wp-content/uploads/2015/06/sjs.png"><img src="https://www.361way.com/wp-content/uploads/2015/06/sjs.png" alt="上交所" width="783" height="155" class="alignnone " /></a>
而上交所比较蛋疼,没有直接提供下载页面,所以需要通过页面扒取,在进行页面分析后发现其所有的股市列表藏在JS文件中。如下:
http://www.sse.com.cn/js/common/ssesuggestdata.js (A股 + B股)
http://www.sse.com.cn/js/common/ssesuggestEbonddata.js (转债)
由于只关注A股,所以这里只取上面的js文件中以60开头的股票。该js文件可以通过curl 或 wget获取并可以通过简单的shell 处理后获取:
# JS文件中的数据格式 function get_data(){ var _t = new Array(); _t.push({val:"600000",val2:"浦发银行",val3:"pfyx"}); _t.push({val:"600004",val2:"白云机场",val3:"byjc"}); _t.push({val:"600005",val2:"武钢股份",val3:"wggf"}); _t.push({val:"600006",val2:"东风汽车",val3:"dfqc"}); ………………………… #shell 语句处理后的格式 # by 运维之路(www.361way.com) [root@361way ~]# wget http://www.sse.com.cn/js/common/ssesuggestdata.js [root@361way ~]# grep push ssesuggestdata.js |sed s/\[val2,'});',\",val3\]//g|awk -F: '{print $2,$3,$4}'|grep ^60 600000 浦发银行 pfyx 600004 白云机场 byjc 600005 武钢股份 wggf 600006 东风汽车 dfqc ……………………
<br />
所以这种方法获取相对比较简单也快捷。当然,也可以使用selenium + python 模拟浏览器访问扒取。后面会单独讲到。
二、第三方站点获取
官方站获取的方法,需要从两个官方站上分别取数据,而第三方站很多会向二个官方站交“ 保护费” ,所以可以通过API 直接取到数据,并且可以将深沪两市的A股数据归拢在一起。国内做的相对较好的主要有以下四家:
1、腾讯证券 -- http://stockapp.finance.qq.com/mstats/#mod=list
2、新浪财经 -- http://finance.sina.com.cn/data/#stock-schq-hsgs
3、凤凰财经 -- http://app.finance.ifeng.com/list/stock.php?t=ha
4、东方财富网 -- http://quote.eastmoney.com/center/list.html#33
这四家中企鹅的做的最人性化,除支持各种排序外,还支持excel 导出。直接是沪深两市A股直接导出。虽然一向不喜欢这只肥企鹅 ,不过事实求是,确实做的不错。另外三家就需要网页爬取了。
三、selenium + python抓数据
相较上面两种方法,这种是最笨的,而且取数据也是最慢的一种方法。不到万不得已,不推荐该方法(能用request、urlib2等模块尽量用),不过由于selenium模块实在牛B,多用于自动化测试和极品抓取环境下,这里权当做学习了。先上代码:
[root@localhost stock]# cat get_sh.py # -*- encoding: utf-8 -*- # by 运维之路(361way.com) import sys import cPickle #import pickle import selenium from pyvirtualdisplay import Display display = Display(visible=0, size=(1024, 768)) display.start() from selenium.webdriver.support.ui import WebDriverWait # available since 2.4.0 # from selenium.common.exceptions import TimeoutException # from selenium.webdriver.support import expected_conditions as EC # available since 2.26.0 def wait_condition_01(driver): return driver.find_element_by_id('dateList_container_pageid') def extract_table(driver, stocklist): tag_table= driver.find_element_by_class_name("tablestyle") tabletext= tag_table.text stocklist.extend(tabletext.split('\n')[1:]) driver= selenium.webdriver.Firefox() driver.get("http://www.sse.com.cn/assortment/stock/list/name/") stocklist= [] extract_table(driver=driver, stocklist=stocklist) tag_meta= driver.find_element_by_id("staticPagination") attr_total= int(tag_meta.get_attribute("total")) attr_pageCount= int(tag_meta.get_attribute("pageCount")) # 逐页提取内容 for pagenr in range(2, attr_pageCount+1): id_input= 'dateList_container_pageid' if pagenr > 2 else 'xsgf_pageid' id_button= 'dateList_container_togo' if pagenr > 2 else 'xsgf_togo' tag_input= driver.find_element_by_id(id_input) tag_button= driver.find_element_by_id(id_button) tag_input.send_keys(str(pagenr)) tag_button.click() WebDriverWait(driver, 10).until(wait_condition_01) extract_table(driver=driver, stocklist=stocklist) # 向主调进程发送结果 data= { '个股总数': attr_total, '个股列表': stocklist, } driver.quit() #pdata= pickle.dumps(data, protocol=2) pdata= cPickle.dumps(data, protocol=2) sys.stdout.write( pdata + b'\n' )
<br />
在使用过程中可能会遇到如下问题:
问题1:直接selenium + python报错
使用后报错如下:
Traceback (most recent call last): File "", line 1, in File "/usr/lib/python2.6/site-packages/selenium/webdriver/firefox/webdriver.py", line 64, in __init__ self.binary, timeout), File "/usr/lib/python2.6/site-packages/selenium/webdriver/firefox/extension_connection.py", line 51, in __init__ self.binary.launch_browser(self.profile) File "/usr/lib/python2.6/site-packages/selenium/webdriver/firefox/firefox_binary.py", line 70, in launch_browser self._wait_until_connectable() File "/usr/lib/python2.6/site-packages/selenium/webdriver/firefox/firefox_binary.py", line 100, in _wait_until_connectable raise WebDriverException("The browser appears to have exited " selenium.common.exceptions.WebDriverException: Message: The browser appears to have exited before we could connect. If you specified a log_file in the FirefoxBinary constructor, check it for details.
<br />
解决方法是加入pyvirtualdisplay模块,并调用如下:
#!/usr/bin/env python from pyvirtualdisplay import Display from selenium import webdriver display = Display(visible=0, size=(1024, 768)) display.start() browser = webdriver.Firefox() browser.get('http://www.ubuntu.com/') print browser.page_source browser.close() display.stop()
<br />
问题2:selenium + python + pyvirtualdisplay报错
报错内容如下:
>>> from pyvirtualdisplay import Display >>> from selenium import webdriver >>> display = Display(visible=0, size=(1024, 768)) Traceback (most recent call last): File "", line 1, in File "/usr/lib/python2.6/site-packages/pyvirtualdisplay/display.py", line 33, in __init__ self._obj = self.display_class( File "/usr/lib/python2.6/site-packages/pyvirtualdisplay/display.py", line 51, in display_class cls.check_installed() File "/usr/lib/python2.6/site-packages/pyvirtualdisplay/xvfb.py", line 38, in check_installed ubuntu_package=PACKAGE).check_installed() File "/usr/lib/python2.6/site-packages/easyprocess/__init__.py", line 209, in check_installed raise EasyProcessCheckInstalledError(self) easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help'] OSError=[Errno 2] No such file or directory Program install error!
<br />
从pypi 站点上了解到,其后端需要使用Xvfb 、Xephyr 、Xvnc三者任意一个。这里选了第一个,如下方法安装:
#centos下 yum -y insatll xorg-x11-server-Xvfb #ubuntu下 sudo apt-get install xvfb
<br />
再通过python get_sh.py就可以正常获取数据。取出的列表数据并不直接,还需要近一步处理。
<br />
参考页面:
《股票量化分析(一)获取A股列表》有1条评论