关于爬虫遇见了"input type=hidden",然后想直接用lxml,不用selenium的办法

  统计/机器学习 Python    浏览次数:235        分享
0

我想要去爬取同花顺网站,根据股票的信息,想要了解他们的高管信息,所以一切都挺顺利的。

但是在爬取的时候,发现“检查”里有我需要的信息标签,而网页源代码里却找不到这些信息,几乎是掩盖了,我观察到自己需要的数据标签中“检查”中含有"input type=hidden"字段,觉得应该是有影响的,导致我抓不到信息。

想找到一些办法.......

...http://stockpage.10jqka.com.cn/000002/company/#manager...#目标网址          
 html = etree.HTML(content)
# 使用xpath找到该网页所有高管的信息,储存到divs里(div->[@id=ml_001]all  then 点击获取->class=person_table)
 divs = html.xpath('//div[@id="ml_001"]//div[contains(@class, "person_table")]')
 print(divs)
# 对于每一位高管,信息都是相对储存的
for div in divs:
# 我们要以键值对的形式填写csv文件
item = {}
# 获取标签下的信息
item['name'] = div.xpath('.//thead/tr/td/h3/text()')[0].replace(',', '-')
item['jobs'] = div.xpath('.//thead/tr/td[2]/text()')[0].replace(',', '/')
gender_age_education = div.xpath('.//thead/tr[2]/td[1]/text()')[0].split()


 

Cypher   2020-06-05 19:01



    还没有回答。我来答!  


  相关主题

python怎么把字符串类json转成字典dict类型变量?   3回答

python里的cdef是什么?   1回答

Python 处理问题   2回答

print(__doc__)有什么用?   1回答

python如何删除dict中的一个key?   1回答

东方财富的数据怎么爬下来   1回答

python里求累计和   2回答

print的时候报错:TypeError: unsupported operand type(s) for /: 'str' and 'int'   1回答

DataFrame批量修改列名   1回答

python怎么读取txt格式的数据文件?   1回答

python里有没有类似excel里的那种数据透视表?   1回答

怎么对有多个空格的字符串进行split?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!