本文目录一览

1,python爬虫 求指点 查看源代码有个 后面内容爬取不到

不知道你是用框架还是用 Selenium 爬的内容, iframe 里的内容实际上就是另一个网页了。你只是爬它的源码是爬不到的, 你要提取 iframe 里的 src 所指向的网址, 重新打开它, 然后才爬他的源码。 或者如果你用框架, 里面应该有另外提供方法, 读取 iframe 中的内容

python爬虫 求指点 查看源代码有个 后面内容爬取不到

2,如何用python提取网页中框架的源代码

简单的做个例子,框架路径可以自己修改,调用像百度等网站时无法读取其中源码,涉及到一些安全问题,所以路径要求是合法的允许访问的路径 function GetFrameInnerHtml(objIFrame) { var iFrameHTML = ""; if (objIFrame.contentDocument) { //针...

如何用python提取网页中框架的源代码

3,如何使用python或R抓取网页被隐藏的源代码

隐藏的源代码?不知道你指的是什么?我的理解有两种,一是不在前段显示,但是查看源代码时有,二是,异步加载的内容在前端和源代码中均看不到,第一种很容易解决,想必你指的时第二种,解决方法有三种:1. 模拟浏览器,动态获取,可以使用大杀器selenium工具使用这种方法可以实现只要能看到就能抓取到,如鼠标滑过,异步加载等,因为他的行为可以与浏览器一模一样,但是这种方式的效率却是最低的,一般不到实在没有办法的时候不推荐使用。2. 执行js代码在python中执行异步加载的js代码,获得一些诸如鼠标滑过,下拉加载更多等,但是现在的网站中都有非常多的js代码,要找到需要执行的目标js代码时非常困难和耗时的,此外python对js的兼容性也不是很好,也不推荐使用。3. 找到异步加载的json文件,最常用,最方便,最好用的方法,这是我平常抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。具体的使用方法是打开浏览器的开发者工具,转到network选项,之后重新加载网页,在network中的列表中找到加载过程中加载的需要动态异步加载的json文件,以京东为例,如图,第一张找到的是异步加载的库存信息的json文件,第二招找到的是异步加载的评论信息的json文件:具体更详细的方法可以google或百度

如何使用python或R抓取网页被隐藏的源代码


文章TAG:python  源代码  代码  python爬取源代码  python爬虫  求指点  查看源代码有个  后面内容爬取不到  
下一篇