发信人: ludongxing (ludongxing), 信区: Python
标  题: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 00:34:34 2020), 转信
  
而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 110.255.89.*]

0/0      40
ludongxing 的帖子 ludongxing 的图片    查看原帖 回复: 40
第 1 楼

发信人: sosei (fss.sosei), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 00:35:04 2020), 站内
  
既然本版
那就py
--
※ 修改:·sosei 于 Jan 16 00:35:25 2020 修改本文·[FROM: 119.248.230.*]
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 119.248.230.*]

第 2 楼

发信人: hgoldfish (老鱼), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 00:40:41 2020), 转信
  
找工作 java,自己干 python
  
【 在 ludongxing (ludongxing) 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
  
  
--
灭绝人性啊
  
  
※ 来源:·水木社区 newsmth.net·[FROM: 112.47.93.*]

第 3 楼

发信人: one4all4one (one4all4one), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 01:06:17 2020), 站内
  
看具体需求,但是python糙快猛
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 152.78.0.*]

第 4 楼

发信人: ludongxing (ludongxing), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 01:09:48 2020), 转信
  
招工作java,意思是说大公司都是用java写的爬虫程序吗?
自己干python,意思是说python只适合搜索范围比较小的爬虫程序吗?
  
【 在 hgoldfish 的大作中提到: 】
: 找工作 java,自己干 python
:  
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 110.255.89.*]

第 5 楼

发信人: hgoldfish (老鱼), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 01:11:43 2020), 转信
  
没这么多想法。就是字面意思。
  
java 好找工作。
python 干活又快又爽。
  
【 在 ludongxing (ludongxing) 的大作中提到: 】
: 招工作java,意思是说大公司都是用java写的爬虫程序吗?
: 自己干python,意思是说python只适合搜索范围比较小的爬虫程序吗?
  
  
--
灭绝人性啊
  
  
※ 来源:·水木社区 newsmth.net·[FROM: 112.47.93.*]

第 6 楼

发信人: nokia9300 (甘兰凉肃), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 01:22:31 2020), 站内
  
Python就没有真多线程。不过你可以多开几个进程。Python写的快,随便改。JAVA你还得熟悉jdk,调gc啥的。
我选JAVA。Python就是一个脚本语言,low到掉渣。
  
  
【 在 ludongxing 的大作中提到: 】
:  
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 172.58.35.*]

第 7 楼

发信人: purplesoul (紫色灵魂), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 01:43:24 2020), 站内
  
Python好
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 116.199.58.*]

第 8 楼

发信人: xeagle (静下心来编程), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 02:28:45 2020), 站内
  
你是故意来踢版的?
  
【 在 ludongxing 的大作中提到: 】
:  
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 93.43.54.*]

第 9 楼

发信人: aqssxlzc (闡揚時代文藝熱血單身好青年), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 02:40:01 2020), 转信
  
爬虫程序的特点是改动多,效率嘛.....跟网络延时相比执行效率都不算啥。
自然要用Python写
  
  
【 在 ludongxing (ludongxing) 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
  
  
--
  
※ 来源:·水木社区 newsmth.net·[FROM: 101.240.43.*]

第 10 楼

发信人: jishufan (特二级程序员), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 03:30:18 2020), 转信
  
js写爬虫最好
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 61.151.178.*]

第 11 楼

发信人: god4 (昵称), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 03:30:49 2020), 站内
  
python写的快,不讲究质量和性能随便写写能用可以,实现速度快。
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 101.243.155.*]

第 12 楼

发信人: ludongxing (ludongxing), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 03:36:56 2020), 转信
  
js是java script吗?java script能写爬虫程序?
  
【 在 jishufan 的大作中提到: 】
: js写爬虫最好
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 110.255.89.*]

第 13 楼

发信人: jishufan (特二级程序员), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 03:39:54 2020), 转信
  
是的,爬虫用js写最好,因为网页都是html/js生成的
【 在 ludongxing 的大作中提到: 】
: js是java script吗?java script能写爬虫程序?
:  
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 61.151.178.*]

第 14 楼

发信人: sunsungll (sunsungll), 信区: Python
标  题: Re: 主题:要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 05:40:30 2020), 站内
  
但是比python有什么优势?什么库能比scrapy?
【 在 jishufan 的大作中提到: 】
: 是的,爬虫用js写最好,因为网页都是html/js生成的
: 【 在 ludongxing 的大作中提到: 】
: : js是java script吗?java script能写爬虫程序?
: ...................
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 114.242.248.*]

第 15 楼

发信人: lmtudou (我爱吃土豆), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 07:40:46 2020), 转信
  
当然python了
开发快
入门嗖嗖的
  
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
  
- 来自「最水木 for iPhone 8 Plus」
--
  
※ 来源:·最水木 客户端·[FROM: 218.68.107.*]

第 16 楼

发信人: jishufan (特二级程序员), 信区: Python
标  题: Re: 主题:要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 07:52:38 2020), 转信
  
js方便成度吊打scrapy
【 在 sunsungll 的大作中提到: 】
: 但是比python有什么优势?什么库能比scrapy?
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 61.151.178.*]

第 17 楼

发信人: taibai888 (泰柏), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:01:53 2020), 转信
  
赞,网络时延是关键指标
  
【 在 aqssxlzc 的大作中提到: 】
: 爬虫程序的特点是改动多,效率嘛.....跟网络延时相比执行效率都不算啥。
: 自然要用Python写
:  
: ...................
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 218.68.91.*]

第 18 楼

发信人: sunsungll (sunsungll), 信区: Python
标  题: Re: 主题:要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:03:12 2020), 站内
  
具体说说库名字
【 在 jishufan 的大作中提到: 】
: js方便成度吊打scrapy  
: 【 在 sunsungll 的大作中提到: 】  
: : 但是比python有什么优势?什么库能比scrapy?  
: ...................
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 114.242.248.*]

第 19 楼

发信人: nikezhang (难得糊涂), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好(12)
发信站: 水木社区 (Thu Jan 16 08:05:05 2020), 站内
  
来挖坑的而已  
    
【 在 xeagle () 的大作中提到: 】
: 你是故意来踢版的?
:  
: 【 在 ludongxing 的大作中提到: 】
--
发自xsmth (iOS版)
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 223.104.3.*]

第 20 楼

发信人: jishufan (特二级程序员), 信区: Python
标  题: Re: 主题:要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:06:21 2020), 转信
  
js库很多啊,随便一搜就一大堆,关键词crawler、html parser之类的
【 在 sunsungll 的大作中提到: 】
: 具体说说库名字
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 61.151.178.*]

第 21 楼

发信人: sunsungll (sunsungll), 信区: Python
标  题: Re: 主题:要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:13:58 2020), 站内
  
比python能强在解析js?孟当浏览器?
【 在 jishufan 的大作中提到: 】
: js库很多啊,随便一搜就一大堆,关键词crawler、html parser之类的  
: 【 在 sunsungll 的大作中提到: 】  
: : 具体说说库名字  
: ...................
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 114.242.248.*]

第 22 楼

发信人: Rij (黑天鹅), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:25:41 2020), 转信
  
哈哈
  
【 在 nokia9300 的大作中提到: 】
: Python就没有真多线程。不过你可以多开几个进程。Python写的快,随便改。JAVA你还得熟悉jdk,调gc啥的。
: 我选JAVA。Python就是一个脚本语言,low到掉渣。
:
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 223.166.194.*]

第 23 楼

发信人: popstar001 (popstar001), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:29:29 2020), 站内
  
初级用python,高级用nodejs
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
  
来自 MI 8
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 111.193.206.*]

第 24 楼

发信人: opheliacui (opheliacui), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:37:30 2020), 转信
  
建议用go
  
  
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
  
- 来自「最水木 for iPhone X」
--
  
※ 来源:·最水木 客户端·[FROM: 112.97.60.*]

第 25 楼

发信人: lokta (部落), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好(12)
发信站: 水木社区 (Thu Jan 16 08:42:29 2020), 站内
  
两个语言都可以,但是我选择python。
因为等你写好java爬虫的时候,python脚本都跑几周了。  
  
很多绕过反扒机制的东西,都要慢慢调的。python在ipython里可以一行一行去试。java我不知道怎么搞。当然你说你用scala或者kotlin自然也可以。
  
对于性能问题,其实问题真不大,瓶颈都在io上,遇到限制ip的,没有好的ip池,用python和java都一样的速度。
  
我写爬虫,调试时候先变json丢mongodb,然后写个脚本自动生成sqlalchemy的model,正式环境入sql数据库,美滋滋。
    
【 在 ludongxing () 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
--
发自xsmth (iOS版)
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 58.42.245.*]

第 26 楼

发信人: eGust (十年), 信区: Python
标  题: Re: 主题:要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 08:52:18 2020), 站内
  
不是当浏览器,而是自带 chromium,直接调 headless api
  
【 在 sunsungll (sunsungll) 的大作中提到: 】
: 比python能强在解析js?孟当浏览器?
  
  
--
  
※ 来源:·水木社区 newsmth.net·[FROM: 101.98.83.*]

第 27 楼

发信人: zhuxf (言乍古月), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 11:34:25 2020), 转信
  
当然是java
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 223.104.3.*]

第 28 楼

发信人: zx107kaka (zx107kaka), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 12:01:15 2020), 转信
  
python
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
  
- 来自「最水木 for iPhone 8 Plus」
--
  
※ 来源:·最水木 客户端·[FROM: 223.104.4.*]

第 29 楼

发信人: ludongxing (ludongxing), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 12:30:48 2020), 转信
  
请问用go好的原因是什么?go语言写的程序能抓取网页上的动态信息吗?
比如说,go语言写的程序能抓取网页上java script产生的动态信息吗?  
  
【 在 opheliacui 的大作中提到: 】
: 建议用go
:  
: - 来自「最水木 for iPhone X」
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 110.255.89.*]

第 30 楼

发信人: opheliacui (opheliacui), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 12:41:40 2020), 转信
  
懒得跟你说。。不懂就算了
  
  
  
【 在 ludongxing 的大作中提到: 】
: 请问用go好的原因是什么?go语言写的程序能抓取网页上的动态信息吗?
: 比如说,go语言写的程序能抓取网页上java script产生的动态信息吗?
:
: ....................
  
- 来自「最水木 for iPhone X」
--
  
※ 来源:·最水木 客户端·[FROM: 112.97.60.*]

第 31 楼

发信人: hgoldfish (老鱼), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 13:10:39 2020), 转信
  
要装13下次用标准语法这样写:
  
用 go,不解释。
  
就没人烦你了。
  
【 在 opheliacui (opheliacui) 的大作中提到: 】
: 懒得跟你说。。不懂就算了
: - 来自「最水木 for iPhone X」
  
  
--
灭绝人性啊
  
  
※ 来源:·水木社区 newsmth.net·[FROM: 112.47.93.*]

第 32 楼

发信人: hgoldfish (老鱼), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 13:15:46 2020), 转信
  
网络部分低技术含量,用啥技术都行。我抄了一个 python-requests 到 c++,所以现在连 c++ 都敢用。
  
反爬搞验证码、模拟人工、识别图片等数据处理你用 js 试一下。
  
【 在 jishufan (特二级程序员) 的大作中提到: 】
: js写爬虫最好
  
  
--
灭绝人性啊
  
  
※ 来源:·水木社区 newsmth.net·[FROM: 112.47.93.*]

第 33 楼

发信人: jishufan (特二级程序员), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 14:07:47 2020), 转信
  
js调用图片处理服务的http接口就行了,甚至js往数据库里保存结果,也是http接口。scrapy这种东西早该淘汰了,耦合性太高,反而限制了跨机器的爬虫微服务
【 在 hgoldfish 的大作中提到: 】
: 网络部分低技术含量,用啥技术都行。我抄了一个 python-requests 到 c++,所以现在连 c++ 都敢用。
: 反爬搞验证码、模拟人工、识别图片等数据处理你用 js 试一下。
:  
  
--
  
※ 来源:·水木社区 http://www.newsmth.net·[FROM: 61.151.178.*]

第 34 楼

发信人: eGust (十年), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 14:27:13 2020), 转信
  
都是找个流行的第三方库找着用,没明白为啥 js 就不行了?
  
【 在 hgoldfish (老鱼) 的大作中提到: 】
: 网络部分低技术含量,用啥技术都行。我抄了一个 python-requests 到 c++,所以现在连 c++ 都敢用。
: 反爬搞验证码、模拟人工、识别图片等数据处理你用 js 试一下。
  
  
--
  
※ 来源:·水木社区 newsmth.net·[FROM: 122.59.30.*]

第 35 楼

发信人: happia (不知不觉我变成了一个经常在深夜赶稿的人), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 15:04:42 2020), 转信
  
正确答案易语言
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 120.230.122.*]

第 36 楼

发信人: NoSmoking (戒烟), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 15:22:58 2020), 转信
  
散了吧,不是不让写爬虫
【 在 ludongxing (ludongxing) 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?  
  
--
  
※ 来源:·水木社区 http://newsmth.net·[FROM: 219.142.14.*]

第 37 楼

发信人: stub (), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 17:44:34 2020), 转信
  
【 在 taibai888 的大作中提到: 】
: 赞,网络时延是关键指标
网络时延可以异步io,多线程发请求啊,如同看YouTube,虽然延迟延迟很高,但是不影响吞吐
--
※ 修改:·stub 于 Jan 16 17:47:37 2020 修改本文·[FROM: 106.37.187.*]
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 106.37.187.*]

第 38 楼

发信人: crella126 (crella126), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 18:01:55 2020), 站内
  
爬虫写得好,牢饭吃到饱
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 112.96.106.*]

第 39 楼

发信人: HITM (萨满教-哲学分析教派), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Thu Jan 16 18:03:12 2020), 转信
  
go go go  
【 在 ludongxing 的大作中提到: 】
: 而且要考虑将来爬虫程序的并行执行,那么用python好还是用java好?
--
  
※ 来源:·水木社区 http://m.newsmth.net·[FROM: 114.87.2.78]

第 40 楼

发信人: gmnicx (MR.Zhuang|5.1的新开始), 信区: Python
标  题: Re: 要是写网络爬虫程序,用python好还是用java好
发信站: 水木社区 (Fri Jan 17 15:06:17 2020), 转信
  
有个东西叫npai啊,又不麻烦
【 在 hgoldfish (老鱼) 的大作中提到: 】
: 网络部分低技术含量,用啥技术都行。我抄了一个 python-requests 到 c++,所以现在连 c++ 都敢用。
: 反爬搞验证码、模拟人工、识别图片等数据处理你用 js 试一下。
  
  
--
  
※ 来源:·水木社区 newsmth.net·[FROM: 124.202.207.*]

0/0      40
ludongxing 的帖子 ludongxing 的图片    查看原帖 回复: 40





发到邮箱
联系我们