• 当前位置:首页 > 技术开发 > 数据采集 > ID_53752
    • 预算范围
    • ¥1000-2000
    • 2024年6月19日爬虫项目一个分布式采集客户端需要开发并且配合服务端输出对应数据可以Excel可以
      发布日期:2024-06-19 任务编号:53752 完成周期:5 天 联系方式: 联系电话:
    正在招标中…

    • 举报 收藏 具体要求:

      标题概括

      2024年6月19日爬虫项目一个分布式采集客户端需要开发并且配合服务端输出对应数据可以Excel可以json格式

      具体开发内容

      分布式客户端:国内的客户端标识一般放在国内的vps上面,国外客户端标识一般都在国外的vps上面。

      程序每次运行的时候通过向后台请求到代理信息,保存到本地,当采集数据遇到百度360谷歌等各大搜索引擎的安全拦截的时候,就开始通过http代理去访问获取数据。如果期间还出来安全拦截,就在换代理ip,换了3个还是拦截就把这个任务分配给其他的客户端去执行。

      代理ip默认有有效时间一般是30分钟,时间到期后自动启用停止代理,如果拦截就在执行上面的挂代理逻辑。

      上面说的运行不是每次执行任务的时候就去后台请求代理信息,而是双击打开程序的时候。如果需要更新代理的话,重启程序就可以。
      

      客户端标识分为1和2,其中1为境内的客户端标识获取后台的国内境内代理信息,标识为2为谷歌等境外搜索引擎的,获取后台的国外代理信息。

      标识为1境内的客户端,采集:百度总收录,日收录,周收录,年收录,是否收录,Sogou总收录,是否收录,Sogou快照时间,360总收录,必应总收录,头条收录

      标识为2的境外客户端:google总收录,google是否收录,google月收录,google周收录,google日收录,雅虎收录

      开发方向提示:

      1,输入网址查询,查询后的内容采集并且输出数据,可以是输出Excel文档,也可以是输出json格式,服务端同事会需要这个数据并且存入数据库然后再通过服务端输出api接口,再让前端同事请求

      2,偏向于采用python高会好点,其次语言不限,这个客户端只要做出来可用即可,能够给后端输出信息即可。

      3,用什么端也无所谓,可以是桌面客户端,WEB都可以,实现即可,然后需要有能配置代理ip的,因为诸如google 国内ip无法查询,详情还可以和后端沟通一下。*

      具体开发周期

      5个工作日


      联系我时,请说是在 互站网 看到的,谢谢!

    • 当前信息若含有黄赌毒等违法违规不良内容,请点此举报!
    元 (您的报价只能在雇主的预算范围:¥1000~2000
    隐藏投标信息,仅雇主可见
    隐藏联系方式,仅雇主可见
    对雇主显示我的联系电话
      投标服务商
    交易流程
    注意事项

    1、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在互站上所留的QQ、手机号沟通,以防对方拒不承认自己说过的话。

    2、虽然交易产生纠纷的几率很小,但请尽量保留如聊天记录这样的重要信息,以防产生纠纷时便于互站介入快速处理。

    互站声明

    1、互站作为第三方中介平台,依据交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益;

    2、非平台线上交易的项目,出现任何后果均与互站无关;无论卖家以何理由要求线下交易的,请联系管理举报。

    • dujiangdu123
    广告 商业广告,理性选择
    广而告之

    客服

    互站官方客服

    客服QQ: 400****86 (点击直接对话)

    客服电话:400****86(查看完整电话)

    客服邮箱:serve#huzhan.com

    管理仅处理交易投诉、举报、帐号、资金等平台使用问题;
    商品问题请咨询各商品详情页面中显示的商家客服QQ。

    正常模式精简模式

    返回顶部

    浏览记录

    最多记录100条,当前共0
    1 / 1

    购物车
    1 / 0

    0 选中0件,合计 0
    结算

    站内消息

    当前共0条消息
    1 / 0