晨晨

  • 关注
  • 短消息
文章
5
评论
0
推荐
0
收藏
0
社区会龄
8 年
个人网站
--
个人简介
还没有输入个人简介……
  • 晨晨 8推荐

    百度的最后一战

    今日的百度,似乎已经陷入了四面楚歌的境地。国际化方面,百度日本已经被彻底的边缘化;视频方面,爱奇艺貌似流量很大,实际上也只是不赚不赔;手机端虽然正在发力,但始终没有拿出类似微信那样有影响力的产品;作为大本营的搜索领域,已经被360和搜狗盯上了,将来必有一场血战,胜负殊难预料。难…...

  • 晨晨 推荐

    EDCG的第一个数据抓取项目启动了

    作为EDCG成立后的第一个项目,这个项目我亲自挂帅,一共有12个人参与,目标是抓取:纽约时报,卫报,今日美国,美国国家公共广播电台,路透社,美联社的数据,预计将能够抓取到数百万的数据。 ...

  • 晨晨 2推荐

    网上可供下载的数据集合大整理

    本文严禁转载,欢迎链接 目前网上可供下载的数据众多,但是内容庞杂,我把其中比较有用的数据找了出来。 wiki系: wikipedia大家都不陌生,它的下载地址是:http://dumps.wikimedia.org/ , 这里有详细介绍:http://en.wikipedi…...

  • 晨晨 推荐

    英语数据抓取组的章程

    1.EDCG是一个以抓取、处理和分享英文数据为目的的组织。 2.EDCG抓取的数据覆盖以下方面:商品数据,公司信息数据,公开的新闻,报纸,杂志,图书,文章,博客等内容。 3.EDCG中任何组员都可以分享所有数据,数据将存放于网盘,或用超大邮件发送给大家。抓取数据时应遵循中华人民…...

  • 晨晨 1推荐

    关于成立英语数据抓取组的倡议

    现在互联网上有着海量数据,对这些数据的抓取,加工和分享将是一件非常有意义的数据,但是目前还没有一个以抓取及分享互联网数据为目的的组织。所以我现在发起并成立了英文数据抓取组(English Data Crawling Group),简称EDCG。本组织的目标,主要是抓取英文的电商…...

评论了