“3 天了,我还在做数据预处理。” “第 1 步就卡住了,数据预处理也太难了吧!” “妈呀,弄了我几个月的问题,原因竟然是我预处理数据的时候方法不好。” “脑子空空如也,此时此刻,为啥没有人告诉我,原来我可以死在数据预处理上。” …… 网上随手搜一下,就会发现对数据预…...
今天学习了R语言实战第二版第一章R语言介绍,学会了如何从网上下载不同系统的R软件,初步认识R的工作空间和包的使用方法,明天继续学习创建数据集。 ...
作者Jonathan McPherson 译者钱亦欣 引言 在R语言中dubug是个广泛讨论的话题,本文将聚焦于Rstudio内集成的debug工具。如果你想了解更多这个领域的内容,请参考下面这篇Hadley Wickham的文章。 [Debugging, condit…...
作者 钱亦欣 json是当下非常流行的数据交换格式,有着简单易用,易读(人和机器都容易)等特点。目前挺流行的非关系型数据库MongoDB就可以简单理解为一个json的容器,同时mysql(5.7以上版本),postgresql等关系型数据库也开始支持这一数据结构。因此,掌握关…...
作者SAURAV KAUSHIK 译者 钱亦欣 引言 网上的数据和信息无穷无尽,如今人人都用百度谷歌来作为获取知识,了解新鲜事物的首要信息源。所有的这些网上的信息都是直接可得的,而为了满足日益增长的数据需求,我坚信网络数据爬取已经是… ...
作者佚名 译者钱亦欣 引言 使用一些建模分析手段来评价电影的成功已经屡见不鲜,这类预测模型常常使用注入电影制作成本,类型,主演,出品方等结构化数据作为输入。然而,在社交媒体日益发达的现在,人们时常会在Twitter,Facebook等网站上发表自己的意见和建议。社交媒体已…...
作者 KUNAL JAIN 译者 钱亦欣 引言 时光犹如白驹过隙,又到一年末尾,该做点总结了。(译者注:原文有大量抒情文字,我懒得翻译了。。。) 这篇文章总结了16年度本网站上最火的资源,我们把它们分成了指南,短文,职业文和技能测试四个板块以方便阅读。 如果你是个新人,…...
【译文】R语言中的离群值检测和处理 作者Selva Prabhakaran 译者 钱亦欣 数据中的离群值往往会扭曲预测结果并影响模型精度,回归模型中离群值的影响尤其大,因此我们需要对其进行检测和处理。 离群值检测的重要性 处理离群值或者极端值并不是数据建模的必要流程,…...
【译文】用R语言做网页爬虫和文本分析 作者 Florent Buisson 译者 钱亦欣 受到这篇情感分析的文章和这篇网页爬虫[指南](http://zevross.com/blog/2015/05/19/scrape-website-data-wit… ...
【译文】因子分析在2016欧洲杯数据中的应用 作者 Hamze Dokoohaki 译者 钱亦欣 本文我将演示如何对2016年欧洲杯第一轮小组赛的数据进行因子分析(FA)。同时,我假设你对于因子分析的背景知识已经有了足够了解,所以我在此就把论述重点放在了应用上。 维基百…...
【译文】ggplot2 包主题范例 作者 Andrea Cirillo 译者 钱亦欣 译者注:ggplot2是R语言中使用最多,功能最全面,效果最好的数据可视化包(你看我都不加之一)。包作者为男神Hadley Wickham(本月他的书《R包开发》也在图灵上架)。 这篇…...
Hadley Wickham RStudio的首席科学家,莱斯大学的助理教授,资深R社区成员,已开发了30多个R包。因在数据处理和可视化开发工具方面的卓越贡献,获得专为统计计算而设立的约翰·钱伯斯奖。 ![enter image description here][1] …...
【译文】R语言不平衡数据分类指南 作者 MANISH SARASWAT 译者 钱亦欣 引言 目前我们发展出了不少机器学习算法来对数据建模,基于数据进行一些预测已经不再是难事。不论我们建立的是回归或是分类模型,只要我们选择了合适的算法,总能得到比较精确的结果。然而,世事并…...
【译文】R语言中离群值的识别、描述、绘制与移除 作者 Klodian Dhana 译者 钱亦欣 统计学中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此,数据分析中离群值的识别和移除(如有必要)是很重要的一个步骤。 鉴定离群值的方法有很多种,包括…...
【译文】R语言中的缺失值处理 作者 Selva Prabhakaran 译者 钱亦欣 在处理一些真实数据时,样本中往往会包含缺失值(Missing values)。我们需要对缺失值进行适宜的处理,才能建立更为有效的模型,使得后续预测分析能有更小的偏差。本文将罗列不同的缺失…...
【译文】利用dplyr包进行数据操作 作者 Teja Kodali 译者 钱亦欣 dplyr是R中用来进行数据操作的一个包,由Hadley Wickham(男神!)编写维护。它提供了一些功能强大,易于使用的函数,这些函数对于数据探索分析和数据操作而言非常实用。在本文中我将…...
【译文】利用R语言处理数据库中的数据 作者Fisseha Berhane 译者 钱亦欣 R中的dplyr包是我最喜欢的包之一(译者注:也是我的最爱),可以用来处理存储在内存和数据库中的数据。本文我会分享自己使用dplyr包来处理数据的经验,基本还敢数据处理的方方面面。关于…...
【学习感悟】 文科生如何入门R语言 作者 钱亦欣 随着大数据时代的来临,掌握R语言几乎成了各个学科和多个工作岗位的必备技能。然而,不少朋友由于之前学的是偏向人文社科的专业,之前连Excel都玩不顺手,更别提接触过编程语言了。面对市面上一堆R语言的书籍,可能有些不知所措,一看…...
【译文】如何在R语言中使用SQL命令 作者 Fisseha Berhane 译者 钱亦欣 对于有SQL背景的R语言学习者而言,sqldf是一个非常有用的包,因为它使我们能在R中使用SQL命令。只要掌握了基本的SQL技术,我们就能利用它们在R中操作数据框。关于sqldf包的…...
利用机器学习可以很方便的做情感分析。本篇文章将介绍在R语言中如何利用机器学习方法来做情感分析。在R语言中,由Timothy P.Jurka开发的情感分析以及更一般的文本挖掘包已经得到了很好的发展。你可以查看下sentiment包以及梦幻般的RTextTools包。实际上,Tim…...