我关注本书已久,出版后第一时间购买了纸书和电子版,准备仔细阅读。结果。。。

打字错误就不说了,平均一页至少有一个,网站上有网友提了一些,还有不少。 打字错误先不说了,主要看翻译问题吧。

P42 最后一段 英:One of the most common statistical methods is linear regression. At its most basic, it’s used when you want to express the mathematical relationship between two variables or attributes. When you use it, you are making the assumption that there is a linear relationship between an outcome variable (sometimes also called the response variable, de‐ pendent variable, or label) and a predictor (sometimes also called an independent variable, explanatory variable, or feature); or between one variable and several other variables, in which case you’re modeling the relationship as having a linear structure.

中:线性回归是统计学中最常用的算法之一。从根本上来说,当你想表示两个变量间的数学关 系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、 因变量或标签)和预测变量(有时称为自变量、解释变量或特征)之间存在线性关系。当 然这种线性关系也可能存在于一个输出变量和数个预测变量之间 注2 )。

注 2: 这称作多元线性回归。

第一句话,显然是:线性回归是最常用的统计方法之一,翻译成算法无中生有。

最后一句in which case漏译。

译者加的注毫无必要。

===========================================

P46 第2段

模型对于数据来说,主要是用来捕捉其中两个方面的信息:第一个是趋势(trend),第二 个是变动幅度(variation)。我们先从趋势说起。

P49 第3段

英:In order to get at this question of confidence, you need to extend your model. You know there’s variation among time spent on the site by people with five new friends, meaning you certainly wouldn’t make the claim that everyone with five new friends is guaranteed to spend 195.7 seconds on the site. So while you’ve so far modeled the trend, you haven’t yet modeled the variation.

中:这在统计学上叫作置信值的问题,解答它需要将模型的内涵稍作延伸。可以想象,如果用 户的新好友数为 5,那么这些用户在网站上花费时间的预测值不可能只是一个定值 195.7 秒,一个合理的情况是这些用户花费的时间都在 195.7 秒附近波动。因此,线性模型得到 的预测值只是所有可能预测值的一个总体趋势,而围绕这个趋势的波动性还没有被模型考 虑进来。

首先译者不能把握variation的翻译,P46翻译成变动幅度(错误),后面可能因为拿不准,就直接忽略了。 英文中最后一句trend和variation都是斜体,中文只有趋势弄成了楷体,variation对应的名词拿不准(翻译成了波动性)也就没有变字体。

另外第一句,confidence翻译成置信值,我个人没有见过这个术语。 第一句中文“这在统计学上”是无中生有,而英文in order to表示目的没有翻译出来。整段的翻译也过于随意了。

=============================================

P48 第2、3段

英:Here the little “hat” symbol on top of the β is there to indicate that it’s the estimator for β . You don’t know the true value of β ; all you have is the observed data, which you plug into the estimator to get an estimate.

To actually fit this, to get the β s, all you need is one line of R code where you’ve got a column of y’s and a (single) column of x’s:

中:β帽 代表 β 的估计值,真实的 β 是无从得知的。在得到 β 估计值的表达式之后,主要将观测数 据的值代入即可计算出实际的估计值。

在 R 软件中拟合一个线性模型再简单不过了,假设有一列数据代表因变量 Y ,一列数据代 表自变量 x ,则拟合的 R 代码为:

第一句话,译者大量省略原文(这里β上面的小帽子符号……)。

更严重的问题是,译者不能区分 估计值estimate 与 估计量estimator 这两个概念。第一段最后一句同时出现这两个词,译者不能区分,就直接省略了一个。

第二段第一句中to get the β s漏译了。

最后一句,中文为Y,原文为y。统计学中Y和y含义不同,对读者造成严重误导。

整体上这段话的翻译也过于随意。

===============================

P54

英文:

• Linearity

• Error terms normally distributed with mean 0

• Error terms independent of each other

• Error terms have constant variance across values of x

• The predictors we’re using are the right predictors

中文:

• 线性假设;

• 误差项是正态分布的,并且均值为 0;

• 误差项是相互独立的;

• 误差项具有恒定的条件方差;

• 预测变量都是有用的。

第1个,直接翻译成 线性性 就可以了。

第4个,across values of x 漏译。原文没有条件一词,但也确实是说条件方差,可以接受。另外个人感觉constant最好翻译成“为常数”,比“恒定的”稍好吧。

第5个,原文直接翻译是 所使用的预测变量都是正确的预测变量。原文right是斜体,right的英文含义也比 正确 要广,但"有用"给人感觉对应中文useful,不太合适。

===========================

P54 第2-3行

英:It’s possible that the true model is quadratic, but you’re assuming linearity or vice versa.

中:很可能真实的模型是二次型的,而 你最后还是使用了线性模型。

quadratic不能翻译成二次型,二次型是线性代数的特定术语。直接翻译成二次的(或者二次方程)就可以了。

or vice versa漏译。

“你最后还是使用了线性模型”翻译过于随意。

==========================

P16-18 sampling翻译成采样,这个词的标准翻译是抽样。更严重的是,P18第二段将抽样分布翻译成取样分布。一会儿采样,一会儿取样,都是错误翻译。

=====================

P17 第二个小标题

bias翻译成偏差

偏差在英文中对应多个词,而且不是统计学术语。而bias在统计中有特定含义,应当翻译成偏倚。 翻译成偏差不能让人想到英文说的是bias一词。

========================

这些都是比较集中的错误,一段中有多个错误,比较典型的。其他的不列举了。

总结: 图灵的数据分析类图书似乎已经成为烂译的重灾区。《有趣的统计》一书,全书都是错译,译者连零假设这个术语都不知道(翻译成虚无假设),根据译者介绍来看,该书的译者擅长网站开发,也就不难理解了。而数据科学实战的两位译者,一个是在高校任教的统计学博士,一个是SPSS的工程师,居然也出现低级错误,原因就难以理解了。

编辑问题也非常突出,文字错误非常多,而编辑似乎也不知道怎么翻译是对的。图灵公司需要一个专职统计学编辑数据类图书,不应由精通其他领域的编辑兼职。