在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到数据本身的表达形式,Spark 读取在磁盘的上的形式(主要是Apache Avro和 Apache Parquet)以及当数据需要缓存或者移动的时候内存中的数据形式。

阅读全文 »

当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如 transformation,action,RDD 等等。 了解到这些是编写 Spark 代码的基础。 同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解一些新的名词: job, stage, task。对于这些新术语的理解有助于编写良好 Spark 代码。这里的良好主要指更快的 Spark 程序。对于 Spark 底层的执行模型的了解对于写出效率更高的 Spark 程序非常有帮助。

阅读全文 »

网站刚刚完全从 Wordpress 迁移至 github pages with Hexo。有很多 bug。

//TODO

  • 部分图片未上传
  • 图片名称未修改
  • 文章中的图片链接不正确
  • 未使用CDN,七牛
  • 部分文章没有摘要
  • 标签混乱
阅读全文 »

1.部署到 Github Pages

1.当使用 Git 仓库部署时:

fatal: 'github.com' does not appear to be a git repository
fatal: Could not read from remote repository.
Please make sure you have the correct access rights
and the repository exists.

然后去看了官方文档,他说建议使用 HTTPS 连接。

阅读全文 »

Thread 线程中显示 Toast

1
2
3
4
5
XXActivity.this.runOnUiThread(new Runnable() {
public void run() {
Toast.makeText(XXActivity.this, "下载成功", Toast.LENGTH_SHORT).show();
}
});
阅读全文 »

油猴子插件版

下载地址

教程点这里

如果还不会,看下面:

使用方法

使用 Chrome 浏览器打开百度云如图所示的页面,在“创建私密链接”上右键选择“检查”,在 Chrome 控制台输入下面的 压缩版代码 之后回车,回到网页点击“创建私密链接”,会出现如下对话框:

您在此输入自定义密码后点击确定即可。关于可用的自定义密码见下面注意事项

压缩版代码

1
javascript:require(["function-widget-1:share/util/service/createLinkShare.js"]).prototype.makePrivatePassword=function(){return prompt("请输入自定义的密码","1234")}
阅读全文 »

没想到我之前的一篇关于百度的文章引起了这么大的反馈。很多朋友称赞我写的好,实际上并非如此。我只是往一块顺着山坡向下滚的石头上踢了一脚而已。人们对于百度早就积累了太多年的怨气,我只是替大家说出来罢了。这篇文章总共收到了将近900条评论,而且还在继续增加中。可惜微信只能放出来50条精选评论,我真的很想把所有评论都放出来,里面有各种受骗的个人经历,有对我的鼓励,也有百度员工对我的各种指责。这篇文章除了讨论这些问题,还提供了一个具体案例,如果你懒得看这些理论,直接翻到后面有图的部分看吧。

在我这篇文章之后,又引发了不少争论,非常令人高兴。当人们开始不约而同讨论一个问题的时候,说明它开始得到真正的重视了。这几天我看了很多文章,不少人有个疑问,就是百度的普通员工是否应该为此承担责任,毕竟他们只是一份工作。后台也有不少百度员工留言,反复告诉我,他们就是做一份工作,不觉得自己有什么责任。这确实是个有意思的问题。当百度员工说出来这不是我们的责任,这个责任要怪监管部门,而完全忽视各种假医院假药坑害了多少人的时候,当携程员工说我们只有万分之二的无票率,而完全忽视了携程每个月出票量高达数百万的时候,我们确实觉得挺奇怪,他们是真的理解不了实际情况是怎么样的吗?并不是,当活生生的人变成了数字的时候,就没有人在意实际情况了。

所有公司都会用KPI做为考评指标,但在KPI驱动下,员工去做这些事的时候,他们到底有没有责任?这个问题不仅仅发生在企业上,而是一个历史悠久的问题,甚至可以说是人类根深蒂固的问题。2014年有一步非常火的科幻电影,叫做《安德的游戏》,讲的就是这个问题的极端表现。

这部电影的主人公安德是高智商的天才少年,从小开始接受军事训练,进行一系列的模拟战争。在一次模拟战争的考试中,他使用了人类的终极武器“设备医生”,摧毁了敌人的一整颗星球,灭掉了敌人整个种族。但之后,他才知道那并不是一次模拟考试,而是真实的战争,他成了宇宙中前所未有的大屠杀者。电影中虽然也有这一幕,但弱化了原著中,安德得知实情之后的心理崩溃过程。

《安德的游戏》小说原著于1985年,有着惊人的预言性,到今天,这种情况在人类的战场上已经真实发生,就是美国这些年投入战争的无人机。无人机飞行员坐在操作室里,无需身临战场,只需在美国的基地的控制台上操作,远在中东的无人机就可以猎杀武装分子。就连美国军方也忽视了这种行动对无人机操作员的心理影响,他们大概起初认为这会比战场上消灭敌人心理压力小很多。但实际上,无人机操作员几乎都出现了严重的心理问题。当然,这是两个非常极端的例子。我们的现实中是什么样呢?

知乎上有人问过一个问题,是“按一下按钮你会获得 50 万同时有一个陌生人会死去,你会按吗?”,曾经有一个被顶了一万多次之后被折叠的答案,是:“某度已经在做了”。这个回答我估计是是指百度在医疗广告以及疾病相关贴吧管理上出的一系列问题。百度的员工们当然不同意这种看法,他们认为最终因病致残致死被骗的人跟他们没有直接关系,那是假医院的事情,至于为什么有假医院,那是政府的事情。他们只是做好自己的工作,完成自己的KPI而已。不应该受到指责。但实际上,在这些企业里面,KPI就像安德的游戏中的模拟训练,就像无人机的操作台。他们都是把一个人的具体行动和最终导致的后果隔离开的办法。KPI让人麻木,把人变成了巨大机器上的一个零件,无论机器导致了什么,每个零件都不会觉得自己是错的。

阅读全文 »