新闻中心

03-22
2018
12.7万亿惊天罚单,Facebook非死不可?
“泄密门”爆发后,远在太平洋彼岸的扎克伯格这几天的心情如过山车般惊心动魄,Facebook社交一哥的地位也在不断的遭受着外界的质疑。3月17日,美国《纽约时报》报道称,Facebook上超过5000万用户信息数据被一家名为“剑桥分析(Cambridge Analytica)”的公司泄露,用于在2016年美国总统大选中针对目标受众推送广告,从而影响大选结果。用户隐私遭泄露的Facebook被媒体报道称,其有可能违反2011年的和解令,美国联邦贸易委员会正在开展的调查,若属实,罚金高达2万亿美元(约12.7万亿元人民币),而Facebook的总市值也才4885亿美元。这一罚,就是4个Facebook,不知扎克伯格心里作何感想。受此影响,当地时间3月19日,Facebook股价盘中一度大跌7.1%,收盘价172.56美元/股,跌幅6.77%,这一股价表现是2014年3月以来最惨的一天。Facebook,走进了生死通道。罚款,2万亿美元!Facebook一直行走在泄与不泄的边缘,毕竟身处互联网时代,保得住隐私的难度和成为下一个扎克伯格一样。据悉,此次泄密事件的暴露是有人告密,告密者名为克里斯托夫·维利,是剑桥分析的前雇员。根据其爆料,剑桥分析在2016年美国总统大选前获得了5000万名Facebook用户的数据,用于影响大选结果。泄密并不是Facebook直接导致。2014年,剑桥分析的研究者Kogan要求用户参与一个性格测试,并下载一个第三方App“这是你的数字化生活”(this is your digital life),搜集的信息包括用户的住址、性别、种族、年龄、工作经历、教育背景、人际关系网络、平时参加何种活动、发表了什么帖子、阅读了什么帖子、对什么帖子点过赞等。然而,最后只有27万名用户真正参与了性格测试的调查,调查中这些用户同意提供自己的个人数据供学术研究。据悉,参与调查的27万Facebook用户必须拥有约185名好友,并且允许获得他们朋友的资料,因此覆盖的Facebook用户总数达到5000万人。最后搜集到的数据,仅在两三个月内就至少达到五六千万。悄无声息获取5000万人资料,剑桥分析公司的棋,下的漂亮。而剑桥分析创始人尼克斯则在官方质询会上表示,公司从未使用过Facebook信息。这正是外界对于非直接泄密用户资料Facebook的愤怒所在,这家互联网巨头在授权管理上存在巨大漏洞。正是因为Facebook存在在用户不知情的情况下,将用户个人数据移交给剑桥分析公司,导致Facebook将面临2万亿美元的罚款。事情要从2011年说起。2011年,由于Facebook更改了一些设置却没有通知用户,美国联邦贸易委员会指控Facebook欺骗用户,强迫用户分享更多其本无意分享的个人信息。Facebook最终与联邦贸易委员会就该案达成和解协议,即2011和解令。和解令的要求之一是,Facebook在隐私设置变化时要事先征得用户同意。根据相关人士介绍,和解令每违反一次,可判处4 万 美元罚款。如果真的有5000万用户的数据被泄露,Facebook将面临2万亿美元的巨额罚款。剑桥分析何许人也在这场泄密游戏中,故事的主角除了Facebook,还有剑桥分析公司,一家神秘的商业数据分析公司。据媒体报道,剑桥分析公司创立于2013年,富有的美国共和党捐助人罗伯特·墨瑟(Robert Mercer)大额资助过剑桥分析公司,2014年参与44场美国政治竞选,在24个国家和地区拥有分部。剑桥分析公司曾受雇于特朗普竞选团队,也曾为英国脱欧推波助澜,该公司的业务范围广泛至权色钱交易,更有员工称其已经在中国开展业务,但不是在政治领域。据媒体报道,当地时间19日,英国电视广播第4频道曝光了一段暗访视频:卧底记者假扮成一名来自斯里兰卡的潜在客户,与剑桥分析公司接洽,表示希望通过帮助,赢得斯里兰卡的大选。几次沟通后,剑桥分析公司首席执行官尼克斯现身并道出一番“秘密言论”。尼克斯被录制到:曾发表了有关其为大选所做工作的争议性言论,包括剑桥公司如何在特朗普总统胜选发挥的主要作用,及“所有数据、所有分析和所有目标”,还表示该公司可以“将一些女孩送到候选人家中”。节目播出后,遭到尼克斯的强烈否认。尽管如此,尼克斯已被停职接受调查。英国相关机构正申请对剑桥分析公司进行搜查,这意味着英国将正式对此案展开调查。Facebook创始人、CEO马克·扎克伯格,也被要求3月26日前对此作出回应,然而扎克伯格还未回应。更有投资者发起集体诉讼,表示脸书对用户数据安全情况做出虚假或误导性陈述,导致投资者蒙受损失。经此一役,Facebook元气大伤,股价也遭受了猛烈的冲击。股价大翻车!此前Facebook一直是股票市场上表现最好的大盘股之一,在过去的12个月中,该公司股价上涨32%,而同期标准普尔500指数上涨16%。每逢“泄密门”出现,Facebook的股价就会应声跳水一番。然而此次和以往来的有些不太一样,这一事件经过周末的发酵,直接打压了Facebook周一的股价表现。当地时间3月19日,Facebook股价盘中一度大跌7.1%,收盘价172.56美元/股,跌幅6.77%。这一股价表现是2014年3月以来最惨的一天,较Facebook在2月1日创下的纪录收盘高位下跌了10.8%,市值蒸发364亿美元。截至当地3月20日,Facebook收盘报168.15美元/股,较前一交易日收盘时的172.56美元下跌了4.41美元,跌幅为2.56%,市值两天蒸发500亿美元。股价连续两日下跌,扎克伯格的身家也遭受波及,身家仅周一一天就缩水了60多亿美元。据福布斯实时富豪榜数据显示,其身家在周二又缩水17亿美元。虽然Facebook的股价遭遇下跌,但是机构对其未来预期却依旧持乐观状态,多家机构仍给出买入评级。美银美林发表的研究报告则称,虽然市场对公司的股票有过份抛售的情况,短期利好因素有限,但在其他基本面方面,目前Facebook的估值是依旧十分有吸引力,故维持“买入”评级,目标价265美元。Stifel的分析师斯科特·德菲特,把这该股的目标价定为195美元。与此相反,Pivotal Research在Facebook股票上给予“卖出”评级,将Facebook的的目标价定为152美元,这在周五收盘价的基础上下跌了18%。此外,苹果(AAPL.O)、谷歌母公司Alphabet(GOOG.CHL)、亚马逊(AMZN.O)、微软(MSFT.O)、英伟达(NVDA.O)、英特尔(INTC.O)、特斯拉(TSLA.O)等科技股也集体下挫。Facebook作为美国乃是全球的社交第一平台,在保护用户隐私方面却如此轻视。难道真如江湖上传言:隐私在商业公司方面只是个笑话,利益才是他们的根本?                           
03-17
2018
2018年互联网加密必备:SSL证书
 告别过去的2017,展望2018。在新的一年里,“加密”一词将会在互联网中展开热烈的话题。2018年是互联网加密的重要转折点,在过去的2017年中,全球各大主流浏览器都在推动网络站点加密。从去年年初起,Google和Mozilla浏览器的用户界面进行升级,对输入密码字段的HTTP站点开始标记“不安全”标识。大半年过去后,10月份,警告又一次上升,浏览器对任何带有文本字段的HTTP页面发出“不安全”警告。到今年2018年,浏览器将把所有的HTTP站点都标识为“不安全”。因此,今年如果各大站长的站点并没有正确安装SSL证书迁移到HTTPS的情况下,您的网站将会别浏览器默认为“不安全”的网站。目前仍旧有数百万个网站使用HTTP协议,如果这些网站不及时更新,将被全球各大主流浏览器列入黑名单。为什么站点需要申请SSL证书就目前而言,最直接的原因是浏览器将HTTPS列为基本的要求,而设置HTTPS最常用的解决方案是正确部署安全的SSL证书。以往,互联网是建立在HTTP(超文本传输协议)的基础上,HTTP并成为使用最广泛的网络协议。但HTTP存在一个街知巷闻的缺点:不安全。任何通过HTTP连接传输的信息都是明文、公开的,第三方极其容易窃取传输的信息,发起中间人攻击。当站长正确部署SSL证书时,用户可通过HTTPS访问服务端。而HTTPS是HTTP的安全版本,使用SSL证书加密功能保护客户端与服务端之间传输的信息。而近年来,随着网络攻击不断增长,网络安全成为互联网重要的模块,而SSL证书是浏览器最基本的安全标准。为什么是由浏览器推动HTTPS协议。浏览器在互联网中充当着十分重要的角色。浏览器是用户访问互联网的重要窗口,当用户访问网站时,都须通过浏览器指向正确的网站地址来完成。如果当遇到不安全的网站,浏览器向用户发出警告时,认为该站点存在安全隐患,用户就会对是否继续访问该网站做出考虑。因此浏览器在客户端安全具有相当大的影响力。它们会站在用户角度考虑,尽量保障用户的利益。因此,安全的连接意味着提升用户的网络安全性,创建更安全的互联网。为何选择SSL证书从2017年推动的各项政策来看,浏览器将全面推进互联网传输协议升级到HTTPS已是势在必行的事实。除了提升网络安全连接之外,还有另一个技术原因。HTTP/2是HTTP的继承者。它速度更快,性能更好。但HTTP/2也需要安全连接。到目前为止,HTTP/2的推出已经是渐进的,是互联网普遍采用的标准。而要求SSL也有助于转换到HTTP/2。SSL如何工作?SSL证书一般部署在服务器上,允许客户端对服务器进行身份验证,并强制建立安全连接。各大站长可向权威的证书颁发机构(如GDCA)申请获取SSL证书,然后将证书正确部署在服务器上,使网站的域名指向HTTPS地址而不是HTTP地址。完成后,当访问者访问站点时,他们将收到一份证书的副本,以及第一次连接时的公钥。然后用户的浏览器使用证书及其底层公钥基础设施对服务器进行身份验证(确保它是合法的所有者)。身份确认无误后,用户就可以放心的浏览网站。最后2018年将是互联网使用HTTPS加密收紧的一年,SSL证书成为浏览器向安全网站发出的硬性指标,HTTP升级到HTTPS不再是站长们的选择题。国内的站长们可通过数安时代(GDCA)申请SSL证书,GDCA是国内已通过WEBTRUST国际认证,具备了国际化的电子认证服务能力的CA机构之一。其拥有国内自主签发信鉴易 TrustAUTH SSL证书以及是国际知名品牌:GlobalSign、Symantec、GeoTrust SSL证书国内金牌代理商,满足各种用户对SSL的各种要求,广大用户可根据自身的需求向GDCA申请合适的SSL证书,GDCA的专业团队将会为您提供最佳的HTTPS解决方案。                           
03-17
2018
霍金大事记 他对人工智能的预言时刻提醒着人类!
据英国天空新闻等多家媒体报道,世界著名物理学家史蒂芬·霍金去世,享年76岁。让我们回顾下霍金的一生:1968年应用先前彭罗斯研究奇点时所发展出来的数学技巧,霍金团队获得很多关于大爆炸的存在与物理行为的重要结果。霍金与乔治·艾利斯于1968年发现,宇宙背景辐射的存在证实宇宙的确曾经发生过大爆炸。霍金与罗柏特·哲洛奇、彭罗斯合作将奇性定理加以延伸;他们表明,宇宙必须有一个初始奇点,时间与空间就是从这初始奇点开始演化。霍金与彭罗斯合作撰写关于最初时间的论文荣获1968年引力研究基金竞赛第二名。1970年隔年,霍金得到冈维尔与凯斯学院特别设立的“科学卓越贡献奖学金”,提供他在凯斯学院做六年研究的薪资。1970年,霍金与彭罗斯共同发表论文证明,假若宇宙遵守广义相对论,并且含有足够多的物质(如同现今观察到的数量),则它必定起始于大爆炸奇点 。来年,霍金发表的论文《黑洞》赢得引力研究基金竞赛第一名。霍金与艾利斯共同撰著的《时空的大尺度结构》于1973年出版,这是霍金的第一本著作,现已成为经典文品,主要是探讨时空的基础结构,从粒子物理学尺度10-13cm到宇宙学尺度1028cm,应用微分几何来检试广义相对论的两个后果,第一个后果是恒星坍缩后形成黑洞与其所含有的奇点,第二个后果则是在宇宙初始时奇点的存在。在对于奇点的研究告一段落之后,霍金开始转移焦点,开始研究黑洞。1971年今年他发表了三篇重要论文。第一篇论文指出,宇宙可能存在一种崭新种类的物体,称为原生黑洞,是在大爆炸的最早时刻经过高温与高压制成的微观黑洞。第二篇论文部分证明了无毛定理,不论黑洞是怎样形成的,它只具有三种性质:质量、角动量、电荷。第三篇论文阐明,黑洞的事件视界表面面积永不会减少,两个黑洞合并后的表面面积不会小于原先两个表面面积之和,这发现后来被命名为黑洞热力学第二定律。因为任何粒子都无法从黑洞表面逃逸出去,所以黑洞的质量只能增加,不能减少;又由于黑洞的事件视界表面面积是决定于它的质量,所以表面面积也只能增加,不能减少。根据热力学第二定律,孤立系统自发地朝着热力学最大熵状态的方向演化。霍金认为,黑洞表面面积的增加很像熵的增加,不过这只是个类比。但是,约翰·惠勒的研究生雅各布·贝肯斯坦坚持主张,黑洞的表面面积可以用来量度熵;假若将一堆含有熵的物质丢入黑洞,则黑洞的熵必定增加,这会从黑洞的质量增加反映出来。霍金觉得贝肯斯坦的主张有误,假若黑洞具有熵,则必定可以测量出它的温度,它会辐射出能量,但是没有任何粒子可以从黑洞内部逃逸出去!1972-1973年间,霍金又与杰姆斯?巴丁、布兰登?卡特合作提出四条黑洞热力学定律。这些定律的形式看起来很像热力学定律。但是霍金强烈声明,黑洞不能辐射出任何能量,因此黑洞不具有熵。《时空的大尺度结构》成功出版后,霍金开始专注研究量子引力──量子力学与广义相对论的结合。俄国物理学者雅可夫·泽尔多维奇与艾利西?斯塔宾斯基从不确定性原理推断出旋转中的黑洞会发射粒子,这些粒子是在事件视界外的邻近区域由黑洞的旋转能制成,因此会消耗黑洞的旋转能,直到黑洞不再旋转为止。霍金对于这研究觉得很好奇,因此,霍金与好友基普·索恩一起去俄国拜访泽尔多维奇与斯塔宾斯基,希望更多地了解他们的想法,索恩与俄国物理学者在过去五年间共同进行学术研究,在那里建立了丰富的人脉关系。会谈之后,霍金觉得俄国学者的数学方法稍显粗糙,他可以给出更好的结果,可是,经过仔细计算,他发现了一个令人惊讶的结果,不仅是旋转中的黑洞,甚至连静止的黑洞也会持续发射粒子,其能谱符合热力学黑体辐射的物理性质。这结果与黑洞热力学第二定律相互矛盾,并且支持贝肯斯坦关于熵的推论。1974年今年霍金在牛津大学卢瑟福-阿普顿实验室举行的第二次量子引力会议发表论文《黑洞爆炸》。在这篇论文里,他详述,在事件视界外的邻近区域会出现很多虚粒子对,每一对虚粒子都是由一个正能量粒子和一个负能量粒子组成,总能量为零,通常,这些虚粒子对在出现后的短暂片刻会相互湮灭,为了满足不确定性原理,但是,假若在湮灭前,负能量粒子穿越过事件视界,则它可以在黑洞内生存,而正能量粒子也可以逃逸至无穷远,因此,能量会被辐射出去,黑洞质量会逐渐减小,这就是宏观黑洞发射辐射的机制。对于宏观黑洞,辐射率与质量呈反比,由于宇宙微波背景辐射的干扰,很难观测到这种称为霍金辐射的现象。例如,一个质量为太阳质量(1030kg)的黑洞,其霍金辐射温度为10-7K,远远低于宇宙微波背景温度(2.7K)。黑洞的寿命与质量的三次方成正比,假设黑洞质量为1012kg,则其寿命大约为宇宙年龄1010年,假设这黑洞是形成于宇宙初期的原生黑洞,则它应该会在近期“蒸发”(黑洞蒸发),温度大约为1011K,辐射出大量伽马射线,但是比伽马射线暴的光度低很多,虽然这类稀有事件大概只能发生在太阳系内才可被观察到,但这确实是一种可观察到的事件,尽管至今为止尚未有科学家真正观测到这类事件。这篇论文立刻震惊了整个宇宙学界。泽尔多维奇起初持保留态度,但经过严格检查后不能不承认霍金是对的。教授夏玛称赞,“这是物理学里史上最美丽的论文之一!”最令人佩服的是,霍金的计算大部分是在他的脑袋内部完成,霍金谦虚地解释,“大多数人错误地以为数学只是方程而已,实际而言,方程只是数学的乏味部分,我试图以几何来看问题。”年3月,霍金。1974年,加州理工学院聘请他为谢尔曼?费尔柴尔德杰出访问教授,除了优渥的薪资、住房、车子、孩童教育以外,他还获得了一辆电轮椅与所有医疗需要。同年,他当选为英国皇家学会院士,年龄才32岁,是最年轻的院士之一。虽然霍金发表的这篇论文极具争议性,到了70年代末期,经过更进一步研究与论述,这理论物理学的突破终于被学术界广泛接受。1975年霍金于1975年回返剑桥大学担任大学教授。在那时期,人们对于黑洞与研究黑洞的物理学者有浓厚的兴趣,时常可以在报纸杂志或电视媒体看到霍金的访谈。学术界也多次表扬他在宇宙学的成就。1975年,因为在相对论领域取得极重要研究成果,他与彭罗斯获颁爱丁顿奖章。同年,他荣获庇护十一世金牌。隔年,被授予麦克斯韦奖、海涅曼奖与休斯奖章。1977年,升任为引力物理学讲座教授。翌年,获得爱因斯坦奖与牛津大学荣誉博士学位。卢卡斯数学教授席位是剑桥大学授予物理学者的一个最高荣誉职位。1979年,霍金成为第十七位卢卡斯教授。他的就职演讲的题目为《是否即将看到理论物理的尽头?》。在演讲中,霍金坦率预测,在本世纪结束之前,量子力学与广义相对论将会被合并在一起, N=8超引力理论是万有理论的首选。超引力理论衍生自超对称理论,N=8超引力理论预测引力子有8种超对称伙伴,即8种引力微子,该理论因此而得名,它是唯一能够正确表述4维时空的理论。这是一个非常复杂的理论,除了上述引力子与引力微子以外,还有154种其它尚未发现的粒子。霍金在演讲结束前又预测,就研究理论物理的能力而言,电脑将会超越人脑,就算这不是理论物理的尽头,这也可能是理论物理学者的尽头。在那段时期,由于怀尔德患重感冒,霍金一度被送到疗养院,直到两个人都恢复健康了才回家。自此,霍金勉强地接受一些家庭医护服务。最初,他觉得这会侵犯到他的私生活,但后来,他发现这也会带来很多方便。为了更快捷地发掘宇宙的奥秘,霍金决定改变他研究物理的方法,不再坚持踏实的数学证明,他变得更为凭靠直觉,更带推测性。他告诉索恩,“在正确与严密这两种选项之间,我宁愿选择正确。”严密不一定是获得正确结果的最好方法,有时候,过度注重细节,可能会导致忽略大局。1981年今年有一场物理会议在批评思想家维尔纳·艾哈德位于旧金山的豪宅举行。霍金在会议中提出黑洞佯谬:由于黑洞发射霍金辐射的频谱如同理想热辐射,当黑洞因霍金辐射而最终消失之时,所有信息也会不可逆地遗失。在黑洞学里,信息指的是粒子的种类、性质与组态等等。霍金严重警告,信息的遗失是物理学的一大危机,因为这意味着无法按照物理学的理论来预测未来。黑洞佯谬违反了量子力学的基本原则,即“信息守恒定律”:宇宙不会遗失任何信息。黑洞佯谬引起了延续多年的激烈辩论,霍金与李奥纳特·萨斯坎德、杰拉德·特·胡夫特之间因此开启了名为“黑洞大战”的论战。霍金将理察·费曼原创的总和历史方法应用于研究宇宙的起源,这涉及到总和宇宙的每一种可能历史,也就是说,总和在时空的每一条世界线可能发生的事件。这意味着必须考虑宇宙的边界条件。1981年,在梵蒂冈教皇科学学会主办的一场会议里,霍金发表了论文《宇宙边界条件》。他提议,宇宙可能没有边界(没有起源或终结)。两年后,他与詹姆斯·哈妥共同提出宇宙无边界模型。在普朗克时期之前,由于量子力学的不确定性原理,宇宙没有时空边界;而在大爆炸之前,时间并不存在,宇宙起源的概念毫无意义。[36]经典大爆炸模型的初始奇点被改变为像北极区域一般;北极是所有朝北线相交与结束之点,没有比北极更北的地方。1985年霍金对于时间箭头做了颇多研究。他在1985年发表的一篇论文里声称,假若无边界提议是正确的,则宇宙最终会停止膨胀,开始坍缩,在这坍缩过程时,时间会朝着反方向流逝。这论点极具争议性。他曾经指导过的学生唐恩·佩吉发表论文反驳此结果。经过一番功夫,佩吉与另外一位学生雷蒙·拉弗兰姆,成功说服了霍金,促使霍金承认错误,并且撤回这概念。1981年由于先前卓越的研究成果,霍金得到更多奖章。1981年,他被授予弗兰克林奖章。隔年,又获颁英帝国司令勋章 (CBE)。奖章不能被直接用来支付日常开销,为了筹措孩子教育与家庭生活所需的费用,霍金决定撰写一本大众读者可以看得懂,解释宇宙奥秘的科普书籍。他并没有找学术出版社承担发行的工作,而是与商业出版社签约,因此得到一大笔预付款。这本书的书名为《时间简史》,首稿于1984年完成。经过多次编缀,该书于1988年出版发行。这本书快速飘升至美国与英国的畅销书排行榜第一名,并且占据那位置好多个月,很快地就卖出一百万本。至2001年为止,这本书至少被翻译成35种语言,销售超过九百万本。霍金已成为大众明星,各种媒体都争相报导有关他的消息。《新闻周刊》杂志甚至在封面刊登了他的肖像,称他为“宇宙大师”。1988年虽然霍金赚了很多钱财,但此时他已成为公众人物,必须面对很多新挑战。但他觉得乐在其中,他到处旅游,推销他的著作,常常参与派对与舞会至三更半夜。霍金似乎无法拒绝邀请,他也很少杜门谢客,因此减少了做研究的时间,甚至他的学生们都觉得他的“课外活动”太多。霍金的超高人气引起有些酸葡萄人士忌妒,他们认为这全是因为霍金的残障。尽管如此,他仍然不断获得各种荣誉,包括五个名誉学位与七个国际奖。1988年,他与彭罗斯共同获得沃尔夫奖,表彰他们“对于广义相对论的重要研究,这些研究显示了宇宙奇点的必要性和与黑洞相关物理。隔年,英国女皇伊丽莎白二世颁予名誉勋位,以肯定他对国家的重大贡献。1993年虽然需要经营很多公关活动,霍金仍旧能够腾出一些时间来做研究。1993年,霍金与盖瑞·纪邦斯合作,将关于用欧几里得方法来表述量子引力的一些课堂讲义编辑成为著作《欧几里得量子引力》。霍金还将自己的关于大爆炸与黑洞的论文编修成著作《霍金论大爆炸与黑洞》。在他发表的37篇论文里,他独自或与他人共同撰写了16篇论文。隔年,霍金与彭罗斯将在剑桥的牛顿研究院讲演的六堂课系列发行成著作《时空的性质》。在这本著作中,霍金强调,按照实证主义,物理理论只是一种数学模型,它是否对应于物理实在是一个毫无意义的问题;人们只能要求物理理论预测符合实验观察。这句话惹恼了很多批评者,在他们之中很多人主张,或许在问题的后面存在着千真万确的物理实在,只不过人们无法观察到这物理实在。霍金则坚持,研讨像虫洞是否存在这类问题是毫无意义的,因为对于描述物理实在,人们从未有独立于模型的绘景,但这不意味着没有独立于模型的物理实在,假若我不认为有,则我将会无法继续做物理研究。《时空的性质》记录了实证主义者霍金与实在主义者彭罗斯之间的一场辩论,主要论题是量子力学与广义相对论,这两种非常成功但仍旧存在严重争议的理论,怎样合并为能够解释时空性质的量子引力理论。霍金曾经与加州理工学院的教授索恩、约翰·裴斯基于1991年打赌,命题是,奇点通常应该会出现在黑洞内部,无法从事件视界之外观察到,但出现在事件视界之外的“裸奇点”是否存在?霍金支持彭罗斯提出的宇宙审查假说,他认为裸奇点并不存在,而索恩与裴斯基对此则持相反意见。1997年,普林斯顿大学教授德米特里·克理斯特德勒的理论计算与玛修·乔土奕克的电脑模拟建议,在非常特别状况下,可能会出现裸奇点。霍金只好因这技术细节认输。后来,克理斯特德勒修改了他的理论计算,他发现,霍金可能举白旗举得稍微早了一点。霍金至今仍然对此事耿耿于怀,他决定再与索恩、裴斯基打赌,命题更加详细地改为,在一般状况下,是否存在裸奇点。同年,黑洞赌王霍金又与索恩、裴斯基打赌,这次命题涉及到黑洞佯谬。霍金与索恩主张,黑洞吞入的信息永远与外界宇宙隔绝,永远不会显露出来,甚至当黑洞蒸发与完全消失之时;裴斯基持反对立场,他坚信,正确的量子引力理论必将会给出机制解释霍金辐射怎样从黑洞释出信息。霍金对于将科学介绍给更广泛大众的工作不遗余力。《时间简史》的电影版本,经过埃洛·莫里斯的导演与史蒂芬·史匹柏的制作,正式于1992年在好莱坞的美国电影艺术与科学学会首映。原本,霍金认为这部电影应该如同他的著作一般,专注于描述科学理论,而不是人物事迹,然而,他后来发现其中一大半内容是在描述人物事迹,他很随和地改变主意,觉得这是件好事,但他并未在摄影机之前公开自己的私生活。虽然这部电影得到很多好评,但并没获得广泛发行。霍金将他从1976年到1992年撰写的14篇文章收集成一本科普著作《黑洞与婴儿宇宙》,于1993年发行。在这本书里,霍金谈到他的生平,他怎样经历与奋战渐冻症,以及一些宇宙学理论,特别是黑洞怎样孕育出婴儿宇宙。1997年,英国广播公司与美国公共电视合作制成了六集电视节目《史蒂芬?霍金的宇宙》,这次,在霍金的坚决要求之下,节目内容完全聚焦于说明科学理论。2000年由于《时间简史》广受好评,霍金又于2001年撰写完成了姊妹作《胡桃里的宇宙》,概述霍金在完成《时间简史》之后的一些研究结果,历如,关于膜世界的研究结果。《胡桃里的宇宙》包括了霍金对于膜理论的一些意见,例如额外维度是否存在这问题并不具意义。人们只能检试额外维度数学模型是否恰当地描述宇宙来评价额外维度。2005年,霍金与伦纳德·姆沃迪瑙合作将《时间简史》重写与更新为更易懂易读,并且附有精美图片的著作《新时间简史》,希望更多读者能够通过这本书接触到这方面的知识。在于2006年出版的选集《上帝创造整数》里,霍金收录了数学史上最重要数学论文之中的31篇论文,并且简略描述了每篇论文作者的生平。自2006年以来,霍金、汤玛斯?赫陶格与詹姆斯·哈妥发展出的“自顶向下宇宙学”理论阐明,宇宙有很多种不同的初始态,而不是只有一种唯独的初始态,因此不该只表述从某种宇宙初始态预测出宇宙未来态的理论。实际而言,宇宙初始态是不可得知的,只有宇宙现在态是可得知、可观察的,因此只能从现在态逆着时间估算所有可能的初始态。自顶向下宇宙学假定,现在态选择所有能够导致现在态的过去历史。这样,这理论给出一条解释精细调节问题的路径。随着黑洞学研究快速进展,越来越多的学者认为霍金关于黑洞信息遗失的答案可能不正确。2004年,在爱尔兰都柏林举办的第十七届广义相对论与引力国际会议 (GR17)的一场演讲里,霍金给出他自己的相当具有争议性的解答,涉及到黑洞可能同时拥有多种拓扑(几何)。演讲完毕后,霍金邀请索恩与裴斯基一同来到台前,霍金正式认输,并且赠与裴斯基一本棒球百科全书。索恩要先研读霍金的论文,然后再决定是否认输。裴斯基很高兴得到赠礼,但是他承认并不了解霍金的演讲。翌年,他对于这论题正式发表论文,应用总和历史方法,思考宇宙的所有可能历史,拥有黑洞的历史会造成信息遗失,而不拥有黑洞的历史不会造成信息遗失,由于这两种状况会相互抵销,最终结局是信息不会遗失,因为根本就不会存在有任何俘获信息的黑洞。霍金与女儿露希、博士学生克里斯多福·盖发德于2007年共同撰写完成童书《乔治通往宇宙的秘密钥匙》,这本书讲述孩童乔治如何找到并借着一种宇宙闸门游遍整个太阳系。两年后,霍金与女儿露希撰写童书《乔治的宇宙寻宝》,这本书叙述乔治怎样迷航宇宙寻找生命的踪迹。过了两年,他们又再度合作完成童书《乔治与大爆炸》,这本书论述宇宙在大爆炸时的状况。2006年英国广播电台的“伟大英国人”节目于2002年选举霍金为最伟大的100名英国人中第25名。2006年,霍金凭借他“对于理论物理学与理论宇宙学做出杰出贡献。”荣获英国皇家学会的科普利奖章[52]两年后,霍金亲赴西班牙的圣地亚哥-德孔波斯特拉大学接受丰塞卡奖,这是为了表显他尽心竭志传播科学种子于广泛大众。隔年,美国总统巴拉克·奥巴马颁予霍金美国最高的平民荣誉总统自由勋章,表彰他克服身体残障、拓展科学疆界。又过四年,霍金获颁基础物理学特别突破奖,奖金3,000,000美元,为了奖励他“发现黑洞的霍金辐射,和他对于量子引力学与早期宇宙量子学的深度贡献。”2009年根据剑桥大学的校规,卢卡斯数学教授必须在67岁时退休,霍金因此于2009年卸任,但他仍可继续在应用数学与理论物理系作研究,他的新头衔是“剑桥理论宇宙学中心研究主任”。为了抗议基础研究与科学教育的经费被裁减,他扬言很可能搬迁至加拿大。谣传他退休后或许会到加拿大的普里美特理论物理研究所任职。目前,他在剑桥大学仍然拥有宽敞的私人办公室,有私人助理专门处理事务,还有很多博士学生实现他的奇点子。霍金的私人助理表示,霍金热爱他的工作,他非常快乐,学校非常需要他,他尚未草拟任何退休计划。霍金依然雄心勃勃地设定了超高难度研究目标:彻底了解宇宙,为什么它是如此,为什么它竟然存在?当被问到何时才可达成这目标之时,他重复先前在卢卡斯数学教授就职演讲的预测:这世纪结束之前。2015年霍金与俄国科技界亿万富翁尤里·米尔纳于2015年7月20日共同发起突破倡议,其目标是在探寻外星生命,尝试回答命题:“我们是否孤独地生存在这浩瀚宇宙之中?”在生命的最后几年,霍金一直在关注着人工智能等新科技的发展和对人类的影响。他多次提醒人类,要尽量避免人类通过AI建造更高级的武器,进而摧毁人类。他提出,未来“人工智能可能毁掉人类”,人类需要建立有效机制,用逻辑和理性去控制未来可能出现的威胁,防止其威胁进一步上升。霍金觉得,如果现在人们还不能看清未来,不能为未来的事情做好最坏打算,建立相对于人工智能更好地管理办法,人类最终都会败给人工智能,只不过是时间问题。霍金去世了,他生前的预言能否变成现实,人类是否有意识的去建立措施有效地管理AI使用?只能等未来去书写。
03-17
2018
小米融资材料曝光?预计去年营收超千亿盈利76亿
作为国内最受关注的独角兽公司之一,小米上市被公认为2018年全球最大规模上市案,尽管对于IPO,小米的态度始终淡定,但是这家公司的上市进程、营收情况和扩张计划时刻都在聚光灯下。北京商报记者3月15日获悉,小米Pre-IPO的融资推介材料首度曝光,该材料对当下小米估值680亿美元,假设小米于2018年四季度上市,市值将在854亿-1351亿美元,一个真实的小米即将被揭开。收入结构曝光根据曝光的推介材料,小米的日活跃用户达1.32亿,月活跃用户1.65亿,日均用户使用时间为312分钟(5.2小时)。在日活跃用户占月活跃用户百分比数据中,小米为80%名列第一,比排名第二的微信高出一个百分点,比第三名FaceBook(亚洲)的60%则高出20个百分点。材料同时显示,2015年小米亏损9.8亿元,2016年盈利9.13亿元,预计2017年盈利75.82亿元,利润率达到6.5%,到2019年,小米净利润将达到188.31亿元,2016-2019年,小米净利润复合平均增长率为174%。在小米2016年的收入组成中,79%来自于硬件,21%来自于互联网服务业务。硬件业务的净利润率仅为2.8%,而互联网服务业务的净利润率则超过40%。小米正在扩大互联网服务业务收入比例,2017年,预计小米收入为176亿美元,其中硬件业务的收入占比为68.3%,预计到2019年,互联网服务业务的收入占比将超过硬件收入,届时小米收入将达到382亿美元。材料还对小米进行了估值。小米如果于2018年四季度上市,市值将介于854亿-1351亿美元,但小米并未就这些资料给予回应。不过在2017年11月,小米董事长兼CEO雷军曾表示已经完成1000亿元(约合158.3亿美元)的销售目标。在融资推介材料曝光前不久,小米上市的进展再次传出新版本。有消息称小米会在2018年三季度登陆港交所,成为香港首批同股不同权的上市公司之一。3月14日,海通国际副总裁及行政总裁林涌对媒体表示,海通国际会持续与雷军等进行沟通,他也正计划近期带着管理层飞往北京,与小米的高管做进一步沟通。一位知情人士则告诉媒体,“证监会最高层曾与雷军面谈过,小米现在比较成熟,希望能回来(A股上市)”。在推进上市的同时,雷军开始逐渐放权。3月13日,猎豹移动宣布雷军已向董事会递交辞呈,不再担任董事长和董事职务,将担任公司顾问。猎豹移动CEO傅盛将接替雷军出任董事长,成为真正的掌舵人。2017年雷军还辞去了欢聚时代董事长一职,转任公司顾问,并将所持股权的投票权委托给了欢聚时代董事长李学凌。对此,有观点认为,这是雷军希望在小米上市前,尽量避免过多关联交易的质疑。业绩触底反弹“为什么大家对小米的关注度这么高,估值高当然是一方面,另一方面是它的顽强。”智察大数据分析师刘大伟向北京商报记者直言,“小米在2017年实现销量的触底反弹,这在智能手机发展过程中十分罕见,是值得学习和致敬的。”2016年,小米手机销量大幅下滑,全年出货量大跌36%,甚至一度跌出全球前五,公司发展也暴露出诸多问题。为重振小米,雷军在同年5月将原先负责研发和供应链的周光平调离,亲自负责研发和供应链,渠道方面则由小米总裁林斌大规模开展线下店,发力印度市场。一年后的2017年7月,雷军在公开信中称2017年二季度手机单季出货量为2316万台,创下历史最高纪录,2017年小米又接连发布了小米6、MIX?2等产品,经历了一年蛰伏,小米实现触底反弹。“小米的逆袭,主要归功于小米在供应链上面的提升。事实上,小米2016年销量之所以大幅下滑,并不是因为用户抛弃小米手机,不愿意购买,而是小米供应链管理上出现漏洞,包括2016年上半年长期处于缺货状态,以及一些产品频繁爆发品质问题。随着雷军2017年亲自接管小米的供应链管理工作后,可以看到,小米的销量恢复了正常的增长状态。”刘大伟这样认为。走出低谷期后,除了补充供应链外,雷军还更正了他的“铁人三项”理论,把“软件+硬件+服务”升级为“硬件+互联网+新零售”,全新的新零售版图则整合了原来的小米网电商渠道和正在发力的线下渠道小米之家。小米计划未来两年开1000家小米之家。雷军在2017年四季度表示,小米之家要到2018年才会开始放量,两年内不会对小米的业绩产生绝对帮助。对小米之家团队,雷军给出的KPI是五年内营收突破100亿美元。进军海外不易在过去的2017年,除了完成逆袭,小米还在国际化进程上一路狂奔。2017年小米的国际化甚至被认为是意外之喜。在小米2018年年会上,雷军提出,小米国际业务目前取得的成绩只是开始,全球市场版图上,还有大片空白的市场正等待开拓。因此,小米2018年不仅要在战略、资源、本地化产品开发等方面给予支持,还要派出更多的精兵强将直接去全球各地开疆拓土。根据多家调研机构数据显示,自2017年三季度起,小米手机的销量在印度市场已经连续两个季度保持第一。在印尼、缅甸市场,小米手机也已进入市场前三。对于欧美市场,小米则比较谨慎,一个月前,小米之家在巴塞罗那的首家店面正式开门营业,不过这家店并非小米直营店而是授权店。对于进军美国市场,雷军在近日透露了2018年底或2019年初这一时间点。一位不愿具名的业内人士向北京商报记者表示,“小米进军海外市场主要优势在于价格和性价比,要知道小米在竞争十分激烈的国内市场,不管是手机还是电视产品,极具性价比正是产品主要优势之一,这种优势到了海外市场更加突出”。他进一步说,“小米国际化的难度也很突出,除了不同海外国家不同的政策,需要制定相应的销售策略来适应,最大的困难在于技术专利,早期小米手机在海外市场频繁碰壁主要原因就在这里,随着小米与高通、微软等达成重要专利授权协议,才得以缓解,但核心技术专栏仍然是国内手机厂商进军外海市场的主要难点”。
02-01
2018
div css布局中CSS图片大小自动按比例等比例缩小图片不变形解决技巧
div css布局中对于图片列表或图片排版时,图片不是固定宽度高度大小,但图片占位是固定宽度高度,这个时候如果使用CSS固定死图片大小(宽度 高度),这个时候如果图片相对于这个位置不是等比例大小,那么这张图片就会变形,让图片变的不清晰,这个时候想让图片不变形又按比例缩放,如何解决?CSS图片缩小不变形,图片自动缩小,图片按比例等比例缩小不变形解决。解决方法有两种:第一种,让图片和布局宽度高度成等比例,这样CSS设置死宽度和高度,图片也是等比例缩小,图片也不会变形。比如淘宝,要求店铺主上传产品封面图片是正方形的,为什么,因为图片宝贝展示列表都是正方形的排版布局,这样要求上传合适正方形宝贝封面图片,也是让图片不变形。所以有条件的情况下,大家将首页、图片列表页的布局宽度高度保持一致,上传图片时候将图片先进行处理为布局宽度高度时等比例放大尺寸的。第二种,使用CSS max-width和max-height实现图片自动等比例缩小很简单我们要使用到max-width和max-height,这样即可设置对象图片最大宽度和最大高度,这样图片就会等比例缩放图片,然图片相对不变形清晰。以下通过实例对比方法让大家掌握CSS控制图片缩小不变形技巧。一、原始描述 这里有个div,CSS宽度和CSS高度方便为300px和100px同时设置1px黑色边框,里面放了一张图片(图片原始宽度650px为高度为406px)。并通过CSS固定死图片宽度高度。1、HTML源代码:<!DOCTYPE html>  <html>  <head>  <meta charset="utf-8" />  <title>图片缩小不变形实例 www.divcss.com</title>  <style>  .divcss{ border:1px solid #000; width:300px; height:100px}  .divcss img{width:300px; height:100px}  </style>  </head>    <body>  <div class="divcss">  <img src="img.jpg" />  </div>  </body>  </html>2、CSS固定死图片宽度高度实例截图原始图片展示:原始图片截图css固定宽度高度后变形的图片截图3、小结,通过CSS固定对象内图片高度宽度,这样图片如果不是等比例缩小,那么图片就变形了。二、CSS解决图片缩小不变形实例使用max-width:300px或max-height:100px,即可解决图片比例缩小。但这样存在一个问题,如果按照宽度缩放,但图片过高会超出溢出盒子,这个时候需要对父级使用overflow:hidden隐藏超出图片内容。但是使用max-width或max-height,IE6不支持,我们需要设置个width:expression(this.width > 300 ? "300px" : this.width);或者height:e­xpression(this.height>100?"100px":this.height);。解决IE6支持max-heightdiv css解决IE6支持max-width一般情况下只需要设置好宽度限制,比如这里只设置最大宽度为300px(max-width:300px),然后对父级使用overflow:hidden隐藏溢出图片,同时为了兼容IE6我们设置个width:expression(this.width > 300 ? "300px" : this.width);解决即可。1、具体解决DIV+CSS实例代码如下:<!DOCTYPE html>  <html>  <head>  <meta charset="utf-8" />  <title>图片缩小不变形实例 www.divcss.com</title>  <style>  .divcss{ border:1px solid #000; width:300px; height:100px;overflow:hidden}  .divcss img{max-width:300px;_width:expression(this.width > 300 ? "300px" : this.width);}  </style>  </head>    <body>  <div class="divcss">  <img src="img.jpg" />  </div>  </body>  </html>2、浏览器测试效果截图css图片缩小等比例缩小后不变形截图3、缺点介绍,如果使用此方法,兼容各大浏览器不变形,但图片不是完整显示的。
01-31
2018
盘点那些曾经让程序员目瞪口呆的Bug都有什么?
盘点那些曾经让程序员目瞪口呆的Bug都有什么?程序员一生与bug奋战,可谓是杀敌无数,见怪不怪了!在某知识社交平台中,一个“有哪些让程序员目瞪口呆的bug”的话题引来了6700多万的阅读,可见程序员们对这个话题的敏感度有多高。本文,笔者特意精选了部分优质答案供广大程序员参考!作者:佚名来源:IT168程序员一生与bug奋战,可谓是杀敌无数,见怪不怪了!在某知识社交平台中,一个“有哪些让程序员目瞪口呆的bug”的话题引来了6700多万的阅读,可见程序员们对这个话题的敏感度有多高。本文,笔者特意精选了部分优质答案供广大程序员参考!1、麻省理工“只能发500英里的邮件”该bug发生于麻省理工,当时其系统管理员接到统计系主任的求助电话,主任在电话中说:“咱们的邮件系统无法发送距离500英里以外的地方,准确地说好像是520英里。”此时的系统管理员内心是“毫无波澜”的,嗯!然后,他开始了漫长且苦逼的测试,最后发现邮件服务器操作系统(SunOS)被人更新了,因为操作系统发行版往往配备旧软件,因此邮件软件实际上是被降级了(Sendmail 8 -> Sendmail 5) ,最后的结果是:Sendmail 5试图解析Sendmail 8的配置文件。所以,为什么一定是500英里呢?且看大神讲解:2、int mian()这其实是一个书写上的错误,之所以会放在本文中,是因为很多程序员的职业生涯中都有过写!错!的经历!main和mian傻傻看不出来!3、医院急诊科的程序bug一位程序员为医院急诊科设计了一套应用程序,毕竟是为急诊病人服务,所以程序员在实验室内认真地测试无数遍,直至确定没有问题,才让医院部署使用。但是,医院方面却总是出现问题,一拿到实验室就没问题。该名程序员于是深入医院调查,最后发现是医院的X光射线导致电脑内存丢失了几个bit信息,进而让程序出现问题!4、谷歌的 Google Arts & Culture APP谷歌推出的Google Arts&Culture APP是一个可以将普通人的照片与艺术照进行对比,匹配出与用户上传的照片最相像的一张艺术画,运行效果是这样的:图片上也会给出匹配度,但偏偏有些人的照片上传后,给出来的艺术画让人哭笑不得,比如:5、硬件开光的必要性某数据中心的火灾报警器因损坏,而在没有发生火灾的情况下响起。诡异的是,数据中心内确实出现了大面积的磁盘损坏和读写性能下降!经排查,因为报警器声音太大影响了磁头的运动!网友吐槽:看来给硬盘开光很有必要啊!6、某外资通信设备商的逆天bug(实在太长,给各位上图)7、足以让数据库瞬间崩溃的bug愿望:在百万量级的数据库里实现快速自我交叉匹配查询。手段:建立临时表提速。Bug:条件里忘记添加”a.id=b.prio”结果:临时表从预计的几千条达到了上亿条,数据库崩溃!!!!8、足以让系统瘫痪的bug9、程序员都能看懂的bug(反正笔者没看懂,看懂的麻烦解释一下)if (object == null) {object.doSomething();} else {object.doSomethingElse();}10、据传,iPhone手机日历上的bug11、购买微软Office套件visio不可使用outlook邮箱注册网友爆料,自己在购买正版Office套件visio时,当他在注册页面输入微软的outlook邮箱,系统居然提示系统中没有outlook.com!12、集群宿主机已售内存为负值?13、比较弱智的bug某网友:让我目瞪口呆的BUG是update不加where...14、人类历史上第一个程序BUG
01-31
2018
成为Java顶尖程序员 ,看这11本书就够了
以下是我推荐给Java开发者们的一些值得一看的好书。但是这些书里面并没有Java基础、Java教程之类的书,不是我不推荐,而是离我自己学习 Java基础技术也过去好几年了,我学习的时候看的什么也忘了,所以我不能不负责任地推荐一些我自己都没有看过的书给大家。“学习的最好途径就是看书“,这是我自己学习并且小有了一定的积累之后的第一体会。个人认为看书有两点好处:1.能出版出来的书一定是经过反复的思考、雕琢和审核的,因此从专业性的角度来说,一本好书的价值远超其他资料2.对着书上的代码自己敲的时候方便“看完书之后再次提升自我的最好途径是看一些相关的好博文“,我个人认为这是学习的第二步,因为一本书往往有好几百页,好的博文是自己看书学习之后的一些总结和提炼,对于梳理学习的内容很有好处,当然这里不是说自己的学习方法,就不再扯下去了。很多程序员们往往有看书的冲动,但不知道看哪些书,下面我就给各位Java程序猿们推荐一些好书(每本书的作者会加粗标红),其中绝大多数都是我自己平时在看的书,也算是我对于平时读的书做一个小总结和读后感吧。首先推荐的不是一本书,而是一个博客,也是我们博客园另外一位博友java_my_life。目前市面上讲解设计模式的书很多,虽然我前面讲了看书是最好的,但是对设计模式感兴趣的朋友们,我推荐的是这个博客。这位博友的设计模式讲得非常非常好,我认为90%的内容都是没有问题且很值得学习的,其讲解设计模式的大体路线是:1、随便开篇点明该设计模式的定义2、图文并茂讲解该设计模式中的结构3、以详细的代码形式写一下该种设计模式的实现4、补充内容5、讲解该设计模式的优缺点对于一个设计模式我们关注、学习的知识点,不就是上面这些吗?不 过我要重点提醒一下网友们,同一种设计模式的写法有多种,并不是说只有按某种写法来写才是这种设计模式。比方说适配器模式,我们关注适配器模式一定要关注 的是什么是适配器模式不是怎么写适配器模式,不要认为某段代码不是按照适配器模式的写法写下来的它就不是适配器模式了,记住这一点,你在学习设计模式的时 候一定会对代码中用到的设计模式有更深入的理解。《深入理解Java虚拟机:JVM高级特性与最佳实践》如果你不满足于做一个只会写if…else…的Java程序员,而是希望更进一步,我随便举几个例子吧:1、了解Java代码的底层运行机制2、定位性能问题3、对整个系统进行性能调优4、解决各种奇奇怪怪的线上线下问题5、更加高级别的,为自己的项目量身定做一款适合自己项目的虚拟机那 么Java虚拟机是你必学的一门技术。《深入理解Java虚拟机:JVM高级特性与最佳实践》作者是周志明,这本书可以说是国内写得最好的有关Java虚 拟机的书籍,近半年,前前后后这本书我起码看了有5遍。国内写虚拟机的书除了这本,其实还有一些其他的,我也买过,不过粗略看下来,很多内容也是《深入理 解Java虚拟机:JVM高级特性与最佳实践》此书里面的。另外值得一提的是,《深入理解Java虚拟机:JVM高级特性与最佳实践》这本 书,有电子版的,网上搜一下就能下载到了。不过建议有兴趣的朋友还是去买书看,电子版本下载到的一般是比较老的版本,相比最新修订版的《深入理解Java 虚拟机:JVM高级特性与最佳实践》,有很多作者新补充的知识点是没有的。《HotSpot实战》所有的Java虚拟机都是遵循着Java虚拟机规范来的,市面上的Java虚拟机几十款,《深入理解Java虚拟机:JVM高级特性与最佳实践》一书里面讲的虚拟机并不针对某种特定的虚拟机,而是从Java虚拟机规范的角度来讲解Java虚拟机。我们平时使用的乃至商用的大多数Java虚拟机都是Sun公司的HotSpot,大家cmd进入命令行,使用”java -version”命令就可以看到了。如果希望在Java虚拟机规范的基础上更加深入地去理解虚拟机的一些细节是怎么实现的,就可以看一下《HotSpot实战》一书,作者是陈涛。不过由于HotSpot的源码都是C/C++写的,所以要求读者有非常好的C/C++基础,如果对这两门语言不是很熟悉的朋友,看这本书可能对你帮助不是很大。最后提一句,如果有兴趣的朋友,不妨先去网上下载一个openJDK,HotSpot的源码就在里面。《Java并发编程实战》这本书常常被列入Java程序员必读十大书籍排行榜前几位,不过个人不是很推荐这本书。《Java并发编程实战》作者是Brian Goetz,怎么说呢,这本书前前后后我也看了两遍左右,个人感受是:1、文字多代码少2、讲解多实践少我 觉得这可能就是老外写书的特点吧,因为Java是北美国家(加拿大、美国)开发和维护的,所以老外对Java方方面面的理论知识体系都掌握得是非常清楚和 透彻的。翻开这本书看,多线程什么用、什么是死锁、什么是竞争、什么是线程安全等等,方方面面的知识点都用大量的文字篇幅讲解,不免让人感觉十分枯燥,也 难让读者有实质性的进步。我这本书看了两遍也属于一目十行意思,有兴趣的地方就重点看一下。无论如何,作为一本常常位于Jva程序员必读十大书籍排行榜前几名的书,还是一定要推荐给大家的。《java多线程编程核心技术》《Java多线程编程核心技术》作者高洪岩。想要学习多线程的朋友,这本书是我大力推荐的,我的个人博客里面二十多篇的多线程博文都是基于此书,并且在这本书的基础上进行提炼和总结而写出来的。此书和《Java并发编程实战》 相反,这本书的特点是大篇幅的代码+小篇幅的精讲解,可能这和中国人写的书比较偏向实用主义的风格有关。本书关于线程安全、synchronized、 Reentrant、Timer等等都用详细的代码进行了讲解,而且每个大知识点下的多个小知识点都会详细讲解到,非常有实践价值。有兴趣的朋友们,我相信只要你们跟着这本书里面的代码敲、运行、思考,三步走,对于多线程的使用与理解一定会进几大步。不 过这本书的缺点就是对于Java并发包下的一些类像CountDownLatch、Semphore、CyclicBarrier、Future、 Callable等都没有讲到,重点的CAS和AQS也没有触及,重点类的实现原理也没有提。当然,这很深入了,在学习了这本书之后如果能再去对这些知识 进行一些学习、研究的话,你一定会慢慢成长为一个很厉害的多线程高手。《Effective Java中文版》这是唯一一本我没有买的书。初识这本书,是在我的博文Java代码优化(长期更新)里面,底下评论的时候有朋友提到了这本书,当时我说要去买,不过这两个月一直都没时间去逛书店,甚是遗憾,之后肯定会找时间去买这本书的。《Effective  Java中文版》的作者是Joshua   Bloch,这个人就很厉害了,他是谷歌的首席架构师,属于超级技术大牛级别了吧,呵呵。由于没有看过这本书,所以我不好发表评论,但是从这本书的知名度 以及其作者的来头来看(多提一句,这本书也是Java之父James Gosling博士推崇的一本书),我相信这一定是一本值得一看的好书。好 的代码是每个Java程序员都应该去追求的,不是说我今天写一段好代码相比写一段烂代码对性能会有多大的提升,更多的应该是提升了代码的可读性以及可以规 避许多潜在的、未知的问题,避免代码上线之后出问题而花时间去维护—-无论从时间成本、人力成本还是风险成本来说,这都是非常高的。《深入分析Java Web技术内幕》《深入分析Java Web技术内幕》,作者许令波,淘宝工程师。这本书我用一个字概括就是:全。真的非常全,HTTP、DNS、CDN、静态化、Jetty、Tomcat、Servlet、Spring、MyBatis等等,什么都有,涉及知识面非常广,但又不像专门精讲某个知识点的书籍一样讲得非常深入,感觉这本书就是尽量去用短的篇幅讲清楚一些Java Web使用到的技术的内幕,让读者对这些知识点的技术内幕有一个理性的认识。不过,尽管每个知识点的篇幅都不多,但是重点都基本讲到了,是一本让人真正有收获的书。如果想进一步了解这些技术的技术内幕,就要自己去买相关书籍或者自己上网查资料了,有种抛砖引玉,或者说师傅领进门、修行在个人的感觉。《大型网站技术架构 核心原理与案例分析》一个字评价这本书,屌;两个字评价这本书,很屌;三个字评价这本书,非常屌。呵呵,好了,再说下去可能别人以为我是水军了。《大型网站技术架构 核心原理与案例分析》的作者是李智慧,原阿里巴巴技术专家。Java 的大多数应用都是用在Web上的,现在只要稍微大型一点的Web应用,都一定是一个分布式系统,那么一个分布式系统用到了哪些技术?一个大型网站是如何从 一个小型网站成长起来的?如何保证你的网站安全?分布式系统使用到了缓存,有哪些缓存?缓存的使用有哪些值得注意的事项?关 于分布式的知识点,都在这本书里面有体现,只有你想不到,没有他写不到,而且写得非常易懂,基本属于看一两遍,再记一些笔记就知道是怎么一回事儿了。多看 几遍,对分布式的理解一定会加深不少。而且里面不仅仅是分布式的知识,还非常接地气地写了如何做一个好的架构师,其实我认为这不仅仅是写给想做架构师的读 者看的,就是给读者一些建议,如何更好地提出意见、如何更让别人关注你的声音、如何看到他人的优点,入木三分,让人获益匪浅。《大型网站系统与Java中间件实践》《大型网站系统与Java中间件实践》作者曾宪杰,是淘宝的技术总监,算起来应该在阿里有至少P8的级别了吧。这本书的部分内容和上面一本李智慧的《大型网站技术架构 核心原理与案例分析》有所重合,像分布式系统的演化、CDN、CAP理论和BASE理论等等,这也更说明这些都是分布式系统或者说是一个大型网站重点关注的内容,当作一次再学习也不错。本书要突出的重点是中间件三个字,中间件是分布式系统中一个非常重要的东西,其最重要的作用应该就是解耦,降低模块与模块之间的强依赖,不同的模块之间的依赖度降低,便可以各自独立地开发自己的功能,这也可以说是软件工程发展的目标和驱动力。因此,本书有一部分的内容就是基于中间件,详细讲解了中间件与JMS的各种知识,适合对分布式系统比较熟悉并且想要往中间件方面有一定研究的读者。《从Paxos到ZooKeeper 分布式一致性原理与实践》《从Paxos到ZooKeeper 分布式一致性原理与实践》,作者倪超,阿里巴巴工程师。这本书是我最近在研读的一本书,和上面的《大型网站系统与Java中间件实践》一样,属于分布式组件的范畴,属于有些深入的内容,当然也是我自己的个人兴趣。当然,如果有志向做一个出色的大型网站架构师、公司的技术总监之类,这些知识当然是必须掌握的。本书从分布式系统基本理论开始讲起,讲到Paxos算法,最后慢慢引入到Zookeeper,循序渐进。当然,更多的我目前还不方便发表什么看法,因为这本书的第二张Paxos算法我都还没有弄懂(Paxos算法确实有些难以理解和不太易懂),接下来的章节还没有看下去。如果网友们所在的公司在使用Zookeeper,并且你又对Zookeeper感兴趣想要研究一下它的原理的,这本书将是不二之选。《MySQL5.6从零开始学》《MySQL5.6从零开始学》,作者刘增杰和李坤。作为一名Java程序员,我认为我们千万不要觉得数据库是DBA的事情,数据库对一个Java程序员来说也是必须掌握的一门知识,丰富的数据库性能优化经验是一个顶尖程序员必备技能。目前主流的数据库有Oracle和MySQL,当然推荐大家的是MySQL,主要原因我认为有两点:1、MySQL相比Oracle更轻量级、更小、安装和卸载更方便,SQL其实都是差不多的,如果想学数据库,学MySQL就可以了,在家里面可以自己方便地研究,如果你的公司使用Oracle,只要再用对比学习法,关注一下Oracle和MySQL的差别即可2、随着2009年阿里巴巴去IOE的运动的进行,目前国内的很多互联网公司都会选择MySQL作为它们使用的数据库,因为MySQL免费,所以既省钱又不需要出了问题就依赖甲骨文公司MySQL学习我推荐的是这本我自己学习看的《MySQL5.6从零开始学》,我是觉得挺好的这本书,书里面的知识点很细致、很全面,读者选择书籍的标准大多不就是这两点吗?《Spring源码深度解析》《Spring源码深度解析》,作者郝佳。Spring 这个框架做得太好了,功能太强大了,以至于很多开发者都只知Spring,不知什么是工厂、什么是单例、什么是代理(我面试别人的真实体会)。这种功能强 大的框架内部一定是很复杂的实现,这就导致一旦你的程序使用Spring,出了问题,可能是Error、可能是Exception、可能是程序运行结果不 是你的预期的,出现诸如此类问题的时候,将会让你感到困惑,除了上网查资料或者问别人似乎没有更好的解决办法。研读Spring的源代码不失为一种很好的学习方法,我个人认为这有很多好处:1、理解框架内部的实现之后,可以主动去解决问题,而不需要依赖别人2、Spring框架内部实现用到了很多设计模式,很好的代码设计思路,这将会对你写代码、对你理解设计模式有很大的提高3、研究Spring框架将会大大增强你读代码的能力,我相信只要你能研究清楚Spring内部是如何实现的,其他任何一个框架的源代码都难不倒你总而言之,我认为读代码的能力是一个普通的程序员和一个好的程序员之间最大的差别之一,前者只会把别人写好的东西拿来用,后者不仅能用好,还清楚知道别人写好的东西底层是如何实现的,在出现问题的时候可以轻松解决。Spring源代码,个人推荐《Spring源码深度解析》一书,真要研究透并且写清楚Spring源代码,恐怕三四本书都不够,作者在近400页的篇幅中尽量去讲解Spring源代码是如何实现的,殊为不易,尽管无法讲得完全,但是相信作者的讲解配合上读者自己的研究,一定可以对Spring的实现有更深度的理解。后记以 上就是我推荐给Java开发者们的一些值得一看的好书。但是这些书里面并没有Java基础、Java教程之类的书,不是我不推荐,而是离我自己学习 Java基础技术也过去好几年了,我学习的时候看的什么也忘了,所以我不能不负责任地推荐一些我自己都没有看过的书给大家。对于Java基础知识的学习, 我提两点建议吧:1、多写多敲代码,好的代码与扎实的基础知识一定是实践出来的2、可以去尚学堂下载一下马士兵的视频来学习一下Java基础,还挺不错的,如果尚学堂官网上下载不了可以底下回复,我的电脑里有最后,每一位读到这里的网友,感谢你们能耐心地看完。希望在成为一名更优秀的Java程序员的道路上,我们可以一起学习、一起进步。
01-29
2018
爬虫需谨慎,你不知道的爬虫与反爬虫套路!
面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。爬虫与反爬虫,是一个很不阳光的行业。这里说的不阳光,有两个含义。第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。第二是,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历。面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。然而这就是程序员的宿命。不管这个行业有多么的不阳光,依然无法阻挡大量的人进入这个行业,因为有公司的需求。那么,公司到底有什么样的需求,导致了我们真的需要爬虫/反爬虫呢?反爬虫很好理解,有了爬虫我们自然要反爬虫。对于程序员来说,哪怕仅仅是出于“我就是要证明我技术比你好”的目的,也会去做。对于公司来说,意义更加重大,最少,也能降低服务器负载,光凭这一点,反爬虫就有充足的生存价值。那么爬虫呢?最早的爬虫起源于搜索引擎。搜索引擎是善意的爬虫,可以检索你的一切信息,并提供给其他用户访问。为此他们还专门定义了 robots.txt 文件,作为君子协定,这是一个双赢的局面。然而事情很快被一些人破坏了,爬虫很快就变的不再“君子”了。后来有了“大数据”,无数的媒体鼓吹大数据是未来的趋势,吸引了一批又一批的炮灰去创办大数据公司。这些人手头根本没有大数据,他们的数据只要用一个 U 盘就可以装的下,怎么好意思叫大数据呢?这么点数据根本忽悠不了投资者,于是他们开始写爬虫,拼命地爬取各个公司的数据。很快他们的数据,就无法用一个 U 盘装下了。这个时候终于可以休息休息,然后出去吹嘘融资啦。然而可悲的是,大容量 U 盘不断地在发布,他们总是在拼命地追赶存储增加的速度。以上是爬虫与反爬虫的历史,下面通过四个方面深入谈下爬虫与反爬虫:爬虫反爬虫运行现状爬虫反爬虫技术现状爬虫反爬虫套路现状爬虫反爬虫的未来爬虫反爬虫运行现状电子商务行业的爬虫与反爬虫更有趣一些,最初的爬虫需求来源于比价。这是某些电商网站的核心业务,大家买商品的时候,是一个价格敏感型用户的话,很可能用过网上的比价功能(真心很好用啊)。毫无悬念,他们会使用爬虫技术来爬取所有相关电商的价格。他们的爬虫还是比较温柔的,对大家的服务器不会造成太大的压力。然而,这并不意味着大家喜欢被他爬取,毕竟这对其他电商是不利的,于是需要通过技术手段来做反爬虫。按照技术人员的想法,对方用技术怼过来,我们就要用技术怼回去,不能怂啊。这个想法是很好的,但是实际应用起来根本不是这么回事。诚然,技术是很重要的,但是实际操作上,更重要的是套路。谁的套路更深,谁就能玩弄对方于鼓掌之中。谁的套路不行,有再好的技术,也只能被耍的团团转。这个虽然有点伤技术人员的自尊,然而,我们也不是第一天被伤自尊了。大家应该早就习惯了吧。真实世界的爬虫比例大家应该听过一句话吧,大概意思是说,整个互联网上大概有 50% 以上的流量其实是爬虫。第一次听这句话的时候,我还不是很相信,我觉得这个说法实在是太夸张了。怎么可能爬虫比人还多呢? 爬虫毕竟只是个辅助而已。现在做了这么久的反爬虫,我依然觉得这句话太夸张了。50%?你在逗我?就这么少的量?举个例子,某公司,某个页面的接口,每分钟访问量是 1.2 万左右,这里面有多少是正常用户呢?50%?60%?还是?正确答案是:500 以下。也就是说,一个单独的页面,12000 的访问量里,有 500 是正常用户,其余是爬虫。注意,统计爬虫的时候,考虑到你不可能识别出所有的爬虫,因此,这 500 个用户里面,其实还隐藏着一些爬虫。那么爬虫率大概是:(12000-500)/12000=95.8%。这个数字你猜到了吗?这么大的爬虫量,这么少的用户量,大家到底是在干什么?是什么原因导致了明明是百人级别的生意,却需要万级别的爬虫来做辅助? 95% 以上,19 保 1?答案可能会相当令人喷饭,这些爬虫大部分是由于决策失误导致的。哭笑不得的决策思路举个例子,这个世界存在 3 家公司,售卖相同的电商产品,三家公司的名字分别是 A,B,C。这个时候,客户去 A 公司查询了下某商品的价格,看了下发现价格不好,于是他不打算买了,他对整个行业的订单贡献为 0。然而 A 公司的后台会检测到,我们有个客户流失了,原因是他来查询了一个商品,这个商品我们的价格不好,没关系,我去爬爬别人试试。于是他分别爬取了 B 公司和 C 公司,B 公司的后台检测到有人来查询价格,但是呢,最终没有下单。他会认为,嗯,我们流失了一个客户。怎么办呢?我可以爬爬看,别人什么价格。于是他爬取了 A 和 C,C 公司的后台检测到有人来查询价格。。。。。过了一段时间,三家公司的服务器分别报警,访问量过高。三家公司的 CTO 也很纳闷,没有生成任何订单啊,怎么访问量这么高?一定是其他两家禽兽写的爬虫没有限制好频率。妈的,老子要报仇!于是分别做反爬虫,不让对方抓自己的数据。然后进一步强化自己的爬虫团队抓别人的数据。一定要做到:宁叫我抓天下人,休叫天下人抓我。然后,做反爬虫的就要加班天天研究如何拦截爬虫,做爬虫的被拦截了,就要天天研究如何破解反爬虫策略。大家就这么把资源全都浪费在没用的地方了,直到大家合并了,才会心平气和的坐下来谈谈,都少抓点。最近国内的公司有大量的合并,我猜这种“心平气和”应该不少吧?爬虫反爬虫技术现状下面我们谈谈,爬虫和反爬虫分别都是怎么做的。为 Python 平反首先是爬虫,爬虫教程你到处都可以搜的到,大部分是 Python 写的。我曾经在一篇文章提到过:用 Python 写的爬虫是最薄弱的,因为天生并不适合破解反爬虫逻辑,因为反爬虫都是用 JavaScript 来处理。然而慢慢的,我发现这个理解有点问题(当然我如果说我当时是出于工作需要而有意黑 Python,你们信吗。。。)。Python 的确不适合写反爬虫逻辑,但是 Python 是一门胶水语言,他适合捆绑任何一种框架。而反爬虫策略经常会变化的翻天覆地,需要对代码进行大刀阔斧的重构,甚至重写。这种情况下,Python 不失为一种合适的解决方案。 举个例子,你之前是用 selenium 爬取对方的站点,后来你发现自己被封了,而且封锁方式十分隐蔽,完全搞不清到底是如何封的,你会怎么办?你会跟踪 selenium 的源码来找到出错的地方吗?你不会,你只会换个框架,用另一种方式来爬取,然后你就把两个框架都浅尝辄止地用了下,一个都没有深入研究过。因为没等你研究好,也许人家又换方式了,你不得不再找个框架来爬取。毕竟,老板等着明天早上开会要数据呢。老板一般都是早上八九点开会,所以你七点之前必须搞定。等你厌倦了,打算换个工作的时候,简历上又只能写“了解 n 个框架的使用”,仅此而已。 这就是爬虫工程师的宿命,爬虫工程师比外包还可怜。外包虽然不容易积累技术,但是好歹有正常上下班时间,爬虫工程师连这个权利都没有。 然而反爬虫工程师就不可怜了吗?也不是的,反爬虫有个天生的死穴,就是:误伤率。 无法绕开的误伤率我们首先谈谈,面对对方的爬虫,你的第一反应是什么?如果限定时间的话,大部分人给我的答案都是:封杀对方的 IP。然而,问题就出在,IP 不是每人一个的,大的公司有出口 IP,ISP 有的时候会劫持流量让你们走代理,有的人天生喜欢挂代理,有的人为了翻墙 24 小时挂 VPN。最坑的是,现在是移动互联网时代,你如果封了一个 IP?不好意思,这是中国联通的 4G 网络,5 分钟之前还是别人,5 分钟之后就换人了哦!因此,封 IP 的误伤指数最高,并且,效果又是最差的,因为现在即使是最菜的新手,也知道用代理池了。你们可以去淘宝看下,几十万的代理价值多少钱?我们就不谈到处都有的免费代理了。也有人说:我可以扫描对方端口,如果开放了代理端口,那就意味着是个代理,我就可以封杀了呀。 事实是残酷的,我曾经封杀过一个 IP,因为他开放了一个代理端口,而且是个很小众的代理端口。不出一天就有人来报事件,说我们一个分公司被拦截了,我一查 IP,还真是我封的 IP。我就很郁闷地问他们 IT,开这个端口干什么?他说做邮件服务器啊。我说为啥要用这么奇怪的端口?他说,这不是怕别人猜出来么?我就随便取了个。扫描端口的进阶版,还有一种方式,就是去订单库查找这个 IP 是否下过订单,如果没有,那么就是安全的;如果有,那就不安全,有很多网站会使用这个方法。然而这只是一种自欺欺人的办法而已,只需要下一单,就可以永久洗白自己的 IP,天下还有比这更便宜的生意吗?因此,封 IP,以及封 IP 的进阶版:扫描端口再封 IP,都是没用的。根本不要考虑从 IP 下手,因为对手会用大量的时间考虑如何躲避 IP 封锁,你干嘛和人家硬碰呢?这没有任何意义。那么,下一步你会考虑到什么?很多站点的工程师会考虑:既然没办法阻止对方,那我就让它变的不可读吧。我会用图片来渲染关键信息,比如价格。这样,人眼可见,机器识别不出来。 这个想法曾经是正确的,然而,坑爹的技术发展,带给我们一个坑爹的技术,叫机器学习。顺便带动了一个行业的迅猛发展,叫 OCR。很快,识别图像就不再是任何难题了,甚至连人眼都很难识别的验证码,有的 OCR 都能搞定,比我肉眼识别率都高。更何况,现在有了打码平台,用资本都可以搞定,都不需要技术。那么,下一步你会考虑什么?这个时候,后端工程师已经没有太多的办法可以搞了。 不过后端搞不定的事情,一般都推给前端啊,前端从来都是后端搞不定问题时的背锅侠。多少年来我们都是这么过来的,前端工程师这个时候就要勇敢地站出来了:“都不要得瑟了,来比比谁的前端知识牛逼,你牛逼我就让你爬。”我不知道这篇文章的读者里有多少前端工程师,我只是想顺便提一下:你们以后将会是更加抢手的人才。前端工程师的逆袭我们知道,一个数据要显示到前端,不仅仅是后端输出就完事了,前端要做大量的事情,比如取到 json 之后,至少要用 template 转成 html 吧?这已经是步骤最少最简单的了,然后你总要用 css 渲染下吧? 这也不是什么难事。等等,你还记得自己第一次做这个事情的时候的经历吗?真的,不是什么难事吗?有没有经历过,一个 html 标签拼错,或者没有闭合,导致页面错乱?一个 css 没弄好,导致整个页面都不知道飘到哪去了?这些事情,你是不是很想让别人再经历一次?这件事情充分说明了:让一个资深的前端工程师来把事情搞复杂一点,对方如果配备了资深前端工程师来破解,也需要耗费 3 倍以上的时间。毕竟是读别人的代码,别人写代码用了一分钟,你总是要读两分钟,然后骂一分钟吧?这已经算很少的了。如果对方没有配备前端工程师。。。那么经过一段时间,他们会成长为前端工程师。之后,由于前端工程师的待遇比爬虫工程师稍好一些,他们很快会离职做前端,既缓解了前端人才缺口,又可以让对方缺人,重招。而他们一般是招后端做爬虫,这些人需要再接受一次折磨,再次成长为前端工程师,这不是很好的事情吗?所以,如果你手下的爬虫工程师离职率很高,请仔细思考下,是不是自己的招聘方向有问题。那么前端最坑爹的技术是什么呢?前端最坑爹的,也是最强大的,就是我们的:JavaScript。JavaScript 有大量的花样可以玩,毫不夸张的说,一周换一个 feature(Bug)给对方学习,一年不带重样的。这个时候你就相当于一个面试官,对方要通过你的面试才行。举个例子,在 Array.prototyp e里,有没有 map 啊?什么时候有啊?你说你是 xx 浏览器,那你这个应该是有还是应该没有啊?你说这个可以有啊?可是这个真没有啊。那[]能不能在 string 里面获取字符啊?哪个浏览器可以哪个不行啊?咦!你为什么支持 WebKit 前缀啊?等等,刚刚你还支持怎么现在不支持了啊?你声明的不对啊。这些对于前端都是简单的知识,已经习以为常了,但是对于后端来说简直就是噩梦。然而,前端人员自己作死,研究出了一个东西,叫:Nodejs。基于 V8,秒杀所有的 js 运行。不过 Nodejs 实现了大量的 feature,都是浏览器不存在的,你随随便便访问一些东西(比如你为什么会支持 process.exit),都会把 node 坑的好惨好惨。而且浏览器里的 js,你拉到后台用 Nodejs 跑,你是不是想到了什么安全漏洞?这个是不是叫,代码与数据混合?如果他在 js 里跑点恶心的代码,浏览器不支持但是 node 支持怎么办?还好,爬虫工程师还有 phantomjs。但是,你怎么没有定位啊? 哈哈,你终于模拟出了定位。但是不对啊,根据我当前设置的安全策略你现在不应该能定位啊?你是怎么定出来的?连 phantomjs 的作者自己都维护不下去了,你真的愿意继续用吗?当然了,最终,所有的反爬虫策略都逃不脱被破解的命运。但是这需要时间,反爬虫需要做的就是频繁发布,拖垮对方。如果对方两天可以破解你的系统,你就一天一发布,那么你就是安全的。这个系统甚至可以改名叫做“每天一道反爬题,轻轻松松学前端”。误伤,还是误伤这又回到了我们开始提到的“误伤率”的问题了。我们知道,发布越频繁,出问题的概率越高。那么,如何在频繁发布的情况下,还能做到少出问题呢?此外还有一个问题,我们写了大量的“不可读代码”给对方,的确能给对方造成大量的压力,但是,这些代码我们自己也要维护啊。如果有一天忽然说,没人爬我们了,你们把代码下线掉吧。这个时候写代码的人已经不在了,你们怎么知道如何下线这些代码呢?这两个问题我暂时不能公布我们的做法,但是大家都是聪明人,应该都是有自己的方案的,软件行业之所以忙的不得了,无非就是在折腾两件事,一个是如何将代码拆分开,一个是如何将代码合并起来。关于误伤率,我只提一个小的 tip:你可以只开启反爬虫,但是不拦截,先放着,发统计信息给自己,相当于模拟演练。等统计的差不多了,发现真的开启了也不会有什么问题,那就开启拦截或者开启造假。这里就引发了一个问题,往往一个公司的各个频道,爬取难度是不一样的。原因就是,误伤检测这种东西与业务相关,公司的基础部门很难做出通用的,只能各个部门自己做,甚至有的部门做了有的没做。因此引发了爬虫界一个奇葩的通用做法:如果 PC 页面爬不到,就去 H5 试试,如果 H5 很麻烦,就去 PC 碰碰运气。爬虫反爬虫套路现状那么一旦有发现对方数据造假怎么办?早期的时候,大家都是要抽查数据,通过数据来检测对方是否有造假,这个需要人工核对,成本非常高。可是那已经是洪荒时代的事情了。如果你们公司还在通过这种方式来检测,说明你们的技术还比较落伍。之前我们的竞争对手是这么干的:他们会抓取我们两次,一次是他们解密出来 key 之后,用正经方式来抓取,这次的结果定为 A。一次是不带 key,直接来抓,这次的结果定为 B。根据前文描述,我们可以知道,B 一定是错误的。那么如果 A 与 B 相等,说明自己中招了,这个时候会停掉爬虫,重新破解。不要回应所以之前有一篇关于爬虫的文章,说如何破解我们的。一直有人要我回复下,我一直觉得没什么可以回复的。第一,反爬虫被破解了是正常的。这个世界上有个万能的爬虫手段,叫“人肉爬虫”。假设我们就是有钱,在印度开个分公司,每天雇便宜的劳动力用鼠标直接来点,你能拿我怎么办?第二,我们真正关心的是后续的这些套路。而我读了那篇文章,发现只是调用了selenium并且拿到了结果,就认为自己成功了。我相信你读到这里,应该已经明白为什么我不愿意回复了。我们最重要的是工作,而不是谁打谁的脸。大家如果经常混技术社区就会发现,每天热衷于打别人脸的,一般技术都不是很好。当然这并不代表我们技术天下第一什么的,我们每天面对大量的爬虫,还是遇到过很多高手的。就如同武侠小说里一样,高手一般都比较低调,他们默默地拿走数据,很难被发现,而且频率极低,不会影响我们的考评。你们应该明白,这是智商与情商兼具的高手了。我们还碰到拉走我们 js,砍掉无用的部分直接解出 key,相当高效不拖泥带水的爬虫,一点废请求都没有(相比某些爬虫教程,总是教你多访问,写没用的 url 免得被发现,真的不知道高到哪里去了。这样做除了会导致机器报警,导致对方加班封锁以外,对你自己没有任何好处)。而我们能发现这一点仅仅是是因为他低调地写了一篇博客,通篇只介绍技术,没有提任何没用的东西。这里我只是顺便发了点小牢骚,就是希望后续不要总是有人让我回应一些关于爬虫的文章。线下我认识很多爬虫工程师,水平真的很好,也真的很低调(不然你以为我是怎么知道如何对付爬虫的。。。),大家都是一起混的,不会产生“一定要互相打脸”的情绪。进化早期我们和竞争对手打的时候,双方的技术都比较初级。后来慢慢的,爬虫在升级,反爬虫也在升级,这个我们称为“进化”。我们曾经给对方放过水,来试图拖慢他们的进化速度,然而,效果不是特别理想。爬虫是否进化,取决于爬虫工程师自己的 KPI,而不是反爬虫的进化速度。后期打到白热化的时候,用的技术越来越匪夷所思。举个例子,很多人会提,做反爬虫会用到 canvas 指纹,并认为是最高境界。其实这个对于反爬虫来说也只是个辅助,canvas 指纹的含义是,因为不同硬件对 canvas 支持不同,因此你只要画一个很复杂的 canvas,那么得出的 image,总是存在像素级别的误差。考虑到爬虫代码都是统一的,就算起 selenium,也是 Ghost 的,因此指纹一般都是一致的,因此绕过几率非常低。但是!这个东西天生有两个缺陷。第一是,无法验证合法性。当然了,你可以用非对称加密来保证合法,但是这个并不靠谱。其次,canvas 的冲突概率非常高,远远不是作者宣称的那样,冲突率极低。也许在国外冲突是比较低,因为国外的语言比较多。但是国内公司通常是 IT 统一装机,无论是软件还是硬件都惊人的一致。我们测试 canvas 指纹的时候,在携程内部随便找了 20 多台机器,得出的指纹都完全一样,一丁点差别都没有。因此,有些“高级技巧”一点都不实用。法律途径此外就是大家可能都考虑过的:爬虫违法吗?能起诉对方让对方不爬吗?法务给的答案到是很干脆,可以,前提是证据。遗憾的是,这个世界上大部分的爬虫爬取数据是不会公布到自己网站的,只是用于自己的数据分析。因此,即使有一些关于爬虫的官司做为先例,并且已经打完了,依然对我们没有任何帮助。反爬虫,在对方足够低调的情况下,注定还是个技术活。搞事情,立 Flag到了后来,我们已经不再局限于打打技术了,反爬虫的代码里我们经常埋点小彩蛋给对方,比如写点注释给对方。双方通过互相交战,频繁发布,居然聊的挺 high 的。比如问问对方,北京房价是不是很高啊?对方回应,欧巴,我可是凭本事吃饭哦。继续问,摇到号了吗?诸如此类等等。这样的事情你来我往的,很容易动摇对方的军心,还是很有作用的。试想一下,如果你的爬虫工程师在大年三十还苦逼加班的时候,看到对方留言说自己拿到了 n 个月的年终奖,你觉得你的工程师,离辞职还远吗?最后,我们终于搞出了大动作,觉得一定可以坑对方很久了。我们还特意去一家小火锅店吃了一顿,庆祝一下,准备明天上线。大家都知道,一般立 Flag 的下场都比较惨的,两个小时的自助火锅,我们刚吃五分钟,就得到了我们投资竞争对手的消息。后面的一个多小时,团队气氛都很尴尬,谁也说不出什么话。我们组有个实习生,后来鼓足勇气问了我一个问题:“我还能留下来吗?”毕竟,大部分情况下,技术还是要屈服于资本的力量。爬虫反爬虫的未来与竞争对手和解之后,我们去拜访对方,大家坐在了一起。之前网上自称妹子的,一个个都是五大三粗的汉子,这让我们相当绝望。在场唯一的一个妹子还是我们自己带过去的(就是上面提到的实习生),感觉套路了这么久,最终还是被对方套路了。好在,吃的喝的都很好,大家玩的还是比较 high 的。后续就是和平年代啦,大家不打仗了,反爬虫的逻辑扔在那做个防御,然后就开放白名单允许对方爬取了。群里经常叫的就是:xxx 你怎么频率这么高,xxx 你为什么这个接口没给我开放,为什么我爬的东西不对我靠你是不是把我封了啊,诸如此类的。和平年代的反爬虫比战争年代还难做,因为战争年代,误伤率只要不是太高,公司就可以接受。和平年代大家不能搞事情,误伤率稍稍多一点,就会有人叫:好好的不赚钱,瞎搞什么搞。此外,战争年代只要不拦截用户,就不算误伤。和平年代还要考虑白名单,拦截了合作伙伴也是误伤,因此各方面会更保守一些。不过,总体来说还是和平年代比较 happy,毕竟,谁会喜欢没事加班玩呢。然而和平持续的不是很久,很快就有了新的竞争对手选择爬虫来与我们打,毕竟,这是一个利益驱使的世界。只要有大量的利润,资本家就会杀人放火,这不是我们这些技术人员可以决定的,我们希望天下无虫,但是我们又有什么权利呢。好在,这样可以催生更多的职位,顺便提高大家的身价,也算是个好事情吧。
01-31
2018
webrtc中rtcp反馈与码率控制模块分析
0. 参考文档1 google congestion control1. 简介webrtc的带宽估计分为两部分,一部分为发送端根据rtcp反馈信息进行反馈,另一部分为接收端根据收到的rtp数据进行相应的码率估计[1]。 本文先分析发送端根据rtcp反馈信息进行码率调整的部分代码。具体计算公式: 2. 代码结构2.1 类关系rtp_stream_receiver中有一个继承自抽象类RtpRtcp的ModuleRtpRtcpImpl,ModuleRtpRtcpImpl中有一个rtcp_receiver。当有RTCP包到来时,逐层处理至rtcp_receiver,当包是rtcp receiver report包,则会将包解析,然后在ModuleRtpRtcpImpl中再次调用rtcp_receiver中的TriggerCallbacksFromRTCPPacket函数,触发对应rtcp的一些事件,反馈触发的主要是_cbRtcpBandwidthObserver的观察者(RtcpBandwidthObserverImpl),这个观察者收到对应的report block之后会计算成带宽估计所需要的参数,并调用属主bitratecontrolImpl类对带宽进行估计,这里会调用SendSideBandwidthEstimation中的UpdateReceiverBlock进行实际的带宽评估。2.2 调用关系图3. 代码分析3.1 HandleReportBlock这个函数中最主要的部分就是RTT的计算,webrtc中对于RTT平滑的因子是一个线性增长的因子。/* 这个函数根据对应的report block生成了一个新的RTCPReportBlockInformation结构体,  * 并计算出对应的RTT,多report block在调用点处执行循环。  */ void RTCPReceiver::HandleReportBlock(     const RTCPUtility::RTCPPacket& rtcpPacket,     RTCPPacketInformation& rtcpPacketInformation,     uint32_t remoteSSRC)     EXCLUSIVE_LOCKS_REQUIRED(_criticalSectionRTCPReceiver) {   // This will be called once per report block in the RTCP packet.   // We filter out all report blocks that are not for us.   // Each packet has max 31 RR blocks.   //   // We can calc RTT if we send a send report and get a report block back.   // |rtcpPacket.ReportBlockItem.SSRC| is the SSRC identifier of the source to   // which the information in this reception report block pertains.   // Filter out all report blocks that are not for us.   if (registered_ssrcs_.find(rtcpPacket.ReportBlockItem.SSRC) ==       registered_ssrcs_.end()) {     // This block is not for us ignore it.     return;   }   RTCPReportBlockInformation* reportBlock =       CreateOrGetReportBlockInformation(remoteSSRC,                                         rtcpPacket.ReportBlockItem.SSRC);   if (reportBlock == NULL) {     LOG(LS_WARNING) << "Failed to CreateReportBlockInformation("                     << remoteSSRC << ")";     return;   }   // 用于RTCP超时的计算。   _lastReceivedRrMs = _clock->TimeInMilliseconds();   // 其他字段的拷贝。   const RTCPPacketReportBlockItem& rb = rtcpPacket.ReportBlockItem;   reportBlock->remoteReceiveBlock.remoteSSRC = remoteSSRC;   reportBlock->remoteReceiveBlock.sourceSSRC = rb.SSRC;   reportBlock->remoteReceiveBlock.fractionLost = rb.FractionLost;   reportBlock->remoteReceiveBlock.cumulativeLost =       rb.CumulativeNumOfPacketsLost;   if (rb.ExtendedHighestSequenceNumber >       reportBlock->remoteReceiveBlock.extendedHighSeqNum) {     // We have successfully delivered new RTP packets to the remote side after     // the last RR was sent from the remote side.     _lastIncreasedSequenceNumberMs = _lastReceivedRrMs;   }   reportBlock->remoteReceiveBlock.extendedHighSeqNum =       rb.ExtendedHighestSequenceNumber;   reportBlock->remoteReceiveBlock.jitter = rb.Jitter;   reportBlock->remoteReceiveBlock.delaySinceLastSR = rb.DelayLastSR;   reportBlock->remoteReceiveBlock.lastSR = rb.LastSR;   if (rtcpPacket.ReportBlockItem.Jitter > reportBlock->remoteMaxJitter) {     reportBlock->remoteMaxJitter = rtcpPacket.ReportBlockItem.Jitter;   }   int64_t rtt = 0;   uint32_t send_time = rtcpPacket.ReportBlockItem.LastSR;   // RFC3550, section 6.4.1, LSR field discription states:   // If no SR has been received yet, the field is set to zero.   // Receiver rtp_rtcp module is not expected to calculate rtt using   // Sender Reports even if it accidentally can.   if (!receiver_only_ && send_time != 0) {     // 当RR在SR之前发送,send_time为0.     // delay计算:     // Send SR                                                       Receive RR     //  |                          delay in RR                           |     //  |                        ||                         |     //  ||             ||     //     // RTT = total_time - delay_in_RR     //     = receiver_rr_time - send_sr_time - delay_in_RR     // 即使中间几个SR丢包,但是如果RTT本身是平滑的,那么RTT不会受到这几个丢包的影响     // 因为SR->RR之间的delay可以精确计算。     uint32_t delay = rtcpPacket.ReportBlockItem.DelayLastSR;     // Local NTP time.     uint32_t receive_time = CompactNtp(NtpTime(*_clock));     // RTT in 1/(2^16) seconds.     uint32_t rtt_ntp = receive_time - delay - send_time;     // Convert to 1/1000 seconds (milliseconds).     rtt = CompactNtpRttToMs(rtt_ntp);     if (rtt > reportBlock->maxRTT) {       // Store max RTT.       reportBlock->maxRTT = rtt;     }     if (reportBlock->minRTT == 0) {       // First RTT.       reportBlock->minRTT = rtt;     } else if (rtt < reportBlock->minRTT) {       // Store min RTT.       reportBlock->minRTT = rtt;     }     // Store last RTT.     reportBlock->RTT = rtt;     // store average RTT     // RTT的平滑计算。     // 如果这个块是在CreateOrGetReportBlockInformation新生成的,     // 则权重会从0开始随着受到的report逐渐递增。     // srtt(i) = i/(i+1)*srtt(i-1) + 1/(i+1)*rtt + 0.5     if (reportBlock->numAverageCalcs != 0) {       float ac = static_cast(reportBlock->numAverageCalcs);       float newAverage =           ((ac / (ac + 1)) * reportBlock->avgRTT) + ((1 / (ac + 1)) * rtt);       reportBlock->avgRTT = static_cast(newAverage + 0.5f);     } else {       // First RTT.       reportBlock->avgRTT = rtt;     }     reportBlock->numAverageCalcs++;   }   TRACE_COUNTER_ID1(TRACE_DISABLED_BY_DEFAULT("webrtc_rtp"), "RR_RTT", rb.SSRC,                     rtt);   // 添加回rtcpPacketInformation,在ModuleRtpRtcpImpl中会使用这个进行事件回调。   rtcpPacketInformation.AddReportInfo(*reportBlock); }3.2 UpdateMinHistory这个函数主要用于更新变量min_bitrate_history_,这个变量将会作用于上升区间,用来作为基数,这里简单描述下。// Updates history of min bitrates. // After this method returns min_bitrate_history_.front().second contains the // min bitrate used during last kBweIncreaseIntervalMs. // 主要结合这个函数解释下变量min_bitrate_history_ // 这个变量的两个维度,front记录的是离当前最远的时间, // 每个速率都是按照时间先后顺序逐渐push到尾部。 // 因此更新的时候,需要先将超时的元素从列表头剔除。 // 后一个维度是最小速率值, // 在相同的时间区间内,保留最小的速率值。 // |-------Interval 1---------|----------Interval 2------| // |                          |                          | // |--t1 < t2 < t3 < t4 < t5--|--t1 < t2 < t3 < t4 < t5--| // 这样的操作较为简单,不用在每次插入元素时去判断对应的时间区域,再找到对应时间区间的最小值,用部分冗余的内存换取操作的快捷。 void SendSideBandwidthEstimation::UpdateMinHistory(int64_t now_ms) {   // Remove old data points from history.   // Since history precision is in ms, add one so it is able to increase   // bitrate if it is off by as little as 0.5ms.   while (!min_bitrate_history_.empty() &&          now_ms - min_bitrate_history_.front().first + 1 >              kBweIncreaseIntervalMs) {     min_bitrate_history_.pop_front();   }   // Typical minimum sliding-window algorithm: Pop values higher than current   // bitrate before pushing it.   while (!min_bitrate_history_.empty() &&          bitrate_ <= min_bitrate_history_.back().second) {     min_bitrate_history_.pop_back();   }   min_bitrate_history_.push_back(std::make_pair(now_ms, bitrate_)); }3.3 UpdateEstimate函数UpdateReceiverBlock会根据当前的report block对当前带宽估计的一些变量进行相应的赋值,此外,只有当传输包的数量达到一定数量才会再次触发带宽估计的调整。函数UpdateEstimate是主要用于带宽估计的函数。void SendSideBandwidthEstimation::UpdateEstimate(int64_t now_ms) {   // We trust the REMB and/or delay-based estimate during the first 2 seconds if   // we haven't had any packet loss reported, to allow startup bitrate probing.   if (last_fraction_loss_ == 0 && IsInStartPhase(now_ms)) {     uint32_t prev_bitrate = bitrate_;     // bwe_incoming_是remb更新的值,如果当前无丢包且在启动阶段,直接使用remb的值。     if (bwe_incoming_ > bitrate_)       bitrate_ = CapBitrateToThresholds(now_ms, bwe_incoming_);       ...     }   }   UpdateMinHistory(now_ms);   // Only start updating bitrate when receiving receiver blocks.   // TODO(pbos): Handle the case when no receiver report is received for a very   // long time.   if (time_last_receiver_block_ms_ != -1) {     if (last_fraction_loss_ <= 5) {       // Loss < 2%: Increase rate by 8% of the min bitrate in the last       // kBweIncreaseIntervalMs.       // Note that by remembering the bitrate over the last second one can       // rampup up one second faster than if only allowed to start ramping       // at 8% per second rate now. E.g.:       //   If sending a constant 100kbps it can rampup immediatly to 108kbps       //   whenever a receiver report is received with lower packet loss.       //   If instead one would do: bitrate_ *= 1.08^(delta time), it would       //   take over one second since the lower packet loss to achieve 108kbps.         //TODO:tjl       // 这里与公式有一定不同:       // 1. 系数不同,且附带一定的修正值(向上取整加1kbps)       // 2. 取的是上一个时间间隔之内最小值,比较平滑。       bitrate_ = static_cast(           min_bitrate_history_.front().second * 1.08 + 0.5);       // Add 1 kbps extra, just to make sure that we do not get stuck       // (gives a little extra increase at low rates, negligible at higher       // rates).       bitrate_ += 1000;       event_log_->LogBwePacketLossEvent(           bitrate_, last_fraction_loss_,           expected_packets_since_last_loss_update_);     } else if (last_fraction_loss_  10%: Limit the rate decreases to once a kBweDecreaseIntervalMs +       // rtt.       if (!has_decreased_since_last_fraction_loss_ &&           (now_ms - time_last_decrease_ms_) >=               (kBweDecreaseIntervalMs + last_round_trip_time_ms_)) {         time_last_decrease_ms_ = now_ms;         // Reduce rate:         //   newRate = rate * (1 - 0.5*lossRate);         //   where packetLoss = 256*lossRate;           //TODO:tjl         // 当从未开始降低窗口值,且距离上一次衰减的时间差大于衰减周期加上rtt。         // 其实当前貌似只有这个case下会对这两个变量赋值。         // 这里的last_fraction_loss_是一次统计间隔(一定包数)之间的总丢包率。         // 丢包率的单位是1/256,因此这里是(1 - 丢包率/2) * 当前速率         // 与公式相同。         bitrate_ = static_cast(             (bitrate_ * static_cast(512 - last_fraction_loss_)) /             512.0);         has_decreased_since_last_fraction_loss_ = true;       }       event_log_->LogBwePacketLossEvent(           bitrate_, last_fraction_loss_,           expected_packets_since_last_loss_update_);     }   }   // 在有效范围内修正。   bitrate_ = CapBitrateToThresholds(now_ms, bitrate_); }
01-26
2018
Facebook如何运用机器学习进行亿级用户数据处理
2017年末,Facebook应用机器学习组发布最新论文,对整个Facebook的机器学习软硬件架构进行了介绍。纵览全文,我们也可以从中对Facebook各产品的机器学习策略一窥究竟。论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战,并给出了Facebook的应对策略和解决思路,对相关行业和研究极其有意义。摘要机器学习在Facebook的众多产品和服务中都有着举足轻重的地位。 本文将详细介绍Facebook在机器学习方面的软硬件基础架构,如何来满足其全球规模的运算需求。Facebook的机器学习需求极其繁杂:需要运行大量不同的机器学习模型。这种复杂性已经深深刻在Facebook系统堆栈的所有层面上。此外,Facebook存储的所有数据,有相当大一部分会流经机器学习管道,这样的数据载荷为Facebook的分布式高性能训练流带来巨大的压力。计算需求也非常紧张,在保持用于训练的GPU/CPU平台的同时平衡出大量CPU容量用于实时推理,也带来了异常紧张的。这些问题及其他难题的解决,仍有待我们在跨越机器学习算法、软件和硬件设计上持久而不懈的努力。引言Facebook的使命是“为人类构建社交关系赋能,让世界联系更加紧密”。截至2017年12月,Facebook已经连接了全球超过20亿的人口。同时,过去几年来,机器学习同样在这样一种全球尺度的实际问题上进行着一场革命,包括在机器学习算法创新方面的良性循环,用于模型训练的海量数据以及高性能计算机体系结构的进步。在Facebook上,机器学习几乎在提升用户体验的所有层面都发挥着关键作用,包括诸如新闻推送语音和文本翻译以及照片和实时视频分类的排名等服务。Facebook在这些服务中用到了各种各样的机器学习算法,包括支持向量机,梯度boosted决策树和许多类型的神经网络。本文将介绍Facebook的数据中心架构支持机器学习需求的几个重要层面。其架构包括了内部的“ML-as-a-Service”流,开源机器学习框架,和分布式训练算法。从硬件角度来看,Facebook利用了大量的CPU和GPU平台来训练模型,以便在所需的服务延迟时间内支持模型的训练频率。对于机器学习推理过程,Facebook主要依靠CPU来处理所有主要的服务,而其中神经网络排名服务(比如新闻推送)占据着所有计算负载的大头。Facebook所存储的海量数据中,有一大部分要流经机器学习管道,并且为了提高模型质量,这一部分的数据量还在随着时间推移不断增加。提供机器学习服务所需的大量数据成为了Facebook的数据中心将要在全球规模上面临的挑战。目前已有的可被用来向模型高效地提供数据的技术有,数据反馈和训练的解耦操作,数据/计算协同定位和网络优化。与此同时,Facebook公司这样大的计算和数据规模自身还带来了一个独特的机会。在每天的负载周期内,非高峰期都会空闲出大量可以用来进行分布式训练算法的CPU。Facebook的计算集群(fleet)涉及到数十个数据中心,这样大的规模还提供了一种容灾能力。及时交付新的机器学习模型对于Facebook业务的运营是非常重要的,为了保证这一点,容灾规划也至关重要。展望未来,Facebook希望看到其现有的和新的服务中的机器学习使用频率快速增长。当然,这种增长也将为负责这些服务架构的团队在全球规模的拓展性上带来更加严峻的挑战。尽管在现有平台上优化基础架构对公司是一个重大的机遇,但我们仍然在积极评估和摸索新的硬件解决方案,同时保持对于算法创新的关注。本文(Facebook对机器学习的看法)的主要内容包括:机器学习正在被广泛应用在Facebook几乎所有的服务,而计算机视觉只占资源需求的一小部分。Facebook所需的大量机器学习算法极其繁杂,包括但不限于神经网络我们的机器学习管道正在处理海量的数据,而这会带来计算节点之外的工程和效率方面的挑战。Facebook目前的推理过程主要依靠CPU,训练过程则是同时依靠CPU和GPU。但是从性能功耗比的角度来看,应当不断对新的硬件解决方案进行摸索和评估。全球用户用来使用Facebook的设备每天都可达数亿台,而这会就会提供大量可以用于机器学习任务的机器,例如用来进行大规模的分布式训练。Facebook的机器学习机器学习(ML)是指利用一系列输入来建立一个可调模型,并利用该模型创建一种表示,预测或其他形式的有用信号的应用实例。图1. Facebook的机器学习流程和架构示例图1所示的流程由以下步骤组成,交替执行:建立模型的训练阶段。这个阶段通常离线运行。在应用中运行训练模型的推理阶段,并进行(一组)实时预测。这个阶段是在线执行的。模型进行训练的频率要比推理少得多——推理的时间规模虽然在不断变化,但一般在几天左右。训练也需要相当长的时间来完成,通常是几个小时或几天。同时,根据产品实际需求不同,在线推理阶段每天可能运行达数十万次,而且一般需要实时进行。在某些情况下,特别是对于推荐系统,还需要以这样连续的方式在线进行额外的训练。在Facebook,机器学习的一个显著特征就是有可用于模型训练的海量数据。这个数据的规模会带来很多涉及到整个机器学习架构的影响。使用机器学习的主要服务消息推送消息推送排名算法能够使用户在每次访问Facebook时,最先看到对他们来讲最重要的事情。一般模型会通过训练来确定影响内容排序的各种用户和环境因素。之后,当用户访问Facebook时,该模型会从数千个候选中生成一个最佳推送,它是一个图像和其他内容的个性化集合,以及所选内容的最佳排序。广告广告系统利用机器学习来确定向特定用户显示什么样的广告。通过对广告模型进行训练,我们可以了解用户特征,用户上下文,以前的互动和广告属性,进而学习预测用户在网站上最可能点击的广告。之后,当用户访问Facebook时,我们将输入传递进训练好的模型运行,就能立马确定要显示哪些广告。搜索搜索会针对各种垂直类型(例如,视频,照片,人物,活动等)启动一系列特定的子搜索进程。分类器层在各类垂直类型的搜索之前运行,以预测要搜索的是垂直类型中的哪一个,否则这样的垂直类型搜索将是无效的。分类器本身和各种垂直搜索都包含一个训练的离线阶段,和一个运行模型并执行分类和搜索功能的在线阶段。SigmaSigma是一个分类和异常检测通用框架,用于监测各种内部应用,包括站点的完整性,垃圾邮件检测,支付,注册,未经授权的员工访问以及事件推荐。Sigma包含了在生产中每天都要运行的数百个不同的模型,并且每个模型都会被训练来检测异常或更一般地分类内容。LumosLumos能够从图像及其内容中提取出高级属性和映射关系,使算法能够自动理解它们。这些数据可以用作其他产品和服务的输入,比如通过文本的形式。FacerFacer是Facebook的人脸检测和识别框架。给定一张图像,它首先会寻找该图像中所有的人脸。然后通过运行针对特定用户的人脸识别算法,来确定图中的人脸是否是该用户的好友。Facebook通过该服务为用户推荐想要在照片中标记的好友。语言翻译语言翻译是涉及Facebook内容的国际化交流的服务。Facebook支持超过45种语言之间的源语言或目标语言翻译,这意味着Facebook支持2000多个翻译方向,比如英语到西班牙语,阿拉伯语到英语。通过这2000多个翻译通道,Facebook每天提供4.5B字的翻译服务,通过翻译用户的消息推送,Facebook每天可为全球6亿人减轻语言障碍。目前,每种语言对方向都有其自己的模型,但是我们也正在考虑多语言模型[6]。语音识别语音识别是将音频流转换成文本的服务。它可以为视频自动填补字幕。目前,大部分流媒体都是英文的,但在未来其他语言的识别也将得到支持。另外,非语言的音频文件也可以用类似的系统(更简单的模型)来检测。除了上面提到的主要产品之外,还有更多的长尾服务也利用了各种形式的机器学习。 Facebook产品和服务的长尾数量达数百个。机器学习模型所有基于机器学习的服务都使用“特征”(或输入)来产生量化的输出。Facebook使用的机器学习算法包括Logistic回归(LR),支持向量机(SVM),梯度提升决策树(GBDT)和深度神经网络(DNN)。LR和SVM在训练和预测方面非常有效。GBDT可以通过增加计算资源来提高准确性。DNN是最具表达力的,能够提供最高的准确性,但利用的资源也是最多的(在计算量上,至少比LR和SVM等线性模型高出一个数量级)。这三种模型的自由参数都在变得越来越多,必须通过使用带标签的输入示例来优化预测的准确性。在深度神经网络中,有三类经常使用的网络:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN / LSTM)。MLP网络通常运行在结构化输入特征(通常是排名)上,RNN / LSTM网络一般用来处理时域的数据,即用作序列处理器(通常是语言处理),相对的CNNs则是一种处理用来空间数据的工具(通常是图像处理)。表I显示了这些机器学习模型类型和产品/服务之间的映射关系。表1 利用机器学习算法的产品或服务Facebook中的ML-as-a-Service为了简化在产品中应用机器学习的任务,我们构建了一些内部平台和工具包,包括FBLearner,Caffe2和PyTorch。FBLearner是三种工具(FBLearner Feature Store,FBLearner Flow,FBLearner Predictor)的套装,其中每种工具分别负责机器学习管道上不同的部分。正如前面图1显示的那样,它利用了一种内部作业调度程序在GPU和CPU的共享资源池上分配资源和调度作业。Facebook大多数机器学习模型的训练过程都是在FBLearner平台上进行的。这些工具和平台被设计来帮助机器学习工程师提高效率,从而能够专注于算法创新。FBLearner Feature Store。任何机器学习建模任务的起点是收集和生成特征。 FBLearner Feature Store本质上是一系列特征生成器的目录,其特征生成器可以用于训练和实时预测,当然它也可以作为多个团队可以用来共享和寻找特征的公共空间(market place)。这样以个特征列表对于刚开始使用机器学习的团队来说是一个很好的平台,同时也有助于在现有模型中应用新特征。FBLearner Flow是Facebook用于训练模型的机器学习平台。Flow是一个管道管理系统,它会执行一个可以描述模型训练和/或评估所需步骤及其所需资源的工作流程(workflow)。这个工作流程由离散单元或操作符(operators)构成,每个单元都有输入和输出。操作符之间的连接会通过跟踪一个操作符到下一个操作符的数据流自动推理,Flow则通过处理调度和资源管理来执行工作流程。Flow还拥有一个可以用于实验管理的工具和一个简单的用户界面,这个界面可以跟踪每个workflow或实验生成的所有构件和指标,从而方便对比和管理这些实验。FBLearner Predictor是Facebook内部的推理引擎,它可以使用在Flow中训练的模型来提供实时的预测。Predictor可以用作多租户服务,也可以用作集成在特定产品的后端服务中的库。Facebook的很多产品团队都在使用Predictor,而其中许多团队都需要低延迟解决方案。Flow和Predictor之间的直接集成还有助于运行在线的实验以及在生产中管理多个版本的模型。深度学习框架我们在Facebook上利用了两种截然不同的协同框架来进行深度学习:针对研究优化的PyTorch和针对生产优化的Caffe2。Caffe2是Facebook的内部生产框架,它用于训练和部署大规模的机器学习模型。Caffe2专注于产品所需的几个关键特性:性能,跨平台支持和基本的机器学习算法,如卷积神经网络(CNN),递归神经网络(RNN)和多层感知器(MLP)。这些网络都具有稀疏或密集的连接以及高达数百亿的参数。该框架的设计采用模块化方法,在所有后端实现(CPU,GPU和加速器)之间共享统一的图表示。为了在不同平台上实现最佳的运行时间,Caffe2还抽象了包括cuDNN,MKL和Meta在内的第三方库。PyTorch是Facebook在AI研究领域的首选框架。它的前端注重灵活性、调试以及动态神经网络,能够快速进行实验。由于依赖于Python来执行,它并没有针对生产和移动端部署进行优化。当研究项目产生了有价值的结果时,模型就需要转移到生产上。过去,在生产环境中,我们通过使用其他框架重写产品环境的训练管道来完成模型转移。最近Facebook开始构建ONNX工具链来简化这个转移过程。比如,动态神经网络虽然被用于尖端的人工智能研究,但这些模型需要更长的时间才能被应用于产品中。通过解耦框架,我们避免了的为满足性能而设计更复杂的执行引擎(比如Caffe2)的需求。此外,相比模型速度,研究人员在进行研究时更看重其灵活性。举个栗子,在模型探索阶段,性能下降30%是可以容忍的,尤其是在它具有易测验和模型可视化的优点时。但是相同的方法并不适合于生产。这种取舍原则在PyTorch和Caffe2的框架设计中也可以看到,PyTorch提供了良好的默认参数和合理的性能,而Caffe2可以选择使用异步图执行,量化权重和多个专用后端等特性来达到最佳性能。虽然FBLearner平台本身不限制使用什么框架,无论是Caffe2,TensorFlow,PyTorch还是其他的框架都可以,但我们的AI软件平台(AI Software Platform)团队为了让FBLearner能够很好地与Caffe2集成还是进行了特定优化。总的来说,分离研究和生产框架(分别是PyTorch和Caffe2)使我们能够在两边灵活运作,减少约束数量的同时还能增加新特性。ONNX. 深度学习工具生态系统在整个行业还处于初级阶段。 对于不同的问题子集,不同的工具有着不同的优势,并且在灵活性,性能和支持平台方面有着不同的折衷,这就跟我们之前对PyTorch和Caffe2所描述的权衡一样。 因此,在不同的框架或平台之间交换训练模型的需求很大。 为了弥补这个缺陷,2017年末,Facebook与几个合作伙伴共同推出了开放式神经网络交换(Open Neural Network Exchange , ONNX)。ONNX是一种以标准方式表示深度学习模型的格式,以便在不同的框架和供应商优化库之间实现互操作。同时,它能满足在不同的框架或平台之间交换训练好的模型的需求。ONNX被设计为一种开放的规范,允许框架作者和硬件供应商为其做出贡献,并拥有框架和库之间的各种转换器。Facebook正在努力使ONNX成为所有这些工具之间的协作伙伴,而不是一种具有排他性的官方标准。在Facebook内部,ONNX是我们将研究模型从PyTorch环境转移到Caffe2中的高性能生产环境的主要手段,它可以实现对模型的自动捕捉和固定部分的转换。在Facebook内部,ONNX是我们将研究模型从PyTorch环境转移到Caffe2中的高性能生产环境的主要手段。 ONNX提供了自动捕捉和转换模型的静态部分的能力。 我们有一个额外的工具链,通过将它们映射到Caffe2中的控制流原函数或者以C ++作为自定义操作符重新实现它们,会有助于将模型从Python转移到动态图。机器学习的资源需求鉴于机器学习在训练和推理(inference)的阶段的资源要求、频率和持续时长不同,我们将分别讨论这两个阶段的细节和资源应用。Facebook硬件资源概况Facebook的基础架构部门(Facebook Infrastructure)很早之前就开始为主要软件服务构建的高效平台,包括针对每种主要工作负载的资源要求定制的服务器、存储以及网络支持。图2 基于CPU的计算服务器。单插槽服务器底座上有4个Monolake服务器卡,双插槽服务器底座还一个双插槽服务器,因此在2U机箱中共有三个双插槽服务器。所以在2U形式的组合中共有12个服务器。当前Facebook提供约八种主要的计算和存储架构,对应八种主要服务。这些主要架构类型足以满足Facebook主要服务的资源要求。例如,图2中展示了一个可以容纳三个计算Sleds模块的2U机架,这些模块可支持两种服务器类型。其中一种Sled模块是单插槽CPU服务器(1xCPU),多用于Web层——一种主要看重吞吐量的无状态服务,因此可以使用能效更高的CPU(Broadwell-D处理器);它的DRAM(32GB)以及主板硬盘或闪存较少。另一种Sled模块是较大的双插槽CPU服务器(2x高功率Broadwell-EP或Skylake SP CPU),它配有大量的DRAM ,常用于涉及大量计算和存储的服务。图3. 搭载8个GPU的Big Basin GPU服务器(3U机架)由于我们训练的神经网络越来越大,并且越来越深,我们开发出了Big Basin GPU服务器(如图3所示),这是我们2017年最新的GPU服务器。最初的Big Basin GPU服务器配置了八个互相连接的NVIDIA Tesla P100 GPU加速器,它使用NVIDIA NVLink形成了一个八CPU混合立方网格,后来,这种设计经过改进之后又应用到了V100 GPU上。Big Basin是早前的Big Sur GPU的继承者,后者是Facebook数据中心首个广泛应用的高性能AI计算平台,用于支持于2015年开发并通过开放计算项目(Open Compute Project)发布的NVIDIA M40 GPU。与Big Sur相比,V100 Big Basin每瓦电可实现的性能更高,这得益于单精度浮点运算单元——每个GPU的运算速度从7 teraflops(每秒万亿次浮点运算)增加到了15.7 teraflops,以及可提供900GB/s的带宽的高带宽显存(HBM2)。这种新的架构还使得半精度运算的速度快了一倍,进一步提高了运算吞吐量。由于Big Basin的运算吞吐量更大,而且显存也从12 GB增加到了16 GB,因此它可以用来训练比先前模型大30%的模型。高带宽NVLink互连GPU通信还强化了分布式训练。在使用ResNet-50图像分类模型进行的测试中,Big Basin的运算吞吐量比Big Sur要高出300%,借助它我们可以以更快的速度训练比以往更复杂的模型。Facebook通过开放计算项目(Open Compute Project)公布了所有这些计算服务器的设计以及几种存储平台。离线训练的资源需求当前,不同的产品会使用不同的计算资源来完成各自的离线训练步骤。有些产品(例如Lumos)在GPU上完成所有的训练。其他产品(例如Sigama)则在双插槽 CPU计算服务器完成所有的训练。诸如Facer这样的产品采用双阶段训练流程,先在GPU上以很小的频率(几个月一次)队通用的面部检测和识别模型进行训练,然后在数千个1xCPU服务器上以很高的频率对每个用户的模型进行特定训练。在本部分,我们将围绕机器学习训练平台、训练频率和持续时长,具体介绍多种服务的细节,并在表II中进行了总结。另外,我们还讨论了数据集的趋势以及这些趋势对计算、内存、存储和网络架构的意义。计算类型和相对数据来源的位置。离线训练既可以在CPU上完成,也可以在GPU上完成,这取决于服务本身。虽然在多数情况下,在GPU上训练出的模型在性能上要比在CPU上训练的模型好,但是CPU强大的现成运算能力使得它成为了一个非常有用的平台。这一点在每天的非高峰期中尤为明显,因为在这期间CPU资源本来就无法得到利用,后面的图4会对此进行说明。下面我们给出了服务和计算资源训练模型的对应关系:在GPU上训练模型的服务: Lumos、语音识别、语言翻译在CPU上训练模型的服务:News Feed、Sigma在GPU和CPU上训练模型的服务:Facer (在GPU上每几年训练一次的通用模型,此类模型较为稳定;在1xCPU上训练的用户特定的模型,此类模型可以用于处理新图像数据)、搜索(利用多个独立的垂直搜索引擎,使用可以进行预测的分类器启动最合适的垂直搜索引擎)。目前,GPU主要被用于离线训练,而不是向用户提供实时数据。因为大多数GPU架构都针对运算吞吐量进行了优化,以克服延迟劣势。同时由于训练过程严重依赖从大型数据生成库中获取的数据,考虑到性能和带宽方面的原因,GPU必须靠近数据来源。由于训练模型所使用的数据量增长的相当快,GPU是否靠近数据来源变得越来越重要。内存、存储和网络:从内存储器容量的角度看,CPU和GPU平台都能为训练提供充足的存储容量。即使对于Facer这样的应用,也可以在1xCPU上用32GB RAM训练用户特定的SVM模型。如果可以尽可能地利用高效平台以及多余的存储容量,则平台的总体训练效率会非常优秀。表II 不同服务的离线训练的频率、持续时长和资源机器学习系统依赖于使用实例数据的训练。Facebook 使用了机器学习数据管道中的大量数据。这使得计算资源趋向于靠近数据库。随着时间的推移,大多数服务会显示出利用累积的用户数据的趋势,这将导致这些服务更加依赖Facebook的其他服务,并且需要更大的网络带宽来获取数据。因此,只有在数据源所在地或附近部署巨大的存储,以便从偏远的区域大规模转移数据,从而避免为了等待获取更多样本数据而关停训练管道。在部署训练机器的位置时,我们也可以使用这种方法来避免训练机群给附近的存储资源造成过大的压力。不同的服务在离线训练期间使用的数据量有很大的差别。几乎所有服务的训练数据集都呈现出持续增长甚至大幅增长的趋势。例如,有些服务在ROI降低之前会使用数百万行数据,其他服务则使用数百亿行数据(100多TB),并且只受到资源的限制。 扩展(Scaling)考虑和分布式训练:训练神经网络的过程包含使用随机梯度下降法(SGD)对参数权重进行优化。这种方法用于拟合神经网络,通过评价标记实例的小子集(即“batch” 或“mini-batch”)来迭代更新权重。在数据并行中,网络会生成多个模型副本(并行实例),以并行的处理多批数据。当使用一台机器训练模型时,模型越大或更深都会带来更好的训练效果,准确度也会更高,但是训练此类模型往往需要处理更多的样本。当使用一台机器进行训练时,我们可以通过增加模型副本的数量并在多个GPU上执行数据并行,来最大化训练效果。当训练所需的数据量随时间增加,硬件限制会导致总体训练延迟和收敛时间增加。不过,我们可以使用分布式训练来克服这些硬件限制,减少延迟。这个研究领域在Facebook和整个AI研究界相当热门。一种普遍的假设是,在不同机器上实现数据并行需要使用一种专门的互连机制。但是,在我们对分布式训练的研究中,我们发现基于以太网(Ethernet)的网络就可以提供近似线性的扩展能力。能否实现近似线性的扩展,与模型的大小和网络带宽有密切的关系。如果网络带宽太小,执行参数同步所花的时间比执行梯度计算所花的时间还多,在不同机器上进行数据并行所带来的优势也会大打折扣。使用50G的以太网NIC,我们可以用Big Basin服务器扩展视觉模型的训练,而且机器间的同步完全不会造成问题。在所有情况下,更新都需要使用同步(每个副本都看到相同状态),一致性(每个副本生成正确更新)和性能(子线性缩放)的技术来与其他副本共享,这可能会影响训练质量。 例如,翻译服务目前就不能在不降低模型质量的情况下进行大批量的小批量(mini-batches)训练。相反,如果使用特定的超参数设置,我们就可以在非常大的mini-batch数据集上训练图像分类模型,并且可以扩展到256个以上的GPU上。实验证明,在Facebook的某个大型服务中,在5倍的机器上执行数据并行可以实现4倍的训练效率(例如:训练一组训练时间超过4天的模型,以前总共可以训练100个不同模型的机器集群现在每天只能训练同样的20个模型,训练效率降低了20%,但是潜在的工程进度等待时间从4天减少到了1天)。如果模型变得超级大,这时候就可以使用并行训练,对模型的层进行分组和分布,以优化训练效率,各机器间可以传递激活单元。优化可能与网络带宽、延迟或平衡内部机器限制有关。这会增加模型的端对端延迟,因此,每一时步(time step)内原始性能的增强通常与步长(step)质量的下降有关。这可能会进一步降低模型在每个步长的准确度。各步长准确度的下降最终会累积起来,这样我们就可以得出并行处理的最佳步长数量。DNN模型本身的设计使得它只能在一台机器上运行,在推理阶段,在机器间分割模型图通常会导致机器与机器进行大量的沟通。但是Facebook的主要服务会不断地权衡扩展模型的利与弊。这些考虑可以决定网络容量需求的变化。表 III 在线推理服务的资源要求在线推理的资源需求在完成离线训练之后的线推理步骤中,我们需要将模型载入到机器中,使用实时输入运行模型来生成网站流量的实时结果。接下来我们将讨论,一种实际应用中的在线推理模型——广告排名模型。这种模型可以筛选成千上万条广告,在消息推送中显示排在1至5名的广告。这个过程是通过对依次减小的广告子集进行逐步复杂的排名运算循环(passes)来实现的。每一轮运算都会用到类似于多层感知模型(MLP)的模型,这种模型包含稀疏嵌入层,每一轮运算都会缩小广告的数量。稀疏嵌入层需要大量的内存,因此当进行到靠后的运算时,模型的超参数数量更多,它将在独立于MLP运算轮的一个服务器上运行。从计算的角度上看,绝大多数在线推理都是在大量1xCPU(单插槽)或2xCPU(双插槽)上运行的。由于1xCPU对Facebook的服务而言性能更高,而且性价比更高,因此Facebook提倡尽可能使用1xCPU服务器训练模型。随着高性能移动硬件的诞生,Facebook甚至可以在用户的移动设备上直接运行某些模型,来改进延迟和降低通信成本。但是,某些需要大量计算和内存资源的服务仍然需要使用2xCPU才能实现最佳性能。不同的产品在得出在线推理的结果时拥有不同的延迟要求。在某些情况下,得出的数据可能“十分优秀” ,也可能会在向用户返回初步快速评估后被重新输入到模型中。例如,在某些情况中将某个内容分类为合格是可以接受的,但是当运行更加复杂的模型时这个初步的分类结果就会被推翻。广告排名和消息推送之类的模型配置有稳定的SLA,可以向用户推送合适的内容。这些SLA决定着模型的复杂性和依赖性,因此如果拥有更加强大的计算能力,我们就可以训练出更加先进的模型。机器学习数据计算除了资源需求外,在数据中心部署机器学习时还需要考虑一些重要的因素,包括对重要数据的需求以及面对自然灾害的可靠性。从获取数据到模型Facebook公司的许多机器学习模型,成功的主要因素就是广泛而高质量的可用数据。快速处理并将这些数据提供给机器学习模型的能力能够确保我们部署快速有效的离线训练。对于复杂的机器学习应用程序,如广告和排名,每个训练任务所需的数据量都超过数百TB大小。此外,复杂的预处理逻辑的使用能确保数据被清理并归一化,以便高效地迁移和更轻松地学习。这些操作对资源的要求非常高,特别对存储量,网络和CPU的需求。作为一个通用的解决方案,我们尝试对训练工作量中的数据进行解耦。这两个工作量都有非常显著的特点。一方面,它非常复杂,具有临时的,依赖业务性的,且变化快等特点。另一方面,训练工作量通常是固定的(例如GEMM),稳定的(核心业务相对较少),高度优化,且更偏爱于“干净”的环境下工作(例如,独占高速缓存使用和最小线程争夺)。为了优化这两者,我们在物理上对不同的机器的不同工作负载进行隔离。数据处理机器,又名“readers”,从存储器中读取数据,处理和压缩它们,然后将结果反馈给一个叫做“trainers”的训练机器。另一方面,trainers只专注于快速有效地执行任务。readers和trainers可以分布以便提供更灵活性和可扩展性的应用。此外,我们还优化了不同工作负荷的机器配置。另一个重要的优化指标是网络使用。训练过程产生的数据流量非常重要的,并且有时候会突然产生。如果没有智能化处理的话,这很容易就会导致网络设备的饱和,甚至干扰到其他服务。为了解决这些问题,我们采用压缩优化,调度算法,数据/计算布局等等操作。利用规模作为一家为用户提供服务的全球性公司,Facebook必须保持大量服务器的设计能够满足在任何时间段内的峰值工作负载。如图所示,由于用户活动的变化取决于日常负荷以及特殊事件(例如地区节假日)期间的峰值,因此大量的服务器在特定的时间段内通常是闲置的。这就释放了非高峰时段内大量可用的计算资源。利用这些可能的异构资源,以弹性方式合理分配给各种任务。这是Facebook目前正努力探索的一大机会。对于机器学习应用程序,这提供了将可扩展的分布式训练机制的优势应用到大量的异构资源(例如具有不同RAM分配的CPU和GPU平台)的机会。但是,这也会带来一些挑战。在这些低利用率的时期,大量可用的计算资源将从根本上导致分布式训练方法的不同。调度程序首先必须正确地平衡跨越异构硬件的负载,这样主机就不必为了同步性而等待其他进程的执行。当训练跨越多个主机时,调度程序还必须要考虑网络拓扑结构和同步所需的成本。如果处理不当,机架内或机架间同步所产生的流量可能会很大,这将极大地降低训练的速度和质量。