新闻中心

02-01
2018
div css布局中CSS图片大小自动按比例等比例缩小图片不变形解决技巧
div css布局中对于图片列表或图片排版时,图片不是固定宽度高度大小,但图片占位是固定宽度高度,这个时候如果使用CSS固定死图片大小(宽度 高度),这个时候如果图片相对于这个位置不是等比例大小,那么这张图片就会变形,让图片变的不清晰,这个时候想让图片不变形又按比例缩放,如何解决?CSS图片缩小不变形,图片自动缩小,图片按比例等比例缩小不变形解决。解决方法有两种:第一种,让图片和布局宽度高度成等比例,这样CSS设置死宽度和高度,图片也是等比例缩小,图片也不会变形。比如淘宝,要求店铺主上传产品封面图片是正方形的,为什么,因为图片宝贝展示列表都是正方形的排版布局,这样要求上传合适正方形宝贝封面图片,也是让图片不变形。所以有条件的情况下,大家将首页、图片列表页的布局宽度高度保持一致,上传图片时候将图片先进行处理为布局宽度高度时等比例放大尺寸的。第二种,使用CSS max-width和max-height实现图片自动等比例缩小很简单我们要使用到max-width和max-height,这样即可设置对象图片最大宽度和最大高度,这样图片就会等比例缩放图片,然图片相对不变形清晰。以下通过实例对比方法让大家掌握CSS控制图片缩小不变形技巧。一、原始描述 这里有个div,CSS宽度和CSS高度方便为300px和100px同时设置1px黑色边框,里面放了一张图片(图片原始宽度650px为高度为406px)。并通过CSS固定死图片宽度高度。1、HTML源代码:<!DOCTYPE html>  <html>  <head>  <meta charset="utf-8" />  <title>图片缩小不变形实例 www.divcss.com</title>  <style>  .divcss{ border:1px solid #000; width:300px; height:100px}  .divcss img{width:300px; height:100px}  </style>  </head>    <body>  <div class="divcss">  <img src="img.jpg" />  </div>  </body>  </html>2、CSS固定死图片宽度高度实例截图原始图片展示:原始图片截图css固定宽度高度后变形的图片截图3、小结,通过CSS固定对象内图片高度宽度,这样图片如果不是等比例缩小,那么图片就变形了。二、CSS解决图片缩小不变形实例使用max-width:300px或max-height:100px,即可解决图片比例缩小。但这样存在一个问题,如果按照宽度缩放,但图片过高会超出溢出盒子,这个时候需要对父级使用overflow:hidden隐藏超出图片内容。但是使用max-width或max-height,IE6不支持,我们需要设置个width:expression(this.width > 300 ? "300px" : this.width);或者height:e­xpression(this.height>100?"100px":this.height);。解决IE6支持max-heightdiv css解决IE6支持max-width一般情况下只需要设置好宽度限制,比如这里只设置最大宽度为300px(max-width:300px),然后对父级使用overflow:hidden隐藏溢出图片,同时为了兼容IE6我们设置个width:expression(this.width > 300 ? "300px" : this.width);解决即可。1、具体解决DIV+CSS实例代码如下:<!DOCTYPE html>  <html>  <head>  <meta charset="utf-8" />  <title>图片缩小不变形实例 www.divcss.com</title>  <style>  .divcss{ border:1px solid #000; width:300px; height:100px;overflow:hidden}  .divcss img{max-width:300px;_width:expression(this.width > 300 ? "300px" : this.width);}  </style>  </head>    <body>  <div class="divcss">  <img src="img.jpg" />  </div>  </body>  </html>2、浏览器测试效果截图css图片缩小等比例缩小后不变形截图3、缺点介绍,如果使用此方法,兼容各大浏览器不变形,但图片不是完整显示的。
01-31
2018
盘点那些曾经让程序员目瞪口呆的Bug都有什么?
盘点那些曾经让程序员目瞪口呆的Bug都有什么?程序员一生与bug奋战,可谓是杀敌无数,见怪不怪了!在某知识社交平台中,一个“有哪些让程序员目瞪口呆的bug”的话题引来了6700多万的阅读,可见程序员们对这个话题的敏感度有多高。本文,笔者特意精选了部分优质答案供广大程序员参考!作者:佚名来源:IT168程序员一生与bug奋战,可谓是杀敌无数,见怪不怪了!在某知识社交平台中,一个“有哪些让程序员目瞪口呆的bug”的话题引来了6700多万的阅读,可见程序员们对这个话题的敏感度有多高。本文,笔者特意精选了部分优质答案供广大程序员参考!1、麻省理工“只能发500英里的邮件”该bug发生于麻省理工,当时其系统管理员接到统计系主任的求助电话,主任在电话中说:“咱们的邮件系统无法发送距离500英里以外的地方,准确地说好像是520英里。”此时的系统管理员内心是“毫无波澜”的,嗯!然后,他开始了漫长且苦逼的测试,最后发现邮件服务器操作系统(SunOS)被人更新了,因为操作系统发行版往往配备旧软件,因此邮件软件实际上是被降级了(Sendmail 8 -> Sendmail 5) ,最后的结果是:Sendmail 5试图解析Sendmail 8的配置文件。所以,为什么一定是500英里呢?且看大神讲解:2、int mian()这其实是一个书写上的错误,之所以会放在本文中,是因为很多程序员的职业生涯中都有过写!错!的经历!main和mian傻傻看不出来!3、医院急诊科的程序bug一位程序员为医院急诊科设计了一套应用程序,毕竟是为急诊病人服务,所以程序员在实验室内认真地测试无数遍,直至确定没有问题,才让医院部署使用。但是,医院方面却总是出现问题,一拿到实验室就没问题。该名程序员于是深入医院调查,最后发现是医院的X光射线导致电脑内存丢失了几个bit信息,进而让程序出现问题!4、谷歌的 Google Arts & Culture APP谷歌推出的Google Arts&Culture APP是一个可以将普通人的照片与艺术照进行对比,匹配出与用户上传的照片最相像的一张艺术画,运行效果是这样的:图片上也会给出匹配度,但偏偏有些人的照片上传后,给出来的艺术画让人哭笑不得,比如:5、硬件开光的必要性某数据中心的火灾报警器因损坏,而在没有发生火灾的情况下响起。诡异的是,数据中心内确实出现了大面积的磁盘损坏和读写性能下降!经排查,因为报警器声音太大影响了磁头的运动!网友吐槽:看来给硬盘开光很有必要啊!6、某外资通信设备商的逆天bug(实在太长,给各位上图)7、足以让数据库瞬间崩溃的bug愿望:在百万量级的数据库里实现快速自我交叉匹配查询。手段:建立临时表提速。Bug:条件里忘记添加”a.id=b.prio”结果:临时表从预计的几千条达到了上亿条,数据库崩溃!!!!8、足以让系统瘫痪的bug9、程序员都能看懂的bug(反正笔者没看懂,看懂的麻烦解释一下)if (object == null) {object.doSomething();} else {object.doSomethingElse();}10、据传,iPhone手机日历上的bug11、购买微软Office套件visio不可使用outlook邮箱注册网友爆料,自己在购买正版Office套件visio时,当他在注册页面输入微软的outlook邮箱,系统居然提示系统中没有outlook.com!12、集群宿主机已售内存为负值?13、比较弱智的bug某网友:让我目瞪口呆的BUG是update不加where...14、人类历史上第一个程序BUG
01-31
2018
成为Java顶尖程序员 ,看这11本书就够了
以下是我推荐给Java开发者们的一些值得一看的好书。但是这些书里面并没有Java基础、Java教程之类的书,不是我不推荐,而是离我自己学习 Java基础技术也过去好几年了,我学习的时候看的什么也忘了,所以我不能不负责任地推荐一些我自己都没有看过的书给大家。“学习的最好途径就是看书“,这是我自己学习并且小有了一定的积累之后的第一体会。个人认为看书有两点好处:1.能出版出来的书一定是经过反复的思考、雕琢和审核的,因此从专业性的角度来说,一本好书的价值远超其他资料2.对着书上的代码自己敲的时候方便“看完书之后再次提升自我的最好途径是看一些相关的好博文“,我个人认为这是学习的第二步,因为一本书往往有好几百页,好的博文是自己看书学习之后的一些总结和提炼,对于梳理学习的内容很有好处,当然这里不是说自己的学习方法,就不再扯下去了。很多程序员们往往有看书的冲动,但不知道看哪些书,下面我就给各位Java程序猿们推荐一些好书(每本书的作者会加粗标红),其中绝大多数都是我自己平时在看的书,也算是我对于平时读的书做一个小总结和读后感吧。首先推荐的不是一本书,而是一个博客,也是我们博客园另外一位博友java_my_life。目前市面上讲解设计模式的书很多,虽然我前面讲了看书是最好的,但是对设计模式感兴趣的朋友们,我推荐的是这个博客。这位博友的设计模式讲得非常非常好,我认为90%的内容都是没有问题且很值得学习的,其讲解设计模式的大体路线是:1、随便开篇点明该设计模式的定义2、图文并茂讲解该设计模式中的结构3、以详细的代码形式写一下该种设计模式的实现4、补充内容5、讲解该设计模式的优缺点对于一个设计模式我们关注、学习的知识点,不就是上面这些吗?不 过我要重点提醒一下网友们,同一种设计模式的写法有多种,并不是说只有按某种写法来写才是这种设计模式。比方说适配器模式,我们关注适配器模式一定要关注 的是什么是适配器模式不是怎么写适配器模式,不要认为某段代码不是按照适配器模式的写法写下来的它就不是适配器模式了,记住这一点,你在学习设计模式的时 候一定会对代码中用到的设计模式有更深入的理解。《深入理解Java虚拟机:JVM高级特性与最佳实践》如果你不满足于做一个只会写if…else…的Java程序员,而是希望更进一步,我随便举几个例子吧:1、了解Java代码的底层运行机制2、定位性能问题3、对整个系统进行性能调优4、解决各种奇奇怪怪的线上线下问题5、更加高级别的,为自己的项目量身定做一款适合自己项目的虚拟机那 么Java虚拟机是你必学的一门技术。《深入理解Java虚拟机:JVM高级特性与最佳实践》作者是周志明,这本书可以说是国内写得最好的有关Java虚 拟机的书籍,近半年,前前后后这本书我起码看了有5遍。国内写虚拟机的书除了这本,其实还有一些其他的,我也买过,不过粗略看下来,很多内容也是《深入理 解Java虚拟机:JVM高级特性与最佳实践》此书里面的。另外值得一提的是,《深入理解Java虚拟机:JVM高级特性与最佳实践》这本 书,有电子版的,网上搜一下就能下载到了。不过建议有兴趣的朋友还是去买书看,电子版本下载到的一般是比较老的版本,相比最新修订版的《深入理解Java 虚拟机:JVM高级特性与最佳实践》,有很多作者新补充的知识点是没有的。《HotSpot实战》所有的Java虚拟机都是遵循着Java虚拟机规范来的,市面上的Java虚拟机几十款,《深入理解Java虚拟机:JVM高级特性与最佳实践》一书里面讲的虚拟机并不针对某种特定的虚拟机,而是从Java虚拟机规范的角度来讲解Java虚拟机。我们平时使用的乃至商用的大多数Java虚拟机都是Sun公司的HotSpot,大家cmd进入命令行,使用”java -version”命令就可以看到了。如果希望在Java虚拟机规范的基础上更加深入地去理解虚拟机的一些细节是怎么实现的,就可以看一下《HotSpot实战》一书,作者是陈涛。不过由于HotSpot的源码都是C/C++写的,所以要求读者有非常好的C/C++基础,如果对这两门语言不是很熟悉的朋友,看这本书可能对你帮助不是很大。最后提一句,如果有兴趣的朋友,不妨先去网上下载一个openJDK,HotSpot的源码就在里面。《Java并发编程实战》这本书常常被列入Java程序员必读十大书籍排行榜前几位,不过个人不是很推荐这本书。《Java并发编程实战》作者是Brian Goetz,怎么说呢,这本书前前后后我也看了两遍左右,个人感受是:1、文字多代码少2、讲解多实践少我 觉得这可能就是老外写书的特点吧,因为Java是北美国家(加拿大、美国)开发和维护的,所以老外对Java方方面面的理论知识体系都掌握得是非常清楚和 透彻的。翻开这本书看,多线程什么用、什么是死锁、什么是竞争、什么是线程安全等等,方方面面的知识点都用大量的文字篇幅讲解,不免让人感觉十分枯燥,也 难让读者有实质性的进步。我这本书看了两遍也属于一目十行意思,有兴趣的地方就重点看一下。无论如何,作为一本常常位于Jva程序员必读十大书籍排行榜前几名的书,还是一定要推荐给大家的。《java多线程编程核心技术》《Java多线程编程核心技术》作者高洪岩。想要学习多线程的朋友,这本书是我大力推荐的,我的个人博客里面二十多篇的多线程博文都是基于此书,并且在这本书的基础上进行提炼和总结而写出来的。此书和《Java并发编程实战》 相反,这本书的特点是大篇幅的代码+小篇幅的精讲解,可能这和中国人写的书比较偏向实用主义的风格有关。本书关于线程安全、synchronized、 Reentrant、Timer等等都用详细的代码进行了讲解,而且每个大知识点下的多个小知识点都会详细讲解到,非常有实践价值。有兴趣的朋友们,我相信只要你们跟着这本书里面的代码敲、运行、思考,三步走,对于多线程的使用与理解一定会进几大步。不 过这本书的缺点就是对于Java并发包下的一些类像CountDownLatch、Semphore、CyclicBarrier、Future、 Callable等都没有讲到,重点的CAS和AQS也没有触及,重点类的实现原理也没有提。当然,这很深入了,在学习了这本书之后如果能再去对这些知识 进行一些学习、研究的话,你一定会慢慢成长为一个很厉害的多线程高手。《Effective Java中文版》这是唯一一本我没有买的书。初识这本书,是在我的博文Java代码优化(长期更新)里面,底下评论的时候有朋友提到了这本书,当时我说要去买,不过这两个月一直都没时间去逛书店,甚是遗憾,之后肯定会找时间去买这本书的。《Effective  Java中文版》的作者是Joshua   Bloch,这个人就很厉害了,他是谷歌的首席架构师,属于超级技术大牛级别了吧,呵呵。由于没有看过这本书,所以我不好发表评论,但是从这本书的知名度 以及其作者的来头来看(多提一句,这本书也是Java之父James Gosling博士推崇的一本书),我相信这一定是一本值得一看的好书。好 的代码是每个Java程序员都应该去追求的,不是说我今天写一段好代码相比写一段烂代码对性能会有多大的提升,更多的应该是提升了代码的可读性以及可以规 避许多潜在的、未知的问题,避免代码上线之后出问题而花时间去维护—-无论从时间成本、人力成本还是风险成本来说,这都是非常高的。《深入分析Java Web技术内幕》《深入分析Java Web技术内幕》,作者许令波,淘宝工程师。这本书我用一个字概括就是:全。真的非常全,HTTP、DNS、CDN、静态化、Jetty、Tomcat、Servlet、Spring、MyBatis等等,什么都有,涉及知识面非常广,但又不像专门精讲某个知识点的书籍一样讲得非常深入,感觉这本书就是尽量去用短的篇幅讲清楚一些Java Web使用到的技术的内幕,让读者对这些知识点的技术内幕有一个理性的认识。不过,尽管每个知识点的篇幅都不多,但是重点都基本讲到了,是一本让人真正有收获的书。如果想进一步了解这些技术的技术内幕,就要自己去买相关书籍或者自己上网查资料了,有种抛砖引玉,或者说师傅领进门、修行在个人的感觉。《大型网站技术架构 核心原理与案例分析》一个字评价这本书,屌;两个字评价这本书,很屌;三个字评价这本书,非常屌。呵呵,好了,再说下去可能别人以为我是水军了。《大型网站技术架构 核心原理与案例分析》的作者是李智慧,原阿里巴巴技术专家。Java 的大多数应用都是用在Web上的,现在只要稍微大型一点的Web应用,都一定是一个分布式系统,那么一个分布式系统用到了哪些技术?一个大型网站是如何从 一个小型网站成长起来的?如何保证你的网站安全?分布式系统使用到了缓存,有哪些缓存?缓存的使用有哪些值得注意的事项?关 于分布式的知识点,都在这本书里面有体现,只有你想不到,没有他写不到,而且写得非常易懂,基本属于看一两遍,再记一些笔记就知道是怎么一回事儿了。多看 几遍,对分布式的理解一定会加深不少。而且里面不仅仅是分布式的知识,还非常接地气地写了如何做一个好的架构师,其实我认为这不仅仅是写给想做架构师的读 者看的,就是给读者一些建议,如何更好地提出意见、如何更让别人关注你的声音、如何看到他人的优点,入木三分,让人获益匪浅。《大型网站系统与Java中间件实践》《大型网站系统与Java中间件实践》作者曾宪杰,是淘宝的技术总监,算起来应该在阿里有至少P8的级别了吧。这本书的部分内容和上面一本李智慧的《大型网站技术架构 核心原理与案例分析》有所重合,像分布式系统的演化、CDN、CAP理论和BASE理论等等,这也更说明这些都是分布式系统或者说是一个大型网站重点关注的内容,当作一次再学习也不错。本书要突出的重点是中间件三个字,中间件是分布式系统中一个非常重要的东西,其最重要的作用应该就是解耦,降低模块与模块之间的强依赖,不同的模块之间的依赖度降低,便可以各自独立地开发自己的功能,这也可以说是软件工程发展的目标和驱动力。因此,本书有一部分的内容就是基于中间件,详细讲解了中间件与JMS的各种知识,适合对分布式系统比较熟悉并且想要往中间件方面有一定研究的读者。《从Paxos到ZooKeeper 分布式一致性原理与实践》《从Paxos到ZooKeeper 分布式一致性原理与实践》,作者倪超,阿里巴巴工程师。这本书是我最近在研读的一本书,和上面的《大型网站系统与Java中间件实践》一样,属于分布式组件的范畴,属于有些深入的内容,当然也是我自己的个人兴趣。当然,如果有志向做一个出色的大型网站架构师、公司的技术总监之类,这些知识当然是必须掌握的。本书从分布式系统基本理论开始讲起,讲到Paxos算法,最后慢慢引入到Zookeeper,循序渐进。当然,更多的我目前还不方便发表什么看法,因为这本书的第二张Paxos算法我都还没有弄懂(Paxos算法确实有些难以理解和不太易懂),接下来的章节还没有看下去。如果网友们所在的公司在使用Zookeeper,并且你又对Zookeeper感兴趣想要研究一下它的原理的,这本书将是不二之选。《MySQL5.6从零开始学》《MySQL5.6从零开始学》,作者刘增杰和李坤。作为一名Java程序员,我认为我们千万不要觉得数据库是DBA的事情,数据库对一个Java程序员来说也是必须掌握的一门知识,丰富的数据库性能优化经验是一个顶尖程序员必备技能。目前主流的数据库有Oracle和MySQL,当然推荐大家的是MySQL,主要原因我认为有两点:1、MySQL相比Oracle更轻量级、更小、安装和卸载更方便,SQL其实都是差不多的,如果想学数据库,学MySQL就可以了,在家里面可以自己方便地研究,如果你的公司使用Oracle,只要再用对比学习法,关注一下Oracle和MySQL的差别即可2、随着2009年阿里巴巴去IOE的运动的进行,目前国内的很多互联网公司都会选择MySQL作为它们使用的数据库,因为MySQL免费,所以既省钱又不需要出了问题就依赖甲骨文公司MySQL学习我推荐的是这本我自己学习看的《MySQL5.6从零开始学》,我是觉得挺好的这本书,书里面的知识点很细致、很全面,读者选择书籍的标准大多不就是这两点吗?《Spring源码深度解析》《Spring源码深度解析》,作者郝佳。Spring 这个框架做得太好了,功能太强大了,以至于很多开发者都只知Spring,不知什么是工厂、什么是单例、什么是代理(我面试别人的真实体会)。这种功能强 大的框架内部一定是很复杂的实现,这就导致一旦你的程序使用Spring,出了问题,可能是Error、可能是Exception、可能是程序运行结果不 是你的预期的,出现诸如此类问题的时候,将会让你感到困惑,除了上网查资料或者问别人似乎没有更好的解决办法。研读Spring的源代码不失为一种很好的学习方法,我个人认为这有很多好处:1、理解框架内部的实现之后,可以主动去解决问题,而不需要依赖别人2、Spring框架内部实现用到了很多设计模式,很好的代码设计思路,这将会对你写代码、对你理解设计模式有很大的提高3、研究Spring框架将会大大增强你读代码的能力,我相信只要你能研究清楚Spring内部是如何实现的,其他任何一个框架的源代码都难不倒你总而言之,我认为读代码的能力是一个普通的程序员和一个好的程序员之间最大的差别之一,前者只会把别人写好的东西拿来用,后者不仅能用好,还清楚知道别人写好的东西底层是如何实现的,在出现问题的时候可以轻松解决。Spring源代码,个人推荐《Spring源码深度解析》一书,真要研究透并且写清楚Spring源代码,恐怕三四本书都不够,作者在近400页的篇幅中尽量去讲解Spring源代码是如何实现的,殊为不易,尽管无法讲得完全,但是相信作者的讲解配合上读者自己的研究,一定可以对Spring的实现有更深度的理解。后记以 上就是我推荐给Java开发者们的一些值得一看的好书。但是这些书里面并没有Java基础、Java教程之类的书,不是我不推荐,而是离我自己学习 Java基础技术也过去好几年了,我学习的时候看的什么也忘了,所以我不能不负责任地推荐一些我自己都没有看过的书给大家。对于Java基础知识的学习, 我提两点建议吧:1、多写多敲代码,好的代码与扎实的基础知识一定是实践出来的2、可以去尚学堂下载一下马士兵的视频来学习一下Java基础,还挺不错的,如果尚学堂官网上下载不了可以底下回复,我的电脑里有最后,每一位读到这里的网友,感谢你们能耐心地看完。希望在成为一名更优秀的Java程序员的道路上,我们可以一起学习、一起进步。
01-29
2018
爬虫需谨慎,你不知道的爬虫与反爬虫套路!
面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。爬虫与反爬虫,是一个很不阳光的行业。这里说的不阳光,有两个含义。第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。第二是,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历。面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。然而这就是程序员的宿命。不管这个行业有多么的不阳光,依然无法阻挡大量的人进入这个行业,因为有公司的需求。那么,公司到底有什么样的需求,导致了我们真的需要爬虫/反爬虫呢?反爬虫很好理解,有了爬虫我们自然要反爬虫。对于程序员来说,哪怕仅仅是出于“我就是要证明我技术比你好”的目的,也会去做。对于公司来说,意义更加重大,最少,也能降低服务器负载,光凭这一点,反爬虫就有充足的生存价值。那么爬虫呢?最早的爬虫起源于搜索引擎。搜索引擎是善意的爬虫,可以检索你的一切信息,并提供给其他用户访问。为此他们还专门定义了 robots.txt 文件,作为君子协定,这是一个双赢的局面。然而事情很快被一些人破坏了,爬虫很快就变的不再“君子”了。后来有了“大数据”,无数的媒体鼓吹大数据是未来的趋势,吸引了一批又一批的炮灰去创办大数据公司。这些人手头根本没有大数据,他们的数据只要用一个 U 盘就可以装的下,怎么好意思叫大数据呢?这么点数据根本忽悠不了投资者,于是他们开始写爬虫,拼命地爬取各个公司的数据。很快他们的数据,就无法用一个 U 盘装下了。这个时候终于可以休息休息,然后出去吹嘘融资啦。然而可悲的是,大容量 U 盘不断地在发布,他们总是在拼命地追赶存储增加的速度。以上是爬虫与反爬虫的历史,下面通过四个方面深入谈下爬虫与反爬虫:爬虫反爬虫运行现状爬虫反爬虫技术现状爬虫反爬虫套路现状爬虫反爬虫的未来爬虫反爬虫运行现状电子商务行业的爬虫与反爬虫更有趣一些,最初的爬虫需求来源于比价。这是某些电商网站的核心业务,大家买商品的时候,是一个价格敏感型用户的话,很可能用过网上的比价功能(真心很好用啊)。毫无悬念,他们会使用爬虫技术来爬取所有相关电商的价格。他们的爬虫还是比较温柔的,对大家的服务器不会造成太大的压力。然而,这并不意味着大家喜欢被他爬取,毕竟这对其他电商是不利的,于是需要通过技术手段来做反爬虫。按照技术人员的想法,对方用技术怼过来,我们就要用技术怼回去,不能怂啊。这个想法是很好的,但是实际应用起来根本不是这么回事。诚然,技术是很重要的,但是实际操作上,更重要的是套路。谁的套路更深,谁就能玩弄对方于鼓掌之中。谁的套路不行,有再好的技术,也只能被耍的团团转。这个虽然有点伤技术人员的自尊,然而,我们也不是第一天被伤自尊了。大家应该早就习惯了吧。真实世界的爬虫比例大家应该听过一句话吧,大概意思是说,整个互联网上大概有 50% 以上的流量其实是爬虫。第一次听这句话的时候,我还不是很相信,我觉得这个说法实在是太夸张了。怎么可能爬虫比人还多呢? 爬虫毕竟只是个辅助而已。现在做了这么久的反爬虫,我依然觉得这句话太夸张了。50%?你在逗我?就这么少的量?举个例子,某公司,某个页面的接口,每分钟访问量是 1.2 万左右,这里面有多少是正常用户呢?50%?60%?还是?正确答案是:500 以下。也就是说,一个单独的页面,12000 的访问量里,有 500 是正常用户,其余是爬虫。注意,统计爬虫的时候,考虑到你不可能识别出所有的爬虫,因此,这 500 个用户里面,其实还隐藏着一些爬虫。那么爬虫率大概是:(12000-500)/12000=95.8%。这个数字你猜到了吗?这么大的爬虫量,这么少的用户量,大家到底是在干什么?是什么原因导致了明明是百人级别的生意,却需要万级别的爬虫来做辅助? 95% 以上,19 保 1?答案可能会相当令人喷饭,这些爬虫大部分是由于决策失误导致的。哭笑不得的决策思路举个例子,这个世界存在 3 家公司,售卖相同的电商产品,三家公司的名字分别是 A,B,C。这个时候,客户去 A 公司查询了下某商品的价格,看了下发现价格不好,于是他不打算买了,他对整个行业的订单贡献为 0。然而 A 公司的后台会检测到,我们有个客户流失了,原因是他来查询了一个商品,这个商品我们的价格不好,没关系,我去爬爬别人试试。于是他分别爬取了 B 公司和 C 公司,B 公司的后台检测到有人来查询价格,但是呢,最终没有下单。他会认为,嗯,我们流失了一个客户。怎么办呢?我可以爬爬看,别人什么价格。于是他爬取了 A 和 C,C 公司的后台检测到有人来查询价格。。。。。过了一段时间,三家公司的服务器分别报警,访问量过高。三家公司的 CTO 也很纳闷,没有生成任何订单啊,怎么访问量这么高?一定是其他两家禽兽写的爬虫没有限制好频率。妈的,老子要报仇!于是分别做反爬虫,不让对方抓自己的数据。然后进一步强化自己的爬虫团队抓别人的数据。一定要做到:宁叫我抓天下人,休叫天下人抓我。然后,做反爬虫的就要加班天天研究如何拦截爬虫,做爬虫的被拦截了,就要天天研究如何破解反爬虫策略。大家就这么把资源全都浪费在没用的地方了,直到大家合并了,才会心平气和的坐下来谈谈,都少抓点。最近国内的公司有大量的合并,我猜这种“心平气和”应该不少吧?爬虫反爬虫技术现状下面我们谈谈,爬虫和反爬虫分别都是怎么做的。为 Python 平反首先是爬虫,爬虫教程你到处都可以搜的到,大部分是 Python 写的。我曾经在一篇文章提到过:用 Python 写的爬虫是最薄弱的,因为天生并不适合破解反爬虫逻辑,因为反爬虫都是用 JavaScript 来处理。然而慢慢的,我发现这个理解有点问题(当然我如果说我当时是出于工作需要而有意黑 Python,你们信吗。。。)。Python 的确不适合写反爬虫逻辑,但是 Python 是一门胶水语言,他适合捆绑任何一种框架。而反爬虫策略经常会变化的翻天覆地,需要对代码进行大刀阔斧的重构,甚至重写。这种情况下,Python 不失为一种合适的解决方案。 举个例子,你之前是用 selenium 爬取对方的站点,后来你发现自己被封了,而且封锁方式十分隐蔽,完全搞不清到底是如何封的,你会怎么办?你会跟踪 selenium 的源码来找到出错的地方吗?你不会,你只会换个框架,用另一种方式来爬取,然后你就把两个框架都浅尝辄止地用了下,一个都没有深入研究过。因为没等你研究好,也许人家又换方式了,你不得不再找个框架来爬取。毕竟,老板等着明天早上开会要数据呢。老板一般都是早上八九点开会,所以你七点之前必须搞定。等你厌倦了,打算换个工作的时候,简历上又只能写“了解 n 个框架的使用”,仅此而已。 这就是爬虫工程师的宿命,爬虫工程师比外包还可怜。外包虽然不容易积累技术,但是好歹有正常上下班时间,爬虫工程师连这个权利都没有。 然而反爬虫工程师就不可怜了吗?也不是的,反爬虫有个天生的死穴,就是:误伤率。 无法绕开的误伤率我们首先谈谈,面对对方的爬虫,你的第一反应是什么?如果限定时间的话,大部分人给我的答案都是:封杀对方的 IP。然而,问题就出在,IP 不是每人一个的,大的公司有出口 IP,ISP 有的时候会劫持流量让你们走代理,有的人天生喜欢挂代理,有的人为了翻墙 24 小时挂 VPN。最坑的是,现在是移动互联网时代,你如果封了一个 IP?不好意思,这是中国联通的 4G 网络,5 分钟之前还是别人,5 分钟之后就换人了哦!因此,封 IP 的误伤指数最高,并且,效果又是最差的,因为现在即使是最菜的新手,也知道用代理池了。你们可以去淘宝看下,几十万的代理价值多少钱?我们就不谈到处都有的免费代理了。也有人说:我可以扫描对方端口,如果开放了代理端口,那就意味着是个代理,我就可以封杀了呀。 事实是残酷的,我曾经封杀过一个 IP,因为他开放了一个代理端口,而且是个很小众的代理端口。不出一天就有人来报事件,说我们一个分公司被拦截了,我一查 IP,还真是我封的 IP。我就很郁闷地问他们 IT,开这个端口干什么?他说做邮件服务器啊。我说为啥要用这么奇怪的端口?他说,这不是怕别人猜出来么?我就随便取了个。扫描端口的进阶版,还有一种方式,就是去订单库查找这个 IP 是否下过订单,如果没有,那么就是安全的;如果有,那就不安全,有很多网站会使用这个方法。然而这只是一种自欺欺人的办法而已,只需要下一单,就可以永久洗白自己的 IP,天下还有比这更便宜的生意吗?因此,封 IP,以及封 IP 的进阶版:扫描端口再封 IP,都是没用的。根本不要考虑从 IP 下手,因为对手会用大量的时间考虑如何躲避 IP 封锁,你干嘛和人家硬碰呢?这没有任何意义。那么,下一步你会考虑到什么?很多站点的工程师会考虑:既然没办法阻止对方,那我就让它变的不可读吧。我会用图片来渲染关键信息,比如价格。这样,人眼可见,机器识别不出来。 这个想法曾经是正确的,然而,坑爹的技术发展,带给我们一个坑爹的技术,叫机器学习。顺便带动了一个行业的迅猛发展,叫 OCR。很快,识别图像就不再是任何难题了,甚至连人眼都很难识别的验证码,有的 OCR 都能搞定,比我肉眼识别率都高。更何况,现在有了打码平台,用资本都可以搞定,都不需要技术。那么,下一步你会考虑什么?这个时候,后端工程师已经没有太多的办法可以搞了。 不过后端搞不定的事情,一般都推给前端啊,前端从来都是后端搞不定问题时的背锅侠。多少年来我们都是这么过来的,前端工程师这个时候就要勇敢地站出来了:“都不要得瑟了,来比比谁的前端知识牛逼,你牛逼我就让你爬。”我不知道这篇文章的读者里有多少前端工程师,我只是想顺便提一下:你们以后将会是更加抢手的人才。前端工程师的逆袭我们知道,一个数据要显示到前端,不仅仅是后端输出就完事了,前端要做大量的事情,比如取到 json 之后,至少要用 template 转成 html 吧?这已经是步骤最少最简单的了,然后你总要用 css 渲染下吧? 这也不是什么难事。等等,你还记得自己第一次做这个事情的时候的经历吗?真的,不是什么难事吗?有没有经历过,一个 html 标签拼错,或者没有闭合,导致页面错乱?一个 css 没弄好,导致整个页面都不知道飘到哪去了?这些事情,你是不是很想让别人再经历一次?这件事情充分说明了:让一个资深的前端工程师来把事情搞复杂一点,对方如果配备了资深前端工程师来破解,也需要耗费 3 倍以上的时间。毕竟是读别人的代码,别人写代码用了一分钟,你总是要读两分钟,然后骂一分钟吧?这已经算很少的了。如果对方没有配备前端工程师。。。那么经过一段时间,他们会成长为前端工程师。之后,由于前端工程师的待遇比爬虫工程师稍好一些,他们很快会离职做前端,既缓解了前端人才缺口,又可以让对方缺人,重招。而他们一般是招后端做爬虫,这些人需要再接受一次折磨,再次成长为前端工程师,这不是很好的事情吗?所以,如果你手下的爬虫工程师离职率很高,请仔细思考下,是不是自己的招聘方向有问题。那么前端最坑爹的技术是什么呢?前端最坑爹的,也是最强大的,就是我们的:JavaScript。JavaScript 有大量的花样可以玩,毫不夸张的说,一周换一个 feature(Bug)给对方学习,一年不带重样的。这个时候你就相当于一个面试官,对方要通过你的面试才行。举个例子,在 Array.prototyp e里,有没有 map 啊?什么时候有啊?你说你是 xx 浏览器,那你这个应该是有还是应该没有啊?你说这个可以有啊?可是这个真没有啊。那[]能不能在 string 里面获取字符啊?哪个浏览器可以哪个不行啊?咦!你为什么支持 WebKit 前缀啊?等等,刚刚你还支持怎么现在不支持了啊?你声明的不对啊。这些对于前端都是简单的知识,已经习以为常了,但是对于后端来说简直就是噩梦。然而,前端人员自己作死,研究出了一个东西,叫:Nodejs。基于 V8,秒杀所有的 js 运行。不过 Nodejs 实现了大量的 feature,都是浏览器不存在的,你随随便便访问一些东西(比如你为什么会支持 process.exit),都会把 node 坑的好惨好惨。而且浏览器里的 js,你拉到后台用 Nodejs 跑,你是不是想到了什么安全漏洞?这个是不是叫,代码与数据混合?如果他在 js 里跑点恶心的代码,浏览器不支持但是 node 支持怎么办?还好,爬虫工程师还有 phantomjs。但是,你怎么没有定位啊? 哈哈,你终于模拟出了定位。但是不对啊,根据我当前设置的安全策略你现在不应该能定位啊?你是怎么定出来的?连 phantomjs 的作者自己都维护不下去了,你真的愿意继续用吗?当然了,最终,所有的反爬虫策略都逃不脱被破解的命运。但是这需要时间,反爬虫需要做的就是频繁发布,拖垮对方。如果对方两天可以破解你的系统,你就一天一发布,那么你就是安全的。这个系统甚至可以改名叫做“每天一道反爬题,轻轻松松学前端”。误伤,还是误伤这又回到了我们开始提到的“误伤率”的问题了。我们知道,发布越频繁,出问题的概率越高。那么,如何在频繁发布的情况下,还能做到少出问题呢?此外还有一个问题,我们写了大量的“不可读代码”给对方,的确能给对方造成大量的压力,但是,这些代码我们自己也要维护啊。如果有一天忽然说,没人爬我们了,你们把代码下线掉吧。这个时候写代码的人已经不在了,你们怎么知道如何下线这些代码呢?这两个问题我暂时不能公布我们的做法,但是大家都是聪明人,应该都是有自己的方案的,软件行业之所以忙的不得了,无非就是在折腾两件事,一个是如何将代码拆分开,一个是如何将代码合并起来。关于误伤率,我只提一个小的 tip:你可以只开启反爬虫,但是不拦截,先放着,发统计信息给自己,相当于模拟演练。等统计的差不多了,发现真的开启了也不会有什么问题,那就开启拦截或者开启造假。这里就引发了一个问题,往往一个公司的各个频道,爬取难度是不一样的。原因就是,误伤检测这种东西与业务相关,公司的基础部门很难做出通用的,只能各个部门自己做,甚至有的部门做了有的没做。因此引发了爬虫界一个奇葩的通用做法:如果 PC 页面爬不到,就去 H5 试试,如果 H5 很麻烦,就去 PC 碰碰运气。爬虫反爬虫套路现状那么一旦有发现对方数据造假怎么办?早期的时候,大家都是要抽查数据,通过数据来检测对方是否有造假,这个需要人工核对,成本非常高。可是那已经是洪荒时代的事情了。如果你们公司还在通过这种方式来检测,说明你们的技术还比较落伍。之前我们的竞争对手是这么干的:他们会抓取我们两次,一次是他们解密出来 key 之后,用正经方式来抓取,这次的结果定为 A。一次是不带 key,直接来抓,这次的结果定为 B。根据前文描述,我们可以知道,B 一定是错误的。那么如果 A 与 B 相等,说明自己中招了,这个时候会停掉爬虫,重新破解。不要回应所以之前有一篇关于爬虫的文章,说如何破解我们的。一直有人要我回复下,我一直觉得没什么可以回复的。第一,反爬虫被破解了是正常的。这个世界上有个万能的爬虫手段,叫“人肉爬虫”。假设我们就是有钱,在印度开个分公司,每天雇便宜的劳动力用鼠标直接来点,你能拿我怎么办?第二,我们真正关心的是后续的这些套路。而我读了那篇文章,发现只是调用了selenium并且拿到了结果,就认为自己成功了。我相信你读到这里,应该已经明白为什么我不愿意回复了。我们最重要的是工作,而不是谁打谁的脸。大家如果经常混技术社区就会发现,每天热衷于打别人脸的,一般技术都不是很好。当然这并不代表我们技术天下第一什么的,我们每天面对大量的爬虫,还是遇到过很多高手的。就如同武侠小说里一样,高手一般都比较低调,他们默默地拿走数据,很难被发现,而且频率极低,不会影响我们的考评。你们应该明白,这是智商与情商兼具的高手了。我们还碰到拉走我们 js,砍掉无用的部分直接解出 key,相当高效不拖泥带水的爬虫,一点废请求都没有(相比某些爬虫教程,总是教你多访问,写没用的 url 免得被发现,真的不知道高到哪里去了。这样做除了会导致机器报警,导致对方加班封锁以外,对你自己没有任何好处)。而我们能发现这一点仅仅是是因为他低调地写了一篇博客,通篇只介绍技术,没有提任何没用的东西。这里我只是顺便发了点小牢骚,就是希望后续不要总是有人让我回应一些关于爬虫的文章。线下我认识很多爬虫工程师,水平真的很好,也真的很低调(不然你以为我是怎么知道如何对付爬虫的。。。),大家都是一起混的,不会产生“一定要互相打脸”的情绪。进化早期我们和竞争对手打的时候,双方的技术都比较初级。后来慢慢的,爬虫在升级,反爬虫也在升级,这个我们称为“进化”。我们曾经给对方放过水,来试图拖慢他们的进化速度,然而,效果不是特别理想。爬虫是否进化,取决于爬虫工程师自己的 KPI,而不是反爬虫的进化速度。后期打到白热化的时候,用的技术越来越匪夷所思。举个例子,很多人会提,做反爬虫会用到 canvas 指纹,并认为是最高境界。其实这个对于反爬虫来说也只是个辅助,canvas 指纹的含义是,因为不同硬件对 canvas 支持不同,因此你只要画一个很复杂的 canvas,那么得出的 image,总是存在像素级别的误差。考虑到爬虫代码都是统一的,就算起 selenium,也是 Ghost 的,因此指纹一般都是一致的,因此绕过几率非常低。但是!这个东西天生有两个缺陷。第一是,无法验证合法性。当然了,你可以用非对称加密来保证合法,但是这个并不靠谱。其次,canvas 的冲突概率非常高,远远不是作者宣称的那样,冲突率极低。也许在国外冲突是比较低,因为国外的语言比较多。但是国内公司通常是 IT 统一装机,无论是软件还是硬件都惊人的一致。我们测试 canvas 指纹的时候,在携程内部随便找了 20 多台机器,得出的指纹都完全一样,一丁点差别都没有。因此,有些“高级技巧”一点都不实用。法律途径此外就是大家可能都考虑过的:爬虫违法吗?能起诉对方让对方不爬吗?法务给的答案到是很干脆,可以,前提是证据。遗憾的是,这个世界上大部分的爬虫爬取数据是不会公布到自己网站的,只是用于自己的数据分析。因此,即使有一些关于爬虫的官司做为先例,并且已经打完了,依然对我们没有任何帮助。反爬虫,在对方足够低调的情况下,注定还是个技术活。搞事情,立 Flag到了后来,我们已经不再局限于打打技术了,反爬虫的代码里我们经常埋点小彩蛋给对方,比如写点注释给对方。双方通过互相交战,频繁发布,居然聊的挺 high 的。比如问问对方,北京房价是不是很高啊?对方回应,欧巴,我可是凭本事吃饭哦。继续问,摇到号了吗?诸如此类等等。这样的事情你来我往的,很容易动摇对方的军心,还是很有作用的。试想一下,如果你的爬虫工程师在大年三十还苦逼加班的时候,看到对方留言说自己拿到了 n 个月的年终奖,你觉得你的工程师,离辞职还远吗?最后,我们终于搞出了大动作,觉得一定可以坑对方很久了。我们还特意去一家小火锅店吃了一顿,庆祝一下,准备明天上线。大家都知道,一般立 Flag 的下场都比较惨的,两个小时的自助火锅,我们刚吃五分钟,就得到了我们投资竞争对手的消息。后面的一个多小时,团队气氛都很尴尬,谁也说不出什么话。我们组有个实习生,后来鼓足勇气问了我一个问题:“我还能留下来吗?”毕竟,大部分情况下,技术还是要屈服于资本的力量。爬虫反爬虫的未来与竞争对手和解之后,我们去拜访对方,大家坐在了一起。之前网上自称妹子的,一个个都是五大三粗的汉子,这让我们相当绝望。在场唯一的一个妹子还是我们自己带过去的(就是上面提到的实习生),感觉套路了这么久,最终还是被对方套路了。好在,吃的喝的都很好,大家玩的还是比较 high 的。后续就是和平年代啦,大家不打仗了,反爬虫的逻辑扔在那做个防御,然后就开放白名单允许对方爬取了。群里经常叫的就是:xxx 你怎么频率这么高,xxx 你为什么这个接口没给我开放,为什么我爬的东西不对我靠你是不是把我封了啊,诸如此类的。和平年代的反爬虫比战争年代还难做,因为战争年代,误伤率只要不是太高,公司就可以接受。和平年代大家不能搞事情,误伤率稍稍多一点,就会有人叫:好好的不赚钱,瞎搞什么搞。此外,战争年代只要不拦截用户,就不算误伤。和平年代还要考虑白名单,拦截了合作伙伴也是误伤,因此各方面会更保守一些。不过,总体来说还是和平年代比较 happy,毕竟,谁会喜欢没事加班玩呢。然而和平持续的不是很久,很快就有了新的竞争对手选择爬虫来与我们打,毕竟,这是一个利益驱使的世界。只要有大量的利润,资本家就会杀人放火,这不是我们这些技术人员可以决定的,我们希望天下无虫,但是我们又有什么权利呢。好在,这样可以催生更多的职位,顺便提高大家的身价,也算是个好事情吧。
01-31
2018
webrtc中rtcp反馈与码率控制模块分析
0. 参考文档1 google congestion control1. 简介webrtc的带宽估计分为两部分,一部分为发送端根据rtcp反馈信息进行反馈,另一部分为接收端根据收到的rtp数据进行相应的码率估计[1]。 本文先分析发送端根据rtcp反馈信息进行码率调整的部分代码。具体计算公式: 2. 代码结构2.1 类关系rtp_stream_receiver中有一个继承自抽象类RtpRtcp的ModuleRtpRtcpImpl,ModuleRtpRtcpImpl中有一个rtcp_receiver。当有RTCP包到来时,逐层处理至rtcp_receiver,当包是rtcp receiver report包,则会将包解析,然后在ModuleRtpRtcpImpl中再次调用rtcp_receiver中的TriggerCallbacksFromRTCPPacket函数,触发对应rtcp的一些事件,反馈触发的主要是_cbRtcpBandwidthObserver的观察者(RtcpBandwidthObserverImpl),这个观察者收到对应的report block之后会计算成带宽估计所需要的参数,并调用属主bitratecontrolImpl类对带宽进行估计,这里会调用SendSideBandwidthEstimation中的UpdateReceiverBlock进行实际的带宽评估。2.2 调用关系图3. 代码分析3.1 HandleReportBlock这个函数中最主要的部分就是RTT的计算,webrtc中对于RTT平滑的因子是一个线性增长的因子。/* 这个函数根据对应的report block生成了一个新的RTCPReportBlockInformation结构体,  * 并计算出对应的RTT,多report block在调用点处执行循环。  */ void RTCPReceiver::HandleReportBlock(     const RTCPUtility::RTCPPacket& rtcpPacket,     RTCPPacketInformation& rtcpPacketInformation,     uint32_t remoteSSRC)     EXCLUSIVE_LOCKS_REQUIRED(_criticalSectionRTCPReceiver) {   // This will be called once per report block in the RTCP packet.   // We filter out all report blocks that are not for us.   // Each packet has max 31 RR blocks.   //   // We can calc RTT if we send a send report and get a report block back.   // |rtcpPacket.ReportBlockItem.SSRC| is the SSRC identifier of the source to   // which the information in this reception report block pertains.   // Filter out all report blocks that are not for us.   if (registered_ssrcs_.find(rtcpPacket.ReportBlockItem.SSRC) ==       registered_ssrcs_.end()) {     // This block is not for us ignore it.     return;   }   RTCPReportBlockInformation* reportBlock =       CreateOrGetReportBlockInformation(remoteSSRC,                                         rtcpPacket.ReportBlockItem.SSRC);   if (reportBlock == NULL) {     LOG(LS_WARNING) << "Failed to CreateReportBlockInformation("                     << remoteSSRC << ")";     return;   }   // 用于RTCP超时的计算。   _lastReceivedRrMs = _clock->TimeInMilliseconds();   // 其他字段的拷贝。   const RTCPPacketReportBlockItem& rb = rtcpPacket.ReportBlockItem;   reportBlock->remoteReceiveBlock.remoteSSRC = remoteSSRC;   reportBlock->remoteReceiveBlock.sourceSSRC = rb.SSRC;   reportBlock->remoteReceiveBlock.fractionLost = rb.FractionLost;   reportBlock->remoteReceiveBlock.cumulativeLost =       rb.CumulativeNumOfPacketsLost;   if (rb.ExtendedHighestSequenceNumber >       reportBlock->remoteReceiveBlock.extendedHighSeqNum) {     // We have successfully delivered new RTP packets to the remote side after     // the last RR was sent from the remote side.     _lastIncreasedSequenceNumberMs = _lastReceivedRrMs;   }   reportBlock->remoteReceiveBlock.extendedHighSeqNum =       rb.ExtendedHighestSequenceNumber;   reportBlock->remoteReceiveBlock.jitter = rb.Jitter;   reportBlock->remoteReceiveBlock.delaySinceLastSR = rb.DelayLastSR;   reportBlock->remoteReceiveBlock.lastSR = rb.LastSR;   if (rtcpPacket.ReportBlockItem.Jitter > reportBlock->remoteMaxJitter) {     reportBlock->remoteMaxJitter = rtcpPacket.ReportBlockItem.Jitter;   }   int64_t rtt = 0;   uint32_t send_time = rtcpPacket.ReportBlockItem.LastSR;   // RFC3550, section 6.4.1, LSR field discription states:   // If no SR has been received yet, the field is set to zero.   // Receiver rtp_rtcp module is not expected to calculate rtt using   // Sender Reports even if it accidentally can.   if (!receiver_only_ && send_time != 0) {     // 当RR在SR之前发送,send_time为0.     // delay计算:     // Send SR                                                       Receive RR     //  |                          delay in RR                           |     //  |                        ||                         |     //  ||             ||     //     // RTT = total_time - delay_in_RR     //     = receiver_rr_time - send_sr_time - delay_in_RR     // 即使中间几个SR丢包,但是如果RTT本身是平滑的,那么RTT不会受到这几个丢包的影响     // 因为SR->RR之间的delay可以精确计算。     uint32_t delay = rtcpPacket.ReportBlockItem.DelayLastSR;     // Local NTP time.     uint32_t receive_time = CompactNtp(NtpTime(*_clock));     // RTT in 1/(2^16) seconds.     uint32_t rtt_ntp = receive_time - delay - send_time;     // Convert to 1/1000 seconds (milliseconds).     rtt = CompactNtpRttToMs(rtt_ntp);     if (rtt > reportBlock->maxRTT) {       // Store max RTT.       reportBlock->maxRTT = rtt;     }     if (reportBlock->minRTT == 0) {       // First RTT.       reportBlock->minRTT = rtt;     } else if (rtt < reportBlock->minRTT) {       // Store min RTT.       reportBlock->minRTT = rtt;     }     // Store last RTT.     reportBlock->RTT = rtt;     // store average RTT     // RTT的平滑计算。     // 如果这个块是在CreateOrGetReportBlockInformation新生成的,     // 则权重会从0开始随着受到的report逐渐递增。     // srtt(i) = i/(i+1)*srtt(i-1) + 1/(i+1)*rtt + 0.5     if (reportBlock->numAverageCalcs != 0) {       float ac = static_cast(reportBlock->numAverageCalcs);       float newAverage =           ((ac / (ac + 1)) * reportBlock->avgRTT) + ((1 / (ac + 1)) * rtt);       reportBlock->avgRTT = static_cast(newAverage + 0.5f);     } else {       // First RTT.       reportBlock->avgRTT = rtt;     }     reportBlock->numAverageCalcs++;   }   TRACE_COUNTER_ID1(TRACE_DISABLED_BY_DEFAULT("webrtc_rtp"), "RR_RTT", rb.SSRC,                     rtt);   // 添加回rtcpPacketInformation,在ModuleRtpRtcpImpl中会使用这个进行事件回调。   rtcpPacketInformation.AddReportInfo(*reportBlock); }3.2 UpdateMinHistory这个函数主要用于更新变量min_bitrate_history_,这个变量将会作用于上升区间,用来作为基数,这里简单描述下。// Updates history of min bitrates. // After this method returns min_bitrate_history_.front().second contains the // min bitrate used during last kBweIncreaseIntervalMs. // 主要结合这个函数解释下变量min_bitrate_history_ // 这个变量的两个维度,front记录的是离当前最远的时间, // 每个速率都是按照时间先后顺序逐渐push到尾部。 // 因此更新的时候,需要先将超时的元素从列表头剔除。 // 后一个维度是最小速率值, // 在相同的时间区间内,保留最小的速率值。 // |-------Interval 1---------|----------Interval 2------| // |                          |                          | // |--t1 < t2 < t3 < t4 < t5--|--t1 < t2 < t3 < t4 < t5--| // 这样的操作较为简单,不用在每次插入元素时去判断对应的时间区域,再找到对应时间区间的最小值,用部分冗余的内存换取操作的快捷。 void SendSideBandwidthEstimation::UpdateMinHistory(int64_t now_ms) {   // Remove old data points from history.   // Since history precision is in ms, add one so it is able to increase   // bitrate if it is off by as little as 0.5ms.   while (!min_bitrate_history_.empty() &&          now_ms - min_bitrate_history_.front().first + 1 >              kBweIncreaseIntervalMs) {     min_bitrate_history_.pop_front();   }   // Typical minimum sliding-window algorithm: Pop values higher than current   // bitrate before pushing it.   while (!min_bitrate_history_.empty() &&          bitrate_ <= min_bitrate_history_.back().second) {     min_bitrate_history_.pop_back();   }   min_bitrate_history_.push_back(std::make_pair(now_ms, bitrate_)); }3.3 UpdateEstimate函数UpdateReceiverBlock会根据当前的report block对当前带宽估计的一些变量进行相应的赋值,此外,只有当传输包的数量达到一定数量才会再次触发带宽估计的调整。函数UpdateEstimate是主要用于带宽估计的函数。void SendSideBandwidthEstimation::UpdateEstimate(int64_t now_ms) {   // We trust the REMB and/or delay-based estimate during the first 2 seconds if   // we haven't had any packet loss reported, to allow startup bitrate probing.   if (last_fraction_loss_ == 0 && IsInStartPhase(now_ms)) {     uint32_t prev_bitrate = bitrate_;     // bwe_incoming_是remb更新的值,如果当前无丢包且在启动阶段,直接使用remb的值。     if (bwe_incoming_ > bitrate_)       bitrate_ = CapBitrateToThresholds(now_ms, bwe_incoming_);       ...     }   }   UpdateMinHistory(now_ms);   // Only start updating bitrate when receiving receiver blocks.   // TODO(pbos): Handle the case when no receiver report is received for a very   // long time.   if (time_last_receiver_block_ms_ != -1) {     if (last_fraction_loss_ <= 5) {       // Loss < 2%: Increase rate by 8% of the min bitrate in the last       // kBweIncreaseIntervalMs.       // Note that by remembering the bitrate over the last second one can       // rampup up one second faster than if only allowed to start ramping       // at 8% per second rate now. E.g.:       //   If sending a constant 100kbps it can rampup immediatly to 108kbps       //   whenever a receiver report is received with lower packet loss.       //   If instead one would do: bitrate_ *= 1.08^(delta time), it would       //   take over one second since the lower packet loss to achieve 108kbps.         //TODO:tjl       // 这里与公式有一定不同:       // 1. 系数不同,且附带一定的修正值(向上取整加1kbps)       // 2. 取的是上一个时间间隔之内最小值,比较平滑。       bitrate_ = static_cast(           min_bitrate_history_.front().second * 1.08 + 0.5);       // Add 1 kbps extra, just to make sure that we do not get stuck       // (gives a little extra increase at low rates, negligible at higher       // rates).       bitrate_ += 1000;       event_log_->LogBwePacketLossEvent(           bitrate_, last_fraction_loss_,           expected_packets_since_last_loss_update_);     } else if (last_fraction_loss_  10%: Limit the rate decreases to once a kBweDecreaseIntervalMs +       // rtt.       if (!has_decreased_since_last_fraction_loss_ &&           (now_ms - time_last_decrease_ms_) >=               (kBweDecreaseIntervalMs + last_round_trip_time_ms_)) {         time_last_decrease_ms_ = now_ms;         // Reduce rate:         //   newRate = rate * (1 - 0.5*lossRate);         //   where packetLoss = 256*lossRate;           //TODO:tjl         // 当从未开始降低窗口值,且距离上一次衰减的时间差大于衰减周期加上rtt。         // 其实当前貌似只有这个case下会对这两个变量赋值。         // 这里的last_fraction_loss_是一次统计间隔(一定包数)之间的总丢包率。         // 丢包率的单位是1/256,因此这里是(1 - 丢包率/2) * 当前速率         // 与公式相同。         bitrate_ = static_cast(             (bitrate_ * static_cast(512 - last_fraction_loss_)) /             512.0);         has_decreased_since_last_fraction_loss_ = true;       }       event_log_->LogBwePacketLossEvent(           bitrate_, last_fraction_loss_,           expected_packets_since_last_loss_update_);     }   }   // 在有效范围内修正。   bitrate_ = CapBitrateToThresholds(now_ms, bitrate_); }
01-26
2018
Facebook如何运用机器学习进行亿级用户数据处理
2017年末,Facebook应用机器学习组发布最新论文,对整个Facebook的机器学习软硬件架构进行了介绍。纵览全文,我们也可以从中对Facebook各产品的机器学习策略一窥究竟。论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战,并给出了Facebook的应对策略和解决思路,对相关行业和研究极其有意义。摘要机器学习在Facebook的众多产品和服务中都有着举足轻重的地位。 本文将详细介绍Facebook在机器学习方面的软硬件基础架构,如何来满足其全球规模的运算需求。Facebook的机器学习需求极其繁杂:需要运行大量不同的机器学习模型。这种复杂性已经深深刻在Facebook系统堆栈的所有层面上。此外,Facebook存储的所有数据,有相当大一部分会流经机器学习管道,这样的数据载荷为Facebook的分布式高性能训练流带来巨大的压力。计算需求也非常紧张,在保持用于训练的GPU/CPU平台的同时平衡出大量CPU容量用于实时推理,也带来了异常紧张的。这些问题及其他难题的解决,仍有待我们在跨越机器学习算法、软件和硬件设计上持久而不懈的努力。引言Facebook的使命是“为人类构建社交关系赋能,让世界联系更加紧密”。截至2017年12月,Facebook已经连接了全球超过20亿的人口。同时,过去几年来,机器学习同样在这样一种全球尺度的实际问题上进行着一场革命,包括在机器学习算法创新方面的良性循环,用于模型训练的海量数据以及高性能计算机体系结构的进步。在Facebook上,机器学习几乎在提升用户体验的所有层面都发挥着关键作用,包括诸如新闻推送语音和文本翻译以及照片和实时视频分类的排名等服务。Facebook在这些服务中用到了各种各样的机器学习算法,包括支持向量机,梯度boosted决策树和许多类型的神经网络。本文将介绍Facebook的数据中心架构支持机器学习需求的几个重要层面。其架构包括了内部的“ML-as-a-Service”流,开源机器学习框架,和分布式训练算法。从硬件角度来看,Facebook利用了大量的CPU和GPU平台来训练模型,以便在所需的服务延迟时间内支持模型的训练频率。对于机器学习推理过程,Facebook主要依靠CPU来处理所有主要的服务,而其中神经网络排名服务(比如新闻推送)占据着所有计算负载的大头。Facebook所存储的海量数据中,有一大部分要流经机器学习管道,并且为了提高模型质量,这一部分的数据量还在随着时间推移不断增加。提供机器学习服务所需的大量数据成为了Facebook的数据中心将要在全球规模上面临的挑战。目前已有的可被用来向模型高效地提供数据的技术有,数据反馈和训练的解耦操作,数据/计算协同定位和网络优化。与此同时,Facebook公司这样大的计算和数据规模自身还带来了一个独特的机会。在每天的负载周期内,非高峰期都会空闲出大量可以用来进行分布式训练算法的CPU。Facebook的计算集群(fleet)涉及到数十个数据中心,这样大的规模还提供了一种容灾能力。及时交付新的机器学习模型对于Facebook业务的运营是非常重要的,为了保证这一点,容灾规划也至关重要。展望未来,Facebook希望看到其现有的和新的服务中的机器学习使用频率快速增长。当然,这种增长也将为负责这些服务架构的团队在全球规模的拓展性上带来更加严峻的挑战。尽管在现有平台上优化基础架构对公司是一个重大的机遇,但我们仍然在积极评估和摸索新的硬件解决方案,同时保持对于算法创新的关注。本文(Facebook对机器学习的看法)的主要内容包括:机器学习正在被广泛应用在Facebook几乎所有的服务,而计算机视觉只占资源需求的一小部分。Facebook所需的大量机器学习算法极其繁杂,包括但不限于神经网络我们的机器学习管道正在处理海量的数据,而这会带来计算节点之外的工程和效率方面的挑战。Facebook目前的推理过程主要依靠CPU,训练过程则是同时依靠CPU和GPU。但是从性能功耗比的角度来看,应当不断对新的硬件解决方案进行摸索和评估。全球用户用来使用Facebook的设备每天都可达数亿台,而这会就会提供大量可以用于机器学习任务的机器,例如用来进行大规模的分布式训练。Facebook的机器学习机器学习(ML)是指利用一系列输入来建立一个可调模型,并利用该模型创建一种表示,预测或其他形式的有用信号的应用实例。图1. Facebook的机器学习流程和架构示例图1所示的流程由以下步骤组成,交替执行:建立模型的训练阶段。这个阶段通常离线运行。在应用中运行训练模型的推理阶段,并进行(一组)实时预测。这个阶段是在线执行的。模型进行训练的频率要比推理少得多——推理的时间规模虽然在不断变化,但一般在几天左右。训练也需要相当长的时间来完成,通常是几个小时或几天。同时,根据产品实际需求不同,在线推理阶段每天可能运行达数十万次,而且一般需要实时进行。在某些情况下,特别是对于推荐系统,还需要以这样连续的方式在线进行额外的训练。在Facebook,机器学习的一个显著特征就是有可用于模型训练的海量数据。这个数据的规模会带来很多涉及到整个机器学习架构的影响。使用机器学习的主要服务消息推送消息推送排名算法能够使用户在每次访问Facebook时,最先看到对他们来讲最重要的事情。一般模型会通过训练来确定影响内容排序的各种用户和环境因素。之后,当用户访问Facebook时,该模型会从数千个候选中生成一个最佳推送,它是一个图像和其他内容的个性化集合,以及所选内容的最佳排序。广告广告系统利用机器学习来确定向特定用户显示什么样的广告。通过对广告模型进行训练,我们可以了解用户特征,用户上下文,以前的互动和广告属性,进而学习预测用户在网站上最可能点击的广告。之后,当用户访问Facebook时,我们将输入传递进训练好的模型运行,就能立马确定要显示哪些广告。搜索搜索会针对各种垂直类型(例如,视频,照片,人物,活动等)启动一系列特定的子搜索进程。分类器层在各类垂直类型的搜索之前运行,以预测要搜索的是垂直类型中的哪一个,否则这样的垂直类型搜索将是无效的。分类器本身和各种垂直搜索都包含一个训练的离线阶段,和一个运行模型并执行分类和搜索功能的在线阶段。SigmaSigma是一个分类和异常检测通用框架,用于监测各种内部应用,包括站点的完整性,垃圾邮件检测,支付,注册,未经授权的员工访问以及事件推荐。Sigma包含了在生产中每天都要运行的数百个不同的模型,并且每个模型都会被训练来检测异常或更一般地分类内容。LumosLumos能够从图像及其内容中提取出高级属性和映射关系,使算法能够自动理解它们。这些数据可以用作其他产品和服务的输入,比如通过文本的形式。FacerFacer是Facebook的人脸检测和识别框架。给定一张图像,它首先会寻找该图像中所有的人脸。然后通过运行针对特定用户的人脸识别算法,来确定图中的人脸是否是该用户的好友。Facebook通过该服务为用户推荐想要在照片中标记的好友。语言翻译语言翻译是涉及Facebook内容的国际化交流的服务。Facebook支持超过45种语言之间的源语言或目标语言翻译,这意味着Facebook支持2000多个翻译方向,比如英语到西班牙语,阿拉伯语到英语。通过这2000多个翻译通道,Facebook每天提供4.5B字的翻译服务,通过翻译用户的消息推送,Facebook每天可为全球6亿人减轻语言障碍。目前,每种语言对方向都有其自己的模型,但是我们也正在考虑多语言模型[6]。语音识别语音识别是将音频流转换成文本的服务。它可以为视频自动填补字幕。目前,大部分流媒体都是英文的,但在未来其他语言的识别也将得到支持。另外,非语言的音频文件也可以用类似的系统(更简单的模型)来检测。除了上面提到的主要产品之外,还有更多的长尾服务也利用了各种形式的机器学习。 Facebook产品和服务的长尾数量达数百个。机器学习模型所有基于机器学习的服务都使用“特征”(或输入)来产生量化的输出。Facebook使用的机器学习算法包括Logistic回归(LR),支持向量机(SVM),梯度提升决策树(GBDT)和深度神经网络(DNN)。LR和SVM在训练和预测方面非常有效。GBDT可以通过增加计算资源来提高准确性。DNN是最具表达力的,能够提供最高的准确性,但利用的资源也是最多的(在计算量上,至少比LR和SVM等线性模型高出一个数量级)。这三种模型的自由参数都在变得越来越多,必须通过使用带标签的输入示例来优化预测的准确性。在深度神经网络中,有三类经常使用的网络:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN / LSTM)。MLP网络通常运行在结构化输入特征(通常是排名)上,RNN / LSTM网络一般用来处理时域的数据,即用作序列处理器(通常是语言处理),相对的CNNs则是一种处理用来空间数据的工具(通常是图像处理)。表I显示了这些机器学习模型类型和产品/服务之间的映射关系。表1 利用机器学习算法的产品或服务Facebook中的ML-as-a-Service为了简化在产品中应用机器学习的任务,我们构建了一些内部平台和工具包,包括FBLearner,Caffe2和PyTorch。FBLearner是三种工具(FBLearner Feature Store,FBLearner Flow,FBLearner Predictor)的套装,其中每种工具分别负责机器学习管道上不同的部分。正如前面图1显示的那样,它利用了一种内部作业调度程序在GPU和CPU的共享资源池上分配资源和调度作业。Facebook大多数机器学习模型的训练过程都是在FBLearner平台上进行的。这些工具和平台被设计来帮助机器学习工程师提高效率,从而能够专注于算法创新。FBLearner Feature Store。任何机器学习建模任务的起点是收集和生成特征。 FBLearner Feature Store本质上是一系列特征生成器的目录,其特征生成器可以用于训练和实时预测,当然它也可以作为多个团队可以用来共享和寻找特征的公共空间(market place)。这样以个特征列表对于刚开始使用机器学习的团队来说是一个很好的平台,同时也有助于在现有模型中应用新特征。FBLearner Flow是Facebook用于训练模型的机器学习平台。Flow是一个管道管理系统,它会执行一个可以描述模型训练和/或评估所需步骤及其所需资源的工作流程(workflow)。这个工作流程由离散单元或操作符(operators)构成,每个单元都有输入和输出。操作符之间的连接会通过跟踪一个操作符到下一个操作符的数据流自动推理,Flow则通过处理调度和资源管理来执行工作流程。Flow还拥有一个可以用于实验管理的工具和一个简单的用户界面,这个界面可以跟踪每个workflow或实验生成的所有构件和指标,从而方便对比和管理这些实验。FBLearner Predictor是Facebook内部的推理引擎,它可以使用在Flow中训练的模型来提供实时的预测。Predictor可以用作多租户服务,也可以用作集成在特定产品的后端服务中的库。Facebook的很多产品团队都在使用Predictor,而其中许多团队都需要低延迟解决方案。Flow和Predictor之间的直接集成还有助于运行在线的实验以及在生产中管理多个版本的模型。深度学习框架我们在Facebook上利用了两种截然不同的协同框架来进行深度学习:针对研究优化的PyTorch和针对生产优化的Caffe2。Caffe2是Facebook的内部生产框架,它用于训练和部署大规模的机器学习模型。Caffe2专注于产品所需的几个关键特性:性能,跨平台支持和基本的机器学习算法,如卷积神经网络(CNN),递归神经网络(RNN)和多层感知器(MLP)。这些网络都具有稀疏或密集的连接以及高达数百亿的参数。该框架的设计采用模块化方法,在所有后端实现(CPU,GPU和加速器)之间共享统一的图表示。为了在不同平台上实现最佳的运行时间,Caffe2还抽象了包括cuDNN,MKL和Meta在内的第三方库。PyTorch是Facebook在AI研究领域的首选框架。它的前端注重灵活性、调试以及动态神经网络,能够快速进行实验。由于依赖于Python来执行,它并没有针对生产和移动端部署进行优化。当研究项目产生了有价值的结果时,模型就需要转移到生产上。过去,在生产环境中,我们通过使用其他框架重写产品环境的训练管道来完成模型转移。最近Facebook开始构建ONNX工具链来简化这个转移过程。比如,动态神经网络虽然被用于尖端的人工智能研究,但这些模型需要更长的时间才能被应用于产品中。通过解耦框架,我们避免了的为满足性能而设计更复杂的执行引擎(比如Caffe2)的需求。此外,相比模型速度,研究人员在进行研究时更看重其灵活性。举个栗子,在模型探索阶段,性能下降30%是可以容忍的,尤其是在它具有易测验和模型可视化的优点时。但是相同的方法并不适合于生产。这种取舍原则在PyTorch和Caffe2的框架设计中也可以看到,PyTorch提供了良好的默认参数和合理的性能,而Caffe2可以选择使用异步图执行,量化权重和多个专用后端等特性来达到最佳性能。虽然FBLearner平台本身不限制使用什么框架,无论是Caffe2,TensorFlow,PyTorch还是其他的框架都可以,但我们的AI软件平台(AI Software Platform)团队为了让FBLearner能够很好地与Caffe2集成还是进行了特定优化。总的来说,分离研究和生产框架(分别是PyTorch和Caffe2)使我们能够在两边灵活运作,减少约束数量的同时还能增加新特性。ONNX. 深度学习工具生态系统在整个行业还处于初级阶段。 对于不同的问题子集,不同的工具有着不同的优势,并且在灵活性,性能和支持平台方面有着不同的折衷,这就跟我们之前对PyTorch和Caffe2所描述的权衡一样。 因此,在不同的框架或平台之间交换训练模型的需求很大。 为了弥补这个缺陷,2017年末,Facebook与几个合作伙伴共同推出了开放式神经网络交换(Open Neural Network Exchange , ONNX)。ONNX是一种以标准方式表示深度学习模型的格式,以便在不同的框架和供应商优化库之间实现互操作。同时,它能满足在不同的框架或平台之间交换训练好的模型的需求。ONNX被设计为一种开放的规范,允许框架作者和硬件供应商为其做出贡献,并拥有框架和库之间的各种转换器。Facebook正在努力使ONNX成为所有这些工具之间的协作伙伴,而不是一种具有排他性的官方标准。在Facebook内部,ONNX是我们将研究模型从PyTorch环境转移到Caffe2中的高性能生产环境的主要手段,它可以实现对模型的自动捕捉和固定部分的转换。在Facebook内部,ONNX是我们将研究模型从PyTorch环境转移到Caffe2中的高性能生产环境的主要手段。 ONNX提供了自动捕捉和转换模型的静态部分的能力。 我们有一个额外的工具链,通过将它们映射到Caffe2中的控制流原函数或者以C ++作为自定义操作符重新实现它们,会有助于将模型从Python转移到动态图。机器学习的资源需求鉴于机器学习在训练和推理(inference)的阶段的资源要求、频率和持续时长不同,我们将分别讨论这两个阶段的细节和资源应用。Facebook硬件资源概况Facebook的基础架构部门(Facebook Infrastructure)很早之前就开始为主要软件服务构建的高效平台,包括针对每种主要工作负载的资源要求定制的服务器、存储以及网络支持。图2 基于CPU的计算服务器。单插槽服务器底座上有4个Monolake服务器卡,双插槽服务器底座还一个双插槽服务器,因此在2U机箱中共有三个双插槽服务器。所以在2U形式的组合中共有12个服务器。当前Facebook提供约八种主要的计算和存储架构,对应八种主要服务。这些主要架构类型足以满足Facebook主要服务的资源要求。例如,图2中展示了一个可以容纳三个计算Sleds模块的2U机架,这些模块可支持两种服务器类型。其中一种Sled模块是单插槽CPU服务器(1xCPU),多用于Web层——一种主要看重吞吐量的无状态服务,因此可以使用能效更高的CPU(Broadwell-D处理器);它的DRAM(32GB)以及主板硬盘或闪存较少。另一种Sled模块是较大的双插槽CPU服务器(2x高功率Broadwell-EP或Skylake SP CPU),它配有大量的DRAM ,常用于涉及大量计算和存储的服务。图3. 搭载8个GPU的Big Basin GPU服务器(3U机架)由于我们训练的神经网络越来越大,并且越来越深,我们开发出了Big Basin GPU服务器(如图3所示),这是我们2017年最新的GPU服务器。最初的Big Basin GPU服务器配置了八个互相连接的NVIDIA Tesla P100 GPU加速器,它使用NVIDIA NVLink形成了一个八CPU混合立方网格,后来,这种设计经过改进之后又应用到了V100 GPU上。Big Basin是早前的Big Sur GPU的继承者,后者是Facebook数据中心首个广泛应用的高性能AI计算平台,用于支持于2015年开发并通过开放计算项目(Open Compute Project)发布的NVIDIA M40 GPU。与Big Sur相比,V100 Big Basin每瓦电可实现的性能更高,这得益于单精度浮点运算单元——每个GPU的运算速度从7 teraflops(每秒万亿次浮点运算)增加到了15.7 teraflops,以及可提供900GB/s的带宽的高带宽显存(HBM2)。这种新的架构还使得半精度运算的速度快了一倍,进一步提高了运算吞吐量。由于Big Basin的运算吞吐量更大,而且显存也从12 GB增加到了16 GB,因此它可以用来训练比先前模型大30%的模型。高带宽NVLink互连GPU通信还强化了分布式训练。在使用ResNet-50图像分类模型进行的测试中,Big Basin的运算吞吐量比Big Sur要高出300%,借助它我们可以以更快的速度训练比以往更复杂的模型。Facebook通过开放计算项目(Open Compute Project)公布了所有这些计算服务器的设计以及几种存储平台。离线训练的资源需求当前,不同的产品会使用不同的计算资源来完成各自的离线训练步骤。有些产品(例如Lumos)在GPU上完成所有的训练。其他产品(例如Sigama)则在双插槽 CPU计算服务器完成所有的训练。诸如Facer这样的产品采用双阶段训练流程,先在GPU上以很小的频率(几个月一次)队通用的面部检测和识别模型进行训练,然后在数千个1xCPU服务器上以很高的频率对每个用户的模型进行特定训练。在本部分,我们将围绕机器学习训练平台、训练频率和持续时长,具体介绍多种服务的细节,并在表II中进行了总结。另外,我们还讨论了数据集的趋势以及这些趋势对计算、内存、存储和网络架构的意义。计算类型和相对数据来源的位置。离线训练既可以在CPU上完成,也可以在GPU上完成,这取决于服务本身。虽然在多数情况下,在GPU上训练出的模型在性能上要比在CPU上训练的模型好,但是CPU强大的现成运算能力使得它成为了一个非常有用的平台。这一点在每天的非高峰期中尤为明显,因为在这期间CPU资源本来就无法得到利用,后面的图4会对此进行说明。下面我们给出了服务和计算资源训练模型的对应关系:在GPU上训练模型的服务: Lumos、语音识别、语言翻译在CPU上训练模型的服务:News Feed、Sigma在GPU和CPU上训练模型的服务:Facer (在GPU上每几年训练一次的通用模型,此类模型较为稳定;在1xCPU上训练的用户特定的模型,此类模型可以用于处理新图像数据)、搜索(利用多个独立的垂直搜索引擎,使用可以进行预测的分类器启动最合适的垂直搜索引擎)。目前,GPU主要被用于离线训练,而不是向用户提供实时数据。因为大多数GPU架构都针对运算吞吐量进行了优化,以克服延迟劣势。同时由于训练过程严重依赖从大型数据生成库中获取的数据,考虑到性能和带宽方面的原因,GPU必须靠近数据来源。由于训练模型所使用的数据量增长的相当快,GPU是否靠近数据来源变得越来越重要。内存、存储和网络:从内存储器容量的角度看,CPU和GPU平台都能为训练提供充足的存储容量。即使对于Facer这样的应用,也可以在1xCPU上用32GB RAM训练用户特定的SVM模型。如果可以尽可能地利用高效平台以及多余的存储容量,则平台的总体训练效率会非常优秀。表II 不同服务的离线训练的频率、持续时长和资源机器学习系统依赖于使用实例数据的训练。Facebook 使用了机器学习数据管道中的大量数据。这使得计算资源趋向于靠近数据库。随着时间的推移,大多数服务会显示出利用累积的用户数据的趋势,这将导致这些服务更加依赖Facebook的其他服务,并且需要更大的网络带宽来获取数据。因此,只有在数据源所在地或附近部署巨大的存储,以便从偏远的区域大规模转移数据,从而避免为了等待获取更多样本数据而关停训练管道。在部署训练机器的位置时,我们也可以使用这种方法来避免训练机群给附近的存储资源造成过大的压力。不同的服务在离线训练期间使用的数据量有很大的差别。几乎所有服务的训练数据集都呈现出持续增长甚至大幅增长的趋势。例如,有些服务在ROI降低之前会使用数百万行数据,其他服务则使用数百亿行数据(100多TB),并且只受到资源的限制。 扩展(Scaling)考虑和分布式训练:训练神经网络的过程包含使用随机梯度下降法(SGD)对参数权重进行优化。这种方法用于拟合神经网络,通过评价标记实例的小子集(即“batch” 或“mini-batch”)来迭代更新权重。在数据并行中,网络会生成多个模型副本(并行实例),以并行的处理多批数据。当使用一台机器训练模型时,模型越大或更深都会带来更好的训练效果,准确度也会更高,但是训练此类模型往往需要处理更多的样本。当使用一台机器进行训练时,我们可以通过增加模型副本的数量并在多个GPU上执行数据并行,来最大化训练效果。当训练所需的数据量随时间增加,硬件限制会导致总体训练延迟和收敛时间增加。不过,我们可以使用分布式训练来克服这些硬件限制,减少延迟。这个研究领域在Facebook和整个AI研究界相当热门。一种普遍的假设是,在不同机器上实现数据并行需要使用一种专门的互连机制。但是,在我们对分布式训练的研究中,我们发现基于以太网(Ethernet)的网络就可以提供近似线性的扩展能力。能否实现近似线性的扩展,与模型的大小和网络带宽有密切的关系。如果网络带宽太小,执行参数同步所花的时间比执行梯度计算所花的时间还多,在不同机器上进行数据并行所带来的优势也会大打折扣。使用50G的以太网NIC,我们可以用Big Basin服务器扩展视觉模型的训练,而且机器间的同步完全不会造成问题。在所有情况下,更新都需要使用同步(每个副本都看到相同状态),一致性(每个副本生成正确更新)和性能(子线性缩放)的技术来与其他副本共享,这可能会影响训练质量。 例如,翻译服务目前就不能在不降低模型质量的情况下进行大批量的小批量(mini-batches)训练。相反,如果使用特定的超参数设置,我们就可以在非常大的mini-batch数据集上训练图像分类模型,并且可以扩展到256个以上的GPU上。实验证明,在Facebook的某个大型服务中,在5倍的机器上执行数据并行可以实现4倍的训练效率(例如:训练一组训练时间超过4天的模型,以前总共可以训练100个不同模型的机器集群现在每天只能训练同样的20个模型,训练效率降低了20%,但是潜在的工程进度等待时间从4天减少到了1天)。如果模型变得超级大,这时候就可以使用并行训练,对模型的层进行分组和分布,以优化训练效率,各机器间可以传递激活单元。优化可能与网络带宽、延迟或平衡内部机器限制有关。这会增加模型的端对端延迟,因此,每一时步(time step)内原始性能的增强通常与步长(step)质量的下降有关。这可能会进一步降低模型在每个步长的准确度。各步长准确度的下降最终会累积起来,这样我们就可以得出并行处理的最佳步长数量。DNN模型本身的设计使得它只能在一台机器上运行,在推理阶段,在机器间分割模型图通常会导致机器与机器进行大量的沟通。但是Facebook的主要服务会不断地权衡扩展模型的利与弊。这些考虑可以决定网络容量需求的变化。表 III 在线推理服务的资源要求在线推理的资源需求在完成离线训练之后的线推理步骤中,我们需要将模型载入到机器中,使用实时输入运行模型来生成网站流量的实时结果。接下来我们将讨论,一种实际应用中的在线推理模型——广告排名模型。这种模型可以筛选成千上万条广告,在消息推送中显示排在1至5名的广告。这个过程是通过对依次减小的广告子集进行逐步复杂的排名运算循环(passes)来实现的。每一轮运算都会用到类似于多层感知模型(MLP)的模型,这种模型包含稀疏嵌入层,每一轮运算都会缩小广告的数量。稀疏嵌入层需要大量的内存,因此当进行到靠后的运算时,模型的超参数数量更多,它将在独立于MLP运算轮的一个服务器上运行。从计算的角度上看,绝大多数在线推理都是在大量1xCPU(单插槽)或2xCPU(双插槽)上运行的。由于1xCPU对Facebook的服务而言性能更高,而且性价比更高,因此Facebook提倡尽可能使用1xCPU服务器训练模型。随着高性能移动硬件的诞生,Facebook甚至可以在用户的移动设备上直接运行某些模型,来改进延迟和降低通信成本。但是,某些需要大量计算和内存资源的服务仍然需要使用2xCPU才能实现最佳性能。不同的产品在得出在线推理的结果时拥有不同的延迟要求。在某些情况下,得出的数据可能“十分优秀” ,也可能会在向用户返回初步快速评估后被重新输入到模型中。例如,在某些情况中将某个内容分类为合格是可以接受的,但是当运行更加复杂的模型时这个初步的分类结果就会被推翻。广告排名和消息推送之类的模型配置有稳定的SLA,可以向用户推送合适的内容。这些SLA决定着模型的复杂性和依赖性,因此如果拥有更加强大的计算能力,我们就可以训练出更加先进的模型。机器学习数据计算除了资源需求外,在数据中心部署机器学习时还需要考虑一些重要的因素,包括对重要数据的需求以及面对自然灾害的可靠性。从获取数据到模型Facebook公司的许多机器学习模型,成功的主要因素就是广泛而高质量的可用数据。快速处理并将这些数据提供给机器学习模型的能力能够确保我们部署快速有效的离线训练。对于复杂的机器学习应用程序,如广告和排名,每个训练任务所需的数据量都超过数百TB大小。此外,复杂的预处理逻辑的使用能确保数据被清理并归一化,以便高效地迁移和更轻松地学习。这些操作对资源的要求非常高,特别对存储量,网络和CPU的需求。作为一个通用的解决方案,我们尝试对训练工作量中的数据进行解耦。这两个工作量都有非常显著的特点。一方面,它非常复杂,具有临时的,依赖业务性的,且变化快等特点。另一方面,训练工作量通常是固定的(例如GEMM),稳定的(核心业务相对较少),高度优化,且更偏爱于“干净”的环境下工作(例如,独占高速缓存使用和最小线程争夺)。为了优化这两者,我们在物理上对不同的机器的不同工作负载进行隔离。数据处理机器,又名“readers”,从存储器中读取数据,处理和压缩它们,然后将结果反馈给一个叫做“trainers”的训练机器。另一方面,trainers只专注于快速有效地执行任务。readers和trainers可以分布以便提供更灵活性和可扩展性的应用。此外,我们还优化了不同工作负荷的机器配置。另一个重要的优化指标是网络使用。训练过程产生的数据流量非常重要的,并且有时候会突然产生。如果没有智能化处理的话,这很容易就会导致网络设备的饱和,甚至干扰到其他服务。为了解决这些问题,我们采用压缩优化,调度算法,数据/计算布局等等操作。利用规模作为一家为用户提供服务的全球性公司,Facebook必须保持大量服务器的设计能够满足在任何时间段内的峰值工作负载。如图所示,由于用户活动的变化取决于日常负荷以及特殊事件(例如地区节假日)期间的峰值,因此大量的服务器在特定的时间段内通常是闲置的。这就释放了非高峰时段内大量可用的计算资源。利用这些可能的异构资源,以弹性方式合理分配给各种任务。这是Facebook目前正努力探索的一大机会。对于机器学习应用程序,这提供了将可扩展的分布式训练机制的优势应用到大量的异构资源(例如具有不同RAM分配的CPU和GPU平台)的机会。但是,这也会带来一些挑战。在这些低利用率的时期,大量可用的计算资源将从根本上导致分布式训练方法的不同。调度程序首先必须正确地平衡跨越异构硬件的负载,这样主机就不必为了同步性而等待其他进程的执行。当训练跨越多个主机时,调度程序还必须要考虑网络拓扑结构和同步所需的成本。如果处理不当,机架内或机架间同步所产生的流量可能会很大,这将极大地降低训练的速度和质量。
01-23
2018
科技行业开始关注老年人需求 易用性最重要
现在科技已经深入到人们生活中的每一个角落,目标受众不仅仅是接受新事物相对更快的年轻人,为老年人定制的科技产品也不少,比如通过GPS功能定位和调整音量的助听器、能够背着老人四处走动的丰田机器人以及带有追踪报警功能的无线感应器等等。但是老年人毕竟年岁已高,学习能力和接受新事物的能力不比年轻人,很多老年人还没有或很难掌握年轻人认为简单至极的基本科技知识或技能,在这种情况下,老年人还愿意去使用这些高科技产品吗?剑桥大学工程设计中心专为老年人设计产品的专家伊恩·霍斯金(Ian Hosking)相信,我们首先应该普及最基本的科技知识。他说:“老年人中固然也有能够深入了解并娴熟使用科技的人,但是面对全新的科技产品时感到头大如斗的人显然更多。他们感觉这些新科技令人费解。”我母亲可能就属于后者。她现在已经80多岁了,为了学习使用各种最新的科技产品比如二手电脑、Kindle和在线购物,她付出了大量的努力。现在她想买一台平板电脑,但是她担心自己不会用。像她这样的人不在少数,据美国皮尤互联网研究中心调查显示,77%的老年人需要他人的帮助才能完成新设备的设置过程。Breezie专为老年人设计了一款标准三星Galaxy平板电脑的简化界面。这个界面是可以定制的,用户可以在界面上定制自己想要的功能设置和应用,去掉了老年人可能永远也会用到的预装应用。另外还简化了很多功能,比如有人想利用Skype联系好友,现在只要在地址簿中点击好友头像就行了。公司创始人杰·卡兹米(Jeh Kazimi)称,Breezie的开发灵感来自于他自己的母亲。他说:“我曾经看到她努力上网的情形,她感觉上网有些吓人,也很复杂。我没办法找到能够让互联网适合她使用的任何产品,因此我就自己来开发一款这样的产品。”他继续说:“我们的目标是设计出一些能够让在线环境更容易被不懂科技的人所接受、并且不会对他们有所限制的软件。”用户们可以通过Breezie的支持服务允许亲朋好友远程签到、设置帐户和添加新联系人。去年,Breezie与Age UK合作发布了一款售价299英镑、预装了Breezie平台的平板电脑。你可能认为老年人也能像年轻人一样去使用你认为“简单易用”的设备,但是实际上这并不容易。我自己经常使用iPad,但我认为我母亲可能就无法学会使用这款设备。苹果屏幕上的图标反应时间是0.7秒,但是绝大多数年龄超过65岁的老年人的平均反应时间大约是1秒。使用触摸屏对于小孩子来说可能没什么问题,但是对于老年人来说可能就大不一样了。随着年龄的增长,手指中神经的敏感性大幅下降,这就意味着老年人“触摸”时的力度会比较重。测试表明,如果一位老年人有轻微震颤,那么他在使用触摸屏时的一次“触摸”操作就会被设备解读为“滑动”。专为老年人设计智能手机的Emporia Telecom公司的发言人克里斯·比格内尔(Chris Bignell)说:“正是这些细微的问题击溃了老年人的信心,给他们带来了极大的困扰。”Emporia Telecom推出的手机预装了一款应用,这款应用能够指导用户练习使用触摸屏。它还推出了一款可定制的外接键盘,以满足某些仍然想使用按键的用户的需求。包括很多中国厂商在内的、越来越多的科技公司在开发硬件时开始考虑老年人和残疾人的需求,比如更大的按键、音量更高的扬声器、助听兼容性和更长的电池续航时间等等。有些公司推出了精简版移动产品,就像Age UK推出的OwnFone那样只能接电话和打电话的手机,而另一些公司则从解决具体需求入手。Doro PhoneEasy的按键和按键上印刷的字体都很大,Binatone Speakeasy则配备了内置应急按钮。但是对很多老年人来说,这些手机似乎都有些过时了,用这样的手机会让他们感觉有些丢人。霍斯金教授说:“他们在解决老龄化问题时缺乏通盘考虑,因为通常年纪比较大的人同时会有多项不便之处。”随着人口老龄化问题的日益严重,科技行业决不能对此视若罔闻。据估计,到2030年的时候,19%的美国人将是年龄超过65岁的老年人,这跟目前美国人口中拥有iPhone的人口比例差不多。而到2050年的时候,退休人口将占到总人口数的三分之一。苹果也在想办法解决这个问题,但是不会是从新硬件的角度来解决。它在上个月宣布,它将专门针对老年人设计一些“非常易用的”iPad应用。美国推出了一项名为Speaking Exchange的服务,它可以让已经退休、居住在养老院的老年人通过Skype与巴西正在学习英语的人连网,相互沟通各取所需。老年人显然期待与人交谈,巴西的青少年则可以借此提高自己的英语水平。英国也有一款类似的服务:Cloud Grannies,主要是让已经退休的老年人与印度的儿童连网交流。
01-22
2018
淘宝卧榻之侧,岂容拼多多安睡?
2015 年 9 月,移动电商平台拼好货与拼多多宣布合并,后续其A轮投资者名单包括前淘宝网 CEO“财神”孙彤宇,步步高集团董事长段永平,顺丰速运集团总裁王卫、网易公司董事局主席丁磊。2016 年 9 月,拼多多完成由高榕资本,IDG,腾讯投资等领投B轮 1.1 亿美元投资,拼多多用户总量突破 1 亿人。2017 年 6 月,易观发布的电商 APP 排名中拼多多名列第五,连下卷皮、蘑菇街、百度糯米、折 800、楚楚街在内的五大竞争对手,拼多多进入行业第一梯队。2017 年 12 月 9 日,根据猎豹发布的最新电商 APP 数据显示拼多多再克天猫、苏宁易购、唯品会,京东四家,周活跃渗透率仅次于手机淘宝,名列所有电商 APP 的第二位。2017 年 12 月 18 日,在腾讯主导下,京东集团与唯品会达成三方协议,“唯京联盟”在朱思码记抢先曝光到辟谣的 5 个月后正式做实。17 天后,京东再次宣布与美丽联合集团成立一家合资公司,所谓“反阿里联盟“在坊间被炮制而出。2017 年 12 月 27 日,淘宝、天猫相继换帅,蒋凡和靖捷接棒。2018 年 1 月 10 日,阿里巴巴集团发布旗下平台《2017 年知识产权年度报告》,当中点名淘宝网制售假货商家向微信与“拼多多”等电商平台转移。  在 27 个月之前,“拼多多”这个名不见经传的电商平台还只是中国电商行业的沧海一粟,而今天这家仅仅B轮的创业公司,却因为其闪电般的行业增速而被业界高度重视,甚至在 2018 年开年的第一周被阿里巴巴首次用“打假的名义“和微信并列一起被点了名。尽管事后双方都未对此事作任何回应,但“兵马未动,公关先行”的惯用战术,使得一颗不起眼的脏弹,意外的将淘宝网与拼多多之间“存在争议”的竞争关系彻底公开化了。  颇有意思的是,1985 年出生的新任淘宝网“少帅”蒋凡,与 1980 年出生的拼多多 CEO 黄峥曾于谷歌中国时期共事过。而据朱思码记独家获悉,在即将于今年3~4 月出炉的 2018 年淘宝网行业运营重点中,淘宝网内部目前正在组建精锐团队参与其“三位一体”的项目组,着重于场景与商家货品梯队的搭建进而打响所谓“六大战役”,拼多多已经被官方明文标注为淘宝网 2018 年重点关注的竞品平台。  特卖模式,曾被视为电商生态圈一种极为常见的提升基础性销量的工具且存在了十余年。阿里聚划算、唯品会、京东闪购都是毫无争议的行业祖师爷,然而就在猫狗大战为了“二选一“而打的头破血流时,拼多多却曲线救国借助三四五线地区的增量市场,且在不触及两大巨头利益的情况下突然杀出了一条血路,仿佛一夜间成了中国电商行业的第三极。此时此刻,社交电商刺刀已经直抵天猫乃至阿里巴巴的流量根基——淘宝网。  上-淘宝网总裁蒋凡下-拼多多 CEO 黄峥  或许世界上唯有两条杠杆驱动人们采取行动:利益或是恐惧。但想要利用恐惧使自己变得坚强,唯有对自己或对手更为残忍。  淘宝网,是公牛还是奶牛?  显然,过去的 2017 年对于天猫商城而言是大获全胜的一年。  朱思码记从天猫商城相关小二处独家获悉,在刚刚过去的 2017 年天猫商城总体 GMV 增长率保持在 40%~50% 的区间范围,这显然创造了自 2013 年上市前以来最高的增长速度,而就 2016 年 Q4 季度财报显示天猫增长率仅为 34%。  无论是外界揣测的二选一政策发挥作用也好,还是与京东商城强力竞争的客观因素推动也罢,天猫今年业绩的给力表现着实还是给众多商家吃了定心丸,其B端客户的品牌满意度达到了历史新高。于是在 2017 年双 11 后,天猫商城挟大胜之势在各类目安插了专门针对商家货品小二,并希望通过深入到商家供应链末端来加强对天猫商家的掌控力度。  但在另一方面,天猫流量的增长率却并没有在今年像 GMV 那样全面爆发。言下之意——伴随着 2016 年 12 月 2 日聚划算事业部整体并入天猫,2017 年 8 月天猫超市的相关组织架构调整,甚至将本属于 B2B 事业部的零售通小店冠名天猫小店等一系列的动作均围绕阿里巴巴集团当前将天猫视为大盘的政策,而“流量分配服从大盘“是其政策的核心,换句话说:淘宝流量进一步的转移显然对天猫 GMV 高增速提供了史无前例的支持,但这个转移的速度也创造了历史新高。  淘宝网,亚太地区最大的 C2C 网络交易平台,由于其平台商家所售货品的深度广度空前巨大,被称为万能的淘宝。在过去 14 年时间里,淘宝网几乎孵化出了所有阿里巴巴零售电商产品的原型,甚至包括今天的天猫在当年也是挂着“淘宝商城“的名号从淘宝网头部C店卖家中选取其种子商家邀请入驻的,可以说淘宝网是阿里巴巴生态圈的根基与命脉,是绝对不能触及的核心利益。因此在打垮 ebay 之后的十余年里,淘宝网始终处于独孤求败的状态。  那么现在淘宝网情况如何?  据淘宝网相关工作人员透露,2017 年年中以来淘宝网内部对商家的管控上出现了意料之外的松动,而这种松动并不存在所谓商家离开淘宝而寻求新的外部平台——即早年所谓“出淘“的情况,而是基于淘宝网商家自身长期依赖淘宝体系,却因为阿里执行“服从大盘”政策导致淘宝网对C店客户的支持力度下降,也包括推行各种新规政策,进而使得商家表现出焦虑与恐惧。毕竟淘宝网仍然以大服饰行业为主,即使个别类目商家外流也不会影响整体大盘的态势,但 2017 年双 11 前的广州沙河、中山、株洲等地的商家上访事件,则是管控松动的一个警告性的征兆。“我们淘宝的运营实际分为两个部分:手淘+淘宝网行业运营,而今天面临的问题是手机淘宝的流量体制正处于崩溃边缘,因为天猫商家与平台对流量的需求必然是无止境的,换言之商家的业绩增长和我们本身对自己业绩增长的需求是呈正比的,同时天猫商家间的竞争,和我们与京东以及其他平台的竞争也都是绑定的关系,这存在一个囚徒悖论:敌进我进,敌不进我也绝不可能退。”  在未来伴随二选一政策的逐步加深,天猫通过补流量进而提升商家业绩进而提升客户满意度政策的弊端或许还将持续发酵,而这么做的最终结果,或许将彻底把当年冲垮巨头 ebay 打天下的“公牛”变成了天猫欲求不满的流量奶牛,被“逐步边缘化”的淘宝网或将在可见的未来甚至有可能引发更大规模的商家不满——历史上爆发商家与阿里巴巴之间冲突的导火索,无一不是来自于对流量分配政策与官方费用、规则的不满,而这些事件的主角均为淘宝网商家。  另外,彼时一家独大的状况眼下已经不复存在,王朝末年的揭竿而起只能助攻了对手和自立为王的诸侯们,而历史上统一六国的暴秦仅二世便亡了。  那么,今时今日为什么淘宝网会被边缘化?阿里巴巴旗下零售平台内部将用户分为 3 个梯队,4 成来自于淘宝网上追逐高性价比且背叛成本低于 10 元的用户,3 成为重度依赖网购的用户,2 成为潮流先锋用户。而今天更改 slogan 后的天猫商城显然是在针对后者两大梯队约 5 成的非价格敏感型客户而极力打造消费升级下的中高端零售平台,进而缓解近年来京东商城越发强烈的竞争压力,但从平台属性看淘宝网并不属于“高品质“或“消费升级”范畴。淘宝网“永久奉行”自打 ebay 以来免费开店,不扣点的政策,使得在营收方面只能依靠阿里妈妈的推广费用等形式来获得,但随着移动互联网时代的到来,直通车、钻展等传统 CPC,CPM 的收益正在不断下降并被淘宝客这类的 CPS 所取代,因此今天淘宝网能为阿里巴巴整体带来的实际收益恐怕不尽人意。在公关方面,淘宝在竞争对手和业界关于炒信、假货、产品质量等问题方面饱受攻击,身为上市公司必然不能继续坚持“有损于企业形象”的淘宝网,因此在 2014 年工商总局事件后,天猫商城逐步代替淘宝网成为了阿里巴巴新的推广形象,淘宝网似乎完成了其历史使命。马云提倡“永远客户第一”的精神驱动下,天猫商城的品牌方是阿里巴巴“最重要的客户”。无论是二选一政策还是年复一年的双 11 狂欢节都离不开这些客户的支持,为此采取抓大放小的策略其实也无可厚非。然而在过去阿里一家独大时纵然可以采取权衡中小卖家和头部品牌方之间近乎每 3 年一个轮回的流量倾斜政策,但随着行业竞争的愈发激烈,阿里在移动时代整体新增流量已经无法满足商家需求时,不得不舍弃一部分人的利益来保证大盘的稳定,这显然是“最好的坏主意”。  伴随着所谓反阿里联盟的建立,京东联合唯品会、美丽联合集团,甚至网易考拉和严选,乃至小米生态链这样的组合将在未来对天猫发动更为猛烈的进攻,因此服从大盘政策的后果必然是拖累了淘宝网这个流量母池,采用近乎压榨式的流量援助,对于淘宝网这个原本鸟语花香的生态系统,结果必然会变成“只留一颗参天大树但周边寸草不生”。  那么“少帅”蒋凡接下来要面对的难题都有哪些?赤手空拳。在丢失倚天剑聚划算后,淘宝成了赤手空拳的巨人,在社交电商流量高度中心化的今天,手机淘宝当前急缺能够快速在移动端快速聚拢特定人群的频道或产品,曾经的小而美们早已刻在了店铺关闭的墓志铭上,而网红店的逐渐衰落也预示着淘宝需要一个全新概念进而重整旗鼓,聚拢人心。男性顾客。淘宝网、天猫的天然人群属性更适应女性消费者,而京东商城近几年的发力除了纵向打击阿里在 3c,大家电,食品,生鲜,图书,箱包,日化等 10 几个类目外,更致命的是来自对男性消费者的争夺。因此在未来淘宝网继续领跑女装服饰美妆为首的消费群体基础上,对男性顾客的夺取与引导显得至关重要。流量争夺。尽管没有微信流量,但淘宝网的流量母池供给仍然很大,但在服从大盘政策短期不变的情况,阿里妈妈方面只能通过战略合作,全资收购等形式,对过去长期依赖阿里流量体系的导购网站,淘客站点,特卖平台,甚至媒体客户予以扶持,进而带动更多全淘宝母池的流量。朱思码记预判 2018 年阿里妈妈方面对于这类平台将产生多宗投资案,以缓解“极缺”流量的燃眉之急。  不过无论如何,淘宝网养育天猫和其他阿里产品的“流量奶牛”角色仍然不会改变,且将长期存在下去。  “不过我们这个‘流量奶牛’假设还必须是淘宝网继续处于无敌的状态,否则早晚就被人宰了吃肉了。”一位当年经历过C转B的天猫商家这样评价道。  闪电侠,拼多多  2017 年末的一场乌镇饭局被媒体搞出了一个“反阿里联盟”的大新闻,而腾讯控股董事局主席 Pony 马化腾竟然在朋友圈回复的一句“物极必反”,似乎暗示了这个说法确有其事。同时,又在不到 1 个月内饭局主人公:京东与唯品会、美丽联合集团相继结盟,此期间新闻内容的精彩程度不亚于同期档正在上映的电影《正义联盟》,使得外界不断猜测谁会是这个“反阿里联盟”的下一位队员?  《正义联盟》中,令人印象深刻的 “技术宅”巴里艾伦,因为一次意外而被闪电击中获得了“无视一切物理定律”并达到超越光速的跑动能力,成为了并肩超人、蝙蝠侠、神奇女侠、海王、钢骨在内的联盟成员。似乎拿两者一对比,同采用红色为主基调的特卖平台拼多多与闪电侠之间存在着诸多相似之处,“闪电侠”拼多多是下一位反阿里联盟成员的逻辑似乎又因为其当前流量来源和投资者关系的缘故,在阿里打假拼多多的背景下又能说得通了。  闪电侠  “它短时间能够起来,很大程度上是取决于外部 CPS 媒体群的构建和纯货品运营的思路。”前聚划算小二认为,在运营层面上看拼多多几乎就是一个翻版 2010 年的聚划算。尽管出生于中国电商行业绝对的红海期,但黄峥又有意无意的踩住了移动互联网时代以微信为基础的流量红利,拼多多“被微信流量击中”却因祸得福的拥有了大部分人都不具备的能力,而这些人甚至包括京东、唯品会这些未来潜在的队友们。  那么拼多多运用了哪些战术?专注价格敏感型客户。面对饱受争议的 9 块 9 包邮,拼多多内部似乎并不以此为荣,但也并不以此为耻,理由非常简单:任何平台,甚至政府都没有资格要求用户消费升级或者降级,因为消费行为只属于用户的个人行为,这跟言论自由范畴一致。  正如阿里对商家梯队划分的那样,拼多多为首的打击群主要集中于争夺 40% 以上的高价格敏感型客户,而从拼多多相关工作人员透露的一些资料看,其消费人群并非清一色低端客户,但伴随着长期拼团量贩的消费习惯培养下,拼多多成了高性价比的代名词——这种战术非常类似于十几年前淘宝网起家之时掘取中国网购人群种子用户时极力采取的低价策略,又和聚划算在开设品牌团之前的选品策略如出一辙。  横向对比天猫从淘宝商城逐步走消费升级到今天成为全球品牌集散地差不多花了接近 10 年,用户也从买淘品牌,到国内外一二线品牌,再到现在海淘跨境电商......任何一个平台想一口气自低向高完成消费升级在逻辑上是不存在的,因为入驻品牌和它的平台都没有这个势能,除非只能是投资方倒逼——急着上市。抢点增量市场。这一部分人群在目前又多数集中于三四五六线地区,属于阿里和京东刷了 4 年墙却受制于物流体系、PC 端平台基因、下乡策略等因素而未能更进一步的真空地区,但被拼多多借助微信红包与支付的推广而成功拿下了这部分增量市场,甚至有淘宝客告诉朱思码记,在一个北方五线的小县城里,找一个玩微信的大妈都或许知道帮拼多多推广能够赚钱。事实上在两年前,拼多多也正是依靠部分商家在三四五线城市卖水果,农土特产而完成起势。坚持纯货品运营的思路。在特卖电商运营领域,类目运营,品牌运营,货品运营是完全不同的三个颗粒度。  淘宝、天猫、京东领衔的综合性电商平台,目前采用的是颗粒度最大的类目运营,因为考虑到这三大平台的 SKU 数量都非常庞大的特性,因此在运营细节上最平衡,但也最粗糙,因为类目的生命周期最长,因为几乎没有会死亡的类目。  唯品会近 10 年以来都延续了颗粒度相对较小的品牌运营的思路,这种思路好处在于能在巨头夹缝中打开一个缺口——譬如做特卖,同时伴随唯品会只卖正品,乃至 288 元包邮的政策下其整体平台势能足够强,另外品牌的生命周期远远高于一个单品,因此拥有品牌背书且基于天然高客单纬度的优势下唯品会坚持了这种模式,但缺陷在于唯品会受制于入驻品牌数量的有限和平台用户属性,使得其很难向全品类拓展。  拼多多采取了更为小颗粒度的货品运营思路,这种小颗粒度的运营体现在其遵循了选品高频、刚需、低价的三原则,和聚划算 2010~2011 年的运营思路极为接近,同时小颗粒度的运营在抛弃品牌背书的情况下出货量往往极大,但缺陷是这个模式会把一个商家单品的生命周期根据销售量的暴涨而被强行缩短,但在平台商家数量急剧增大,选品空间足够的情况下并不会成为其高速成长的障碍。流量体系完全独立于阿里电商体系之外。拼多多之所以今天让淘宝网如此操心的关键在于拼多多也许是目前为止唯一一个与阿里巴巴流量体系从历史上看都毫无交集,且占据国内电商第一梯队的特卖平台。  在过往历史上出现的一系列相关平台,包括返利网、楚楚街、折 800、米折、卷皮、蘑菇街均跟淘宝网有着或多或少的交集,其形式可以是淘宝优惠券、可以是淘宝客,也可以是淘宝商家的站外特卖,因此这些平台对阿里实际不构成威胁,相反这些平台对阿里拥有一定的依存度,随着依存度的变高,阿里对于这一系平台的实际掌控度也就愈大。当双方爆发矛盾时,阿里妈妈可以迅速掌握主导权,完成一击必杀。  而拼多多诞生于微信,完全没有 web 端的概念,种子客户大部分为没有经过 PC 端电商时代而是直接进入移动电商时代的增量市场,即使未来淘宝与拼多多发生正面交锋,阿里面对其源源不断的微信社交流量也毫无办法,反倒是微信可以像 2017 年 7 月那样通过重拳打击淘客的形式,进一步压缩阿里在微信上通过淘口令形式而进行流量转移的行为。  与之相比,京东、唯品会同样作为 web2.0 电商时代的产物和天猫相比却缺乏一个类似手机淘宝和淘宝网这样的流量母池,尽管今天微信为两家提供了充沛的移动流量支持,甚至在微信上开了入口但仍然很难抗衡,同时两大阵营的用户又重合度极高,因此唯京方面的竞争压力也就更大。传统 B2C 商城无论自营还是 POP 或许并不适应社交电商基于用户分享传播,专注特定选品,强调流量高度中心化的玩法要求。  “起初我们 2015 年内部把拼多多和一元夺宝作为两个典型案例讨论,当时预判的是前者不过是特定品类的营销工具,后者是赌博性质的玩法,所以认为天花板其实很快就能看到,但确实没有预料到的是这个工具的天花板真的可以做到百亿规模的高度。”  前唯品会高管看来,拼多多与唯品会的路径其实都有着相似的特点——就是外界判断这种特卖模式不过只是一种电商平台使用的营销工具,而不会变成一种商业模式。但正如手机从一种傻大黑粗的通讯工具演化成了麦克卢汉当年预言的“人的延伸”,这种自裂变出乎了许多人的意料,当然其中必然也包括阿里巴巴。  “不过,拼多多的这种模式也不是无敌的存在,聚划算当年就同样遇到了这些问题,只是因为后来合并的结局有点出乎商家意外罢了。”  那么拼多多的软肋会在哪里?极高的廉政风险。聚划算早期采取了拼多多当前纯人工报名的方式,因此小二拥有了极高的权利,可以左右商家的选品策略,定价方针,备货量,甚至直接拍板是否能够报名成功等等方面,而绝对的权利势必导致绝对的腐败,廉政高发的风险后续又让聚划算采取了机器算法报名的模式,但机器算法很快又因为各种弊端而变成了后来人工+机器算法的模式。毕竟廉政问题在任何平台,任何人身上都会有存在的可能性,但如果能遵循“水至清则无鱼,人至察则无徒”的价值观或许更为恰当。    平台信任风险。早在 2011 年派代网年会上,就当时现象级的聚划算展开了一个专题讨论会,其间不少商家得意洋洋地表示自己品牌 60%~70% 成交额来自于聚划算,而当时的大环境则是基于淘宝网早期店铺为了销售额和信用等级的快速提升,而采取抄小路的方式达到个人目的。然而之所以要快速提升店铺信用的根源,在于淘宝网在此时期的商家信任问题仍然被长期诟病,于是通过信用等级的好中差评这种原始的方式来方便客户辨别店铺信用程度,而今天早已不是当年信用缺失的年代,因此拼多多采取近乎没有店铺的概念来帮助商家解决了信任问题,降低了商家向上发展阻力的同时也为平台埋下了承担一切风险的责任——就如同淘宝网并不直接出售假冒劣质商品,但消费者会对淘宝商家的个人行为等同于阿里巴巴官方行为一样对待,那么既然淘宝“躺枪”卖假货多年,那么拼多多平台恐怕会比淘宝中枪次数更多,而且更严重。同时,平台为商家担保的做法无可厚非,但在对于处理商家备货量与平台根据流量预估销售量的问题上应该各外注意。拼团模式的短板。拼团的好处在于能通过最简单的分享来聚集人群,然而特卖的玩法远不止拼团一种,砍价,拉人头返佣金,多级分销在形式方面都比拼团要来的更能吸引社交人群的传播与兴趣,而更为致命的是:拼团模式仅适用于特定类目且符合高频、低价、刚需三大原则的单品。我们举例与这几天刷爆朋友圈,和网易微课的师出同门的拼多多潜在竞争对手——特卖平台“大伙邦”,同样也是公众号起家,他们就并没有采取拼团的模式,而是用二级分销+用户等级梯队管理的形式完成拼多多所无法涉及的特定品类,甚至高客单价和更多元的产品。  我们举例某零售价 100 元的产品在拼多多平台销售,按照拼多多拼团的玩法,价格拼团成功必须在 24 小时内完成至少 1 人的基础上才能享受原价 8.3 折的优惠,大约 83 元;对比采用大伙邦模式的情况下,分享传播 1 位朋友的佣金比例为 20% 的 20 元,此阶段用户购买价格为 80 元,而二级传播朋友的朋友购买后用户收到的佣金为9%,价格为 71 元。  而根据用户在平台的消费频率,传播情况,以及其他考核标准后,用户等级按照1~10 级划分,这位客户如果等级为 10 级则在不传播分享的情况下产品价格为 69 元,但其佣金仍然按原价 20% 进行计算——也就说这实际是一种“人人都做自己的淘宝客”但又不触犯国家相应规定的特卖玩法。更何况通过朋友圈为了拼团打折而去传播一条连衣裙显然很难拼团匹配的,但若采取佣金结算+差价返佣的模式则不存在纯需求为导向,而是用户会以结果为导向,如同这次网易微课的一夜爆发实际在于 30% 高佣金的作祟。在处理商家和盈利问题的摇摆。尽管刚满 2 岁就杀入行业第一梯队,但拼多多今天还只是一家创业公司,如同当年淘宝网用免费开店打垮 ebay 的策略一样,奉行不扣点的拼多多让大量商家趋之若鹜,一路上击败了十几家竞争对手,但这把双刃剑也造成了类似“罚款盈利”的闹剧。显然这是平台还未找到合适的盈利点而不得不采取的暂时性策略,如同在阿里妈妈尚未建立之时,仍然是依靠中供铁军们来养活淘宝网。拼多多跟淘宝有着非常接近的血缘关系,马云当年所面临要稳住商家与公司盈利的艰难决策,恐怕也将是 37 岁的黄峥马上就要面对的现实问题——“如果有一天商家闹事,围攻了拼多多上海总部的大楼,该怎么做?”  拼多多既非囊中物,亦非池中鱼,尽管有诸多缺陷,但作为抢占增量市场起家的后起之秀在未来想要从淘宝网抢占那高达 40% 的存量市场,除了补齐上述短板之外,更重要的是在品类拓展和品牌引入上保持现有的节奏,以防止重缴聚划算当年付出过的学费。  谁才是是阿里的心腹大患?  2018 年 1 月 15 日,张小龙演讲的微信公开课 PRO,火爆互联网圈。值得抓眼球的是最新数据表明微信支付的 DAU 维持在8~8.5 亿的区间范围,而微信月活维持在 9.8 亿,即将迈入 10 亿大关。  如果微信生态圈上的“拼多多们”是阿里电商的敌人的话,那么微信支付便是支付宝的克星,因为从目前最新数据来看手淘的装机用户和支付宝的装机量是持平的,但目前就台面上的数字看,两者的差距已经越来越大。  而从支付的角度反过来看电商,装淘宝的人不可能不装支付宝,但有微信支付的人不一定现在已经开始使用微信电商,这就如同马云最爱的那部《阿甘正传》里的台词说的那样:“就像一盒巧克力,你永远不知道下一颗是什么味道。”才 2 年时间就把刺刀抵在了淘宝的咽喉上,也许拼多多只是微信电商送出一道开胃小菜而已。  “在三四五线地区有这样一个现象,支付宝这种在我们看来进入门槛很低的东西,但到了没经过我们这代网购的人手里,就变成了非常麻烦东西且繁琐的支付工具。”前唯品会高管指出在存量市场里,阿里和腾讯之间的对决其实很难分出真正的高下,但在增量市场的较量中,如果不谈删支付宝还是删微信这种“是不要媳妇,还是不要妈”的问题,仅仅是因为支付宝需要上传身份证的教育成本上,微信支付这种近乎傻瓜式的东西则更容易被人所接受。  而中国电商已经整整走过了十余年,但在三四五六线地区的人口红利还是存在的,这也是唯品会当年依靠三四线地区和今天拼多多快速起飞的一个核心原因。  不过,从商家方面对于微信持续发力的看好却显得格外的谨慎。  “好像拼多多单坑产出那么高,说到底还是微信流量的红利期,如果哪天微信流量开始下滑,那么连锁反应就是拼多多的销量开始下降,这个道理如同还没完全远去的 QQ 时代那样。”来自广州的一位天猫母婴 TOP 品牌方告诉朱思码记,所有的电商模式爆红其实都与流量有着密切的关系,正如淘宝网流量的井喷期孵化了今天的天猫,而微信今天那么大流量做一个甚至几个天猫都不成问题,但再豪华的宴席也总会有吃完的那一天,只是目前来看这场乌镇饭局的影响还会持续很久。  只是腾讯系方面还存在一个天然优势,即如果阿里巴巴没有淘宝,阿里生态系统的天猫,支付宝将因为无法独立生存而崩盘,但即使没有微信扶持下,唯品会,京东仍然还是两家在纳斯达克上市公司。  “社交电商的玩法其实也拥有一定的局限性,就是年龄层不会太高,而微信人群大多数是主流消费人群,也是互联网主流人群,而一个平台的种子用户往往决定了这个平台的调性,如同拼多多的三四五线为种子用户,那基本决定了它今后也必须坚持走价格敏感型用户的生意。”  那么未来谁才是阿里电商业务的心腹大患?  随着 PC 端到移动端的流量转移,使得中国未来的电商行业或将分为三大梯队,而阿里的电商业务所要面对的对手或许远不止京东商城这一个冲在最前面的矛头,而是存在类似三线作战的危险。第一打击群:以网易考拉,严选以高消费人群为核心的网易系。其打击范围为淘宝网两成以上的潮流先锋,天猫国际和天猫商城的高端用户。网易考拉通过跨境自采的母婴行业切入了阿里最值钱的那一部分用户——女性妈妈们,然后通过奶粉,母婴用品,护肤品,服饰,鞋包一步步蚕食直至全品类扩张,而就天猫国际相关小二透露,在过去对于网易考拉流量来源的监控过程中,意外的发现了用户在天猫国际与京东全球购、小红书的比价过程中,流量却最终汇聚于网易考拉。而就当前在跨境零售电商行业的最新排名情况看,网易考拉力压天猫国际把得跨境行业头筹,同时其高端客户与严选频道针对的中高端客户有着重合的目标人群。未来选择通过价格下探扩张至中端用户人群,除了网易系先天不足的流量来源尴尬外,其余只是时间问题。该打击群抢点最好,当前势头最强,威胁性最高。第二打击群:京东商城,唯品会领衔的中端消费人群为核心的京东系。其打击范围为天猫商城,淘宝网 3 成以上的重度消费人群。由于天猫商城拥有女性客户的优势,而男性用户偏向京东商城,尽管此前唯品会已经联盟京东,但在可见的未来其作用并不是决定性的,因此在这一层面双方的交火程度最为激烈,2017 年6·18 发生的二选一不过只是一个开始,更激烈的竞争还要看 2018 年。第三打击群:拼多多,还有其他零碎的微信电商小程序或者还浮出水面的平台,其打击范围为淘宝网 4 成以上的价格敏感型客户。随着拼多多增量市场地位的巩固,冲入一二线存量市场恐怕已成进行时,而淘宝方面由于多年网购所带来的用户习惯难以改变,因而壁垒较高,如不发生重大规模的卖家迁移,淘宝防守有余。但未来存在最大的变数就是拼多多是否能够找到一个合适的盈利点,同时淘宝能否通过恰当的手段控制与平息商家的不安情绪。  当然,这三大梯队最大的变数在于网易,毕竟在过去两轮的投资中腾讯公司和网易资本都在投资人名单中出现了。  朱思码记认为从双方实际需求层面来看,网易系与拼多多的结合或将爆发更为猛烈的势能,其原因有或 3 点:网易长期缺流量的情况可以通过拼多多进一步消化而缓解,而网易电商近年来对 GMV 增长的饥渴度或许已经到了要通过资本运作消化掉拼多多的庞大流量的必要。拼多多外部公关形象问题,是否能够通过与网易合并进而改善,甚至提升。拼多多终有一天会提升平台客单价,完成漫长的消费升级过程,而网易自高向低的平台背书与入驻的高品质供应商所带来的势能无异于加速这个漫长的过程。  2014 年 11 月 20 日的世界互联网大会上,马云第一次表示阿里巴巴的使命是培养更多的京东并且让这些公司赚钱,显然这句话今天已经应验。从京东、唯品会、乃至今天的拼多多身上我们多多少少都能找到一些阿里巴巴的影子,但剧情到了 3 年后,这些学有所成的“学生们”竟然都站到了对立面,且无一都是站到了传说中“整条命是小学生给的”那位牛人帐下。  听闻米兰·昆德拉有一言:人是为了反抗过去,才能成就未来。但过不去的才是过去,未必来的也许就是未来。
01-22
2018
常见SEO关键词选择误区及选择技巧
如果网站是一个企业的脸,然后关键词是面部美容。只有当化妆品用得好,会有更多的人记得你,知道你。当我们在做关键词的排名,我们该如何选择关键词?你不能陷入这些误区!     一、关键词是从来不使用的  有的伙伴为了让网站很快又好的排名,会自创一些词。诚然这样的词会很快又好的排名。但是同时这样的词也没有搜索量。即使排在首页也没有多大的效果。  二、不一定最热门的关键词就是最适合的  热门的关键词可以带来大量的流量,但大多都没有转化,形成了流量的浪费,这个关键词不一定是网站合适的。比如“SEO”这个词每天的搜索量是很大,但是很多搜索SEO的人并不是想学习SEO,很可能是行业内的人观察排名的变化,也有可能是小白想对这个词有些了解而已。所以热的词不一定就是好的。  三、在关键词的选取上没有考虑到用户意图  关键词的选取时,要考虑用户的心理,以达到转化促成销售的关键词为首选。在搜索中,往往产品的性能搜索是购买前的比较选择,而产品的名字搜索是消费的选择。  四、只选通用词而没有选长尾词  对于网站选取关键词来说,大多网站都重视了通用关键词,没有选择长尾关键词。比如我们做祛痘的产品,往往主关键词就是。  五、关键词的混乱  对有些关键词来说,一个词是两个概念,它包含了两个不同的意思,这样会造成混乱,要选择最精准的关键词。还有就是选择与自己不相关的关键词,虽然可以带来流量,但是无转化。seo关键词选择技巧一:关键词收缩量越大越好很多人在选取关键词时会通过工具查看这个关键词的搜索量大小,然后就想当然的认为搜索量大的词,就是好的关键词,因为搜索量大,说明搜索的人多,那么展现的次数自然就多,这么像当然无可厚非,但是并不是关键词搜索量大就一定好。关键是精准性。比如做做旅游行业的,旅游景点搜索量日均一万就比旅游团搜索量日均三千大的多,但是旅游团的精准度却高于旅游景点。二:核心关键词越多越好很多人在设置核心关键词的时候恨不得把自己所有产品都放在核心关键词上,但其实并不是设置的核心越多越好,核心关键词应该以主营产品为主,因为核心关键词太多,太分散就会分薄网站权重,所以并不建议设置太多核心关键词,一般以5到6个为宜,以核心产品为主,如果真的有很多种产品都想做核心关键词,那么可以选择做站群。(至于站群的问题这里就先不讲了)我们平时所说的关键词分类是根据关键词的竞争度,搜索量这些来分的。 按照淘宝SEO,我们对关键词的属性可分为三个级别: 】1:顶级关键词(一级词) 一般由3个字组成,搜索量非常大,竞争度非常大如, 新手很难通过 。顶级关键词获得稳定的流量如:“手机”,“电脑”,“男装”,“女装”,“连衣裙” 2:二级关键词(二级词) 一般由4、5个字组成,竞争度比较大,新手也比较难通过二极关键词获得 稳定的流量。如“苹果手机”,“商务男装”,“韩版女装”,“日式连衣裙”“新春女装”3:长尾关键词 长尾关键词一般由 5个字或者更多关键词组成,精准度高,竞争度不大,搜索量不大,很难用长尾关键词打造爆款宝贝,如:“苹果手机第四代黑色” “日式碎花莫代尔长连衣裙”“雪纺韩版女装”“新款春季女装”。
01-22
2018
网站长尾关键词部局方法
  长尾关键词布局非常重要---因为涉及到网站后期优化效果。布局长尾词的第一点是挖掘和筛选长尾词,然后根据长尾词的竞争度以及相关性布局在网站的栏目页和内页。内页的长尾词围绕栏目页的竞争度大一点的短词来布局,不同栏目的长尾词不能互相交叉以及重叠。   挖掘长尾关键词:挖掘长尾关键词的方法是利用百度相关搜索、百度下拉框以及百度知道、搜搜问问这些工具寻找用户经常搜索的长尾关键词。也可以利用其它的一些工具,比如百度推广助手,挖掘的长尾词会更加精确;观其站长工具、站长工具等。   挖掘好的关键词放在电子表格里面,去除重复的以及明显刷的长尾词和不相关长尾词。比如攻丝机一类的词出现钢管舞相关的长尾词,那么公司级别相关的长尾词必须去除,这样的词和关键词本身毫无相关。   栏目页和内页布局:在筛选关键词时有短词和长词的区分、如果是短词并且指数和竞争度比较大就作为栏目页的关键词,而长词和指数小竞争度小的关键词作为内页长尾词排名。比如攻丝机厂家是一个长尾词,但指数和竞争度相对比较大,所以作为栏目页的长尾词布局,而卧室攻丝机厂家指数和竞争度都比较小,所以作为内页长尾词布局。   攻丝机长尾关键词案例   攻丝机企业长尾关键词布局案例,可供参考   问:SEO如何布局长尾关键词?   请问如何给网站做长尾关键词布局?关键词可以挖掘出很多,但不知道怎么把这些关键词使用上。   1、什么是长尾关键词?   2006年的时候,营销管理业界有一个新的理论,叫长尾理论。长尾理论不同于二八定律。长尾理论一出现,就首先得到了SEO业内的高度认同。直接借用了长尾这个名词来定义领域里面比较泛化而大量的关键词,统称为长尾关键词。   2、长尾理论是互联网时代的独有现象   马云之前有个理论,说我的产品规模要翻几倍,增加一些服务器就好了。沃尔玛要再建多少多少店面。因为内容和产品的数字化后,信息存储方便。搜索引擎的出现,让长尾理论得以体现出来。所以,对网站来说也是内容越多越好。内容多,就意味着总会有一些内容适合这类需求的用户。   3、长尾关键词等于做内容   没有内容页面来承载关键词,那关键词就无法部署,这是要解决关键词落地的问题。关键词是无法脱离内容来谈的。所以,做长尾关键词,本质上就是等于要做内容。如果网站没有几个做内容的策略方法,是很难把长尾关键词策略部署到站内去的。   4、布局长尾关键词常见方法   做聚合,是做长尾关键词策略的常用方法。但聚合的页面质量不好的话,也会影响长尾策略效果的发挥。长尾关键词因为关键词量大的原因,所以只能考虑那种能够产生大量内容的方法来布局长尾关键词。   5、长尾关键词的布局是SEO工作的核心   把长尾关键词布局得当,可以说是SEO工作的最重要的核心一点之一了。这个问题要解决并不简单。因为解决的好,就等于网站能够长期生产出高质量的内容。所以,这个问题如何解决的更好,是值得SEO人员好好思考的问题。      我的观点:不做长尾策略,网站的SEO效果终归有限。所以,如何部署长尾关键词策略,就是每个网站要发展起来过程中必须要解决的问题:   筛选长尾词的作用是找出有价值的长尾关键词并且避免重复,而做指数和竞争度分析是为了避免重复内容出现。   1、禁止出现完全不相干和刷出来的长尾关键词,有的SEO为了作弊会用工具刷长尾关键词   2、很多站长舍不得意思相近的长尾词,便把两个差不多的长尾词布局在站内,但是内容还差不多,大量这样的内容会导致网站降权。因为搜索引擎不会把一个内容重复的网站排名放在首页的。   3、在做栏目分类时,栏目下面内页的长尾词一定是栏目关键词的扩展词或者是相关长尾词,站内的长尾词不能交叉显示在网站的其他栏目。