你知道每次在浏览器里轻轻输入www.taobao.com,按回车键,淘宝后面会发生什么吗?
浏览器查询DNS服务器首先,你的浏览器查询DNS服务器。现在,域名系统服务器将www.taobao.com转换成一个可被机器直接读取的地址。
但浏览器发现,在不同地区或不同网络中,转换后的IP地址可能会有所不同,这首先涉及到负载均衡。第一步是在通过DNS解析域名时,将您的访问权限分配给不同的门户,同时确保您访问的门户是所有门户中最快的一个。
2.生成PV,如果是独立用户会生成UV
好了,现在你已经通过这个门户成功访问了www.taobao.com的实际门户IP地址。此时你有一个PV,每天每个网站的PV总量是描述一个网站大小的重要指标。淘宝非推广期的PV在16-25亿左右。同时,作为独立用户,你这次访问淘宝的所有页面都算作一个UV。卖火车票的12306.cn每天的PV量在10亿左右,而UV量远不及淘宝的十倍。相信大家都知道原因。
3.负载平衡
因为同时访问www.taobao.com的人太多了,所以淘宝主页不可能只有一台服务器。可能有数百台服务器只用于生成www.taobao.com的主页,所以当您访问时为您生成页面的任务将被分配给其中一台服务器。
这个过程应该是公平的,公正的,平均的。这个非常复杂的过程是由几个系统完成的,其中最关键的是,这是世界上最流行的负载平衡系统之一,由目前在淘宝工作的张博士开发。
4.CDN
经过一系列复杂的逻辑运算和数据处理,这次给你的淘宝首页的内容都成功生成了。
消息称,在双十一的高峰期,淘宝的访问流量达到了871GB/S的峰值。这个数字意味着178万4Mb带宽的家庭宽带可以承受,完全有能力拖垮一个中小城市的所有互联网带宽。那么很显然,这些接入流量是无法集中的。而且众所周知,不同地区不同网络之间的互访会很慢,但是你很少发现淘宝访问量慢。这就是CDN的作用。淘宝在全国各地设置了几十个CDN节点,用一些手段保证你访问的地方是离你最近的CDN节点,从而保证大流量分散在各处访问的加速节点上,你家里就有一个。
这就产生了一个问题,就是如果一个卖家发布了一个新宝宝,上传了几张新宝宝图片,淘宝如何保证这些图片在全国各地的CDN节点同步存在,供用户使用?内容分发和同步的相关技术有很多。淘宝开发了分布式文件系统TFS来处理这些问题。
搜索
好了,现在你终于加载了淘宝的首页,习惯性的在首页搜索框里输入‘月饼’两个字,点击回车。然后你有了一个PV,然后淘宝的主搜索系统开始为你服务。首先,它基于词库对您输入的内容进行分词操作。众所周知,英语是以单词为基础的,用空隔开,而汉语是以单词为基础的,一个句子中的所有单词都可以连接起来描述一个意思。比如英语句子我是学生,中文就是“我是学生”。计算机可以通过空简单的知道学生是一个词,但是“学习”和“生活”结合起来代表一个词就不容易理解了。将汉字序列分割成有意义的字,称为汉语分词。我是学生,分词的结果是:我是学生。
分词后,需要根据输入的搜索词分析自己的购物意向。用户在搜索时通常有以下几种意图:
浏览型:没有明确的购物对象和意向,用户比较随意和感性。比如“2013年十大香水排行榜”、“2013年雪纺衬衫”、“iPhone哪个牌子好?”;
查询类型:有一定的购物意向,体现在对属性的要求上。比如“适合老人用的手机”“500元手表”;
对比型:购物意向降低,具体针对某些产品。查询如:“iPhone 5三星格视III”、“三星I 9300 I 9400”;
确定型:已经做了一个基本决策,针对一个对象。比如“iPhone 5”,“盖石三”。通过分析你的购物意向,主搜索会显示完全不同的结果。
6.数据传输、存储和分析
然后,无论你是否实际交易,你的访问行为都被系统如实记录下来,用于后续的业务逻辑和数据分析。在这些记录中,访问日志记录是最重要的记录之一。但是我们前面已经知道,这些访问分布在不同地区的很多不同的服务器上,而且由于用户数量大,这些日志记录非常大,达到TB级别是很正常的。然后,为了快速、及时的传输和同步这些日志数据,淘宝开发了TimeTunnel,用来传输实时数据并交给后端系统进行报表计算等操作。
您的浏览数据、交易数据和许多其他数据记录将被保留。使淘宝存储的历史数据轻松达到十PB以上。这样巨大的数据量,经过1:120的极度压缩,存储在淘宝的数据仓库里。并通过一个由数万台服务器组成的名为梯形的超大规模数据系统,对其进行不断的分析和挖掘。
从这些数据中,淘宝可以少到知道你是谁,你喜欢什么,你的孩子多大了,你是不是恋爱了,人们喜欢玩魔兽世界什么饮料等等。,以及各行各业的零售情况,各种商品的涨跌等等。
说了这么多,其实只描述了淘宝上运行的几千个系统中的几个。即使只访问淘宝首页一次,所涉及的技术和系统规模也是完全无法想象的,这是包括长江学者、国家最高科技奖获得者等众多大牛在内的淘宝3000多名顶尖工程师的心血。同样,百度和腾讯的业务系统也绝不比淘宝简单。你需要知道的是,你每天使用的互联网产品看似简单易用,但背后有着难以想象的智慧和劳动。
封面人物介绍:
李成:花名鲁肃,39岁的摩羯座,工作编号3896。现在是蚂蚁金服的CTO。2004年2月,李成偶然接触了阿里巴巴。当时还在上海交通大学读博士,以外包架构师的身份协助支付宝网站建设。经过几次合作,程立即放弃了博士学位。2005年2月,他正式加入支付宝。从草根到CTO的一路,包括其严谨的实用主义和严谨的逻辑,都被支付宝员工誉为“上帝般的存在”。
1.《淘宝后台 当你访问淘宝网站的时候,后台都发生了什么?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《淘宝后台 当你访问淘宝网站的时候,后台都发生了什么?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/fangchan/1777662.html