百度向业界分享海量数据处理技术

导语：我们身处海量数据时代。2011年，全球产生的数据量达到1.8ZB（1ZB=10亿TB，1TB=1000GB）。未来十年，全球大数据还将增加50倍。面对数据的暴增，如何有效的存储、管理、访问这些数据？互联网企业将如何应对大数据处理所带来的技术挑战？

近日，主要来自各大互联网企业的300多位工程师汇聚百度技术沙龙，与中科院、百度、58同城的技术专家围绕海量数据分析的技术趋势与应对进行了深入的研讨交流。由于吸引了众多一线的大数据处理专家参与，本期沙龙被业界谓之“大数据处理技术群英汇”。百度通过沙龙，向业界分享了自己领先的海量数据处理技术。

正视海量数据所蕴藏的价值金矿

在互联网的世界，每个人的行为不再是“人似秋鸿有来信，事如春梦了无痕”，任何行为都有前兆，任何行为也都将对后续产生影响。对于互联网大数据的分析，某种程度上将让人类拥有预知并影响未来的能力。而这也正是大数据的魅力所在。每个企业和机构都应正视海量数据所蕴藏的价值金矿。

百度对于大数据的管理与价值发掘能力处于绝对领先的地位。作为全球最大的中文搜索引擎，百度每天响应来自138个国家和地区的数十亿次请求，要处理超过100PB（1PB=1024TB）的数据，从浩如烟海的信息中精确抓取约10亿网页，同时索引库还拥有千亿级在线索引能力，以帮助用户完成搜索过程。过去10年，百度网页搜索库已从500万猛增到了500亿。

遵循开放、分享的互联网精神，百度希望把自身对于大数据处理的能力和技术积累向业界开放，分享自身领先的技术理念和实践，帮助所有置身于海量数据之中的企业和技术人员，共同促动行业进步。

事实上，大数据在生活中无处不在。街上的汽车、路上的行人、天上的卫星等几乎所有的东西每分钟都在生成大量的数据，并通过各类终端进入互联网。从商业、经济及其他领域到国家的决策行为，海量数据分析都在日益发挥着积极而重要的作用。奥巴马政府宣布投资2亿美元，启动“大数据研究和发展计划”。当前，海量数据分析与处理技术已成为各界热切关注的焦点。

海量数据处理技术，成就百度毫秒级搜索响应

中科院计算所副研究员查礼博士在沙龙上指出：百度毫秒级的搜索响应速度源于海量数据分析技术。大数据发展分为三个阶段，第一个就是大，通过分布式系统架构Hadoop来编辑出大量的数据，这个阶段现在已经完成。第二个就是快，在解决大量问题、调用大量数据的同时，尽可能缩短时间，是现阶段需要解决的问题。“以时间换空间”是现在主流的解决方法。第三个就是准，在使用搜索引擎的时候，根据每个人的使用习惯和需求方式的不同，来获得更准确的答案，是大数据未来的发展目标。

据百度分布式高级研发工程师杨栋介绍，从“快”到“准”也正是百度目前的课题。现阶段百度将100毫秒定为搜索响应速度标准，并通过去重算法和云存储等创新技术，在内存、高可用、读写等方面做出革新，不断缩减这个数值，达到更快的响应速度。此外，百度还采用了hypertable（开源分布式存储系统）与hadoop系统结合的方式，更好地完成存储，节约成本及降低能耗。

“准”作为海量数据技术的未来发展趋势，已在百度初现端倪。百度新首页的“推荐引擎”技术就已经部分实现“不搜即得”的智能应用推荐，即基于用户以往的使用习惯分析，直接将用户需要的信息推送至用户个人首页。

毫无疑问，海量数据时代已经到来，从“快”到“准”的大数据处理技术，将让每一个网民受益，享受到更便捷贴心的网络体验。

据了解，百度技术沙龙系由百度与技术社区合作举办，至今已经成功举办了25期。经过两年多的积累，百度技术沙龙在互联网业内已成为公认最权威、最受技术人员欢迎的技术交流平台。往期回顾及资料下载，可访问：salon.baidu-tech.com

（责任编辑：sunsun）