来源:OFweek电子工程网
时间:2013-05-13
大数据正在成为众多企业单位的重要的工具,而随着数据本身的加速增长,用户们所部属的存储变得越来越重要。而由于用户面临的各种挑战,比如实施分析工具和掌控大型数据文件等,用户首先需要了解大数据与存储的关系。
惠普 亚太和日本地区存储产品部首席技术专家Paul Haverfield为赛迪网记者分析了二者之间的关系,主要包括两个方面:是对象存储这个全新的概念,主要涉及到社交媒体以及设备相关的存储方式;第二是大数据重要的问题-搜索和发现数据,如果你无法高效地搜索到数据,存储的价值也荡然无存。
大数据激发“对象存储”潜能
而谈到大数据中重要的非结构化数据,Paul表示,这需要具体区分为半结构化数据和非结构化数据,这些都直接影响到了用户数据的存储方式和架构。
这就需要提到“对象存储”,Paul向赛迪网记者解释了“对象存储”对大数据的意义,非结构化数据特别是基于云服务数据的属性大部分是静态的,生成之后很长一段时间不会发生变化。但经常读取大量静态数据对存储需求变革的发展带来很多的影响,这就产生了“对象存储”的概念。“对象存储”是一种传统的文件格式,但不断地适应目前对象性的数据的变化。对象性的数据可以帮助我们克服过去文件系统技术的局限。我们看到大数据很多产生于各种各样的社交媒体以及数字传感器,也就是终端设备,包括智能手机、平板电脑以及监控摄像头等,这些设备都带来了大数据的增长,也催生了“对象存储”的巨大需求,所以“对象存储”对大数据的影响很大。
价值,落脚在搜索和发现
Paul表示,要让大数据真正实现价值,必须提高搜索和发现能力。即通过搜索相关的索引或者元数据的标签这样的工具来发现和搜索数据。Paul用了一个小故事来说明,人们原来花65000秒在草堆里面找到了一根银针(代指数据的价值),类似于中国的“大海捞针”,而现在通过大数据的分析能力,能在几秒,甚至不到一秒钟内快速地发现数据并获得价值。
关于针对搜索非结构化数据,惠普的StoreAll和智能的商业化平台集成,能够实时搜索数据。这种传统的方式在对象存储平台上和文件搜索上,文件数量越多搜索的速度越快,可以达到指数级的增长速度,同时,惠普的大数据平台就可以满足实时分析的需求。去年12月份惠普发布的StoreAll平台,其存储架构里面植入了的Express Query技术。当时在惠普欧洲法兰克福Discover发布Express Query技术的时候做过测试,即StoreAll在配置Express Query和没配置Express Query分别是什么样的结果。当时针对新闻报道内容,做了一个五亿文件的扫描,去看社交媒体热门的讨论话题是什么。测试结果是如果没有Express Query,检索这么多的文件需要42个小时,近两天才能找到。Express Query对新闻进行了分类、可视化,扫描完全程只用了1.4秒,不到两秒。所以我们将Express Query和全新的大数据平台StoreAll集成,拥有对象、文件及其它的统一存储接口,能够很高效地进行搜索与查找。Express Query的特性和对象存储的特性是StoreAll平台相对于竞争对手的两大主要特性。近,我们还将发布StoreAll的应用,拥有同步和分享的功能。另一个重要方面是StoreAll及Express Query技术是与文件系统和存储基础设施集成的,而不是安装后再加入的。正因为这样的集成,客户能够用StoreAll平台及Express Query技术处理多项应用,而不需要重复地建平台和其他的设施。