来源:OFweek电子工程网
时间:2013-03-01
如果 存储 免费,你会把它放在哪里?答案显然是:“尽量离 处理器 更近的地方”。
不过如果你讨论的是大数据,那么问题则稍微有些不同:如果所有的处理都是免费的,你会把它放在哪里?答案是“尽量靠近存储的地方”。
这差不多就是存储内处理在大数据情境下所试图做的事情。这种技术不是试图将TB级从存储系统迁移到处理器,而是在存储控制器内的处理器上运行应用程序。
当然,处理能力实际上并不是完全免费的,不过它的价格已经大幅下滑。此外,存储系统也有不再需要专门ASIC(专用集成电路)的趋势。存储软件运行在传统的行业标准的服务器上。这些服务器有非常强大的处理器,能力远不止运行存储软件。
企业策略集团(ESG)高级分析师Mark Peters表示:“存储厂商现在越来越多说的是他们的存储服务器有空闲的处理能力。”显然应该将这些处理能力用在存储以外的事情上——比如运行存储系统内部的应用程序。他表示:“我认为存储厂商是很实际的,他们在建议更加充分地利用处理资源。”
谨慎的做法是在存储服务器内部运行有限数量的虚拟机,并允许这些虚拟机运行合适的应用程序。这带来了一个问题:哪些应用程序适合用这种方式运行?
根据大数据存储厂商DataDirect Networks营销副总裁Jeff Denworth的说法,相对简单的应用程序好。DataDirect已经在它的存储系统内提供存储内处理能力。Denworth解释道:“这个环境下好的应用程序是那些运行预处理或后处理算法、分析数据、筛选数据或应用元数据的应用程序。不过你必须记住的是它不能代替超级计算机,因为存储系统内部并没有很高的处理能力。”
这些应用程序还必须运行在得到存储内虚拟机管理器支持的操作系统上——典型的是Linux或Windows。(DDN的系统使用修改后的KVM虚拟化系统来承载虚拟机,同时I/O基础设施也被修改为用一组记忆体指针来呈现应用程序)显然这些应用程序不能依赖于GPU加速,因为存储设备内没有强大的图形子系统。
存储内处理举例
实际上,预处理和后处理算法是大数据环境中典型的需要的应用程序。
例如,射电天文学研究国际中心(ICRAR)的Square Kilometre Array望远镜每天都要产生100万TB数据。这是非常可观的数据量,但是只有一小部分是有意义并需要保留的——其他的是没用的可以抛弃的“噪音”。问题是如何分析这种数据并过滤出噪音。为了做到这一点,ICRAR在DDN存储系统上存储进入的数据,并在存储系统内置的虚拟机上运行数据缩减算法,使用存储系统的处理资源。