提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|使用教程|编辑:龚雪|2014-10-30 09:30:07.000|阅读 340 次
概述:在Hadoop生态繁荣的背后,是开发者们夜以继日的开发与支持。而在用户得益甚至赞赏这些应用的时候,开发者们却不得不面对Hadoop平台中一些可用性较差的地方。本文列举了网络上一些关于Hadoop的缺点,供大家探讨,部分观点来自InfoWorld及开发者博客。
#慧都22周年庆大促·界面/图表报表/文档/IDE/IOT/测试等千款热门软控件火热促销中>>
相关链接:
开源数据处理平台Hadoop在大数据时代的今天有着非常广泛的应用。著名的大象图标遍布各行各业,从医疗记录到银行交易,从车票预定到房屋租赁,乃至很多科学数据处理,都可以见到Hadoop的身影。
在Hadoop生态繁荣的背后,是开发者们夜以继日的开发与支持。而在用户得益甚至赞赏这些应用的时候,开发者们却不得不面对Hadoop平台中一些可用性较差的地方。本文列举了网络上一些关于Hadoop的缺点,供大家探讨,部分观点来自及开发者博客。
1、 平台尚未成熟
虽然用途广泛,但不得不承认的是,Hadoop目前仍在开发阶段。很多数据结构都不全,比如Hadoop一直不支持原生datatime数据类型,最近才在时间序列数据开发者的强烈建议下下引入此数据类型。其次,技术支持并不到位,无论是Google还是Stack Overflow上寻找的答案,都不足以解决开发者遇到的问题。
2、 数据模式模糊不清
Hadoop目前对模式(Schema)的描述并不清晰,很多开发者在撰写Pig脚本的过程中,会花费超过50%的时间在调试对Schema的支持上。
3、 Pig和Hive无法互通
Hive和Pig用起来完全是两个东西。熟悉SQL的开发者可以在Hive中使用类似的脚本,但是在Pig中却不得不重新学习其语法。在Pig中无法使用Hive的UDFS,也无法使用HCatalog访问Pig的Hive表。反过来,无法在Hive中使用Pig的UDFS。这让开发者在两者切换使用的过程中颇为纠结,需要耗费精力重新撰写脚本来完成已有的工作。
4、 HDFS存储共享函数库
鉴于Hadoop的复用机制,一旦开发者将Pig脚本保存于HDFS,那么Hadoop将自动认为所有的JAR包的存储方式都应如此。通常情况下,这样的做法并无问题,但是有时候,当一个项目需要维护大量共享库的时候,这就变得非常复杂。而且,大部分时间JAR包通常都在安装客户端的时候一并安装过,Hadoop这种存储方式使得JAR包多次存储。据悉,脚本存储的问题Pig新版本已修正,但是共享函数库存储的问题却仍然存在。
5、 报错信息不完整
这几乎是Hadoop系列工具的通病,经常在出了问题的时候,返回一个“运行失败,无更多错误信息”这样的报错提示,使得开发者无法进行更进一步的错误调试。还有,Hadoop经常会抛出一些无法找到指针的异常(NPE),而这些问题则是由文件解析之类的操作造成,并不能属于NPE范畴。另外,由于采用UDFS,导致很多报错最终以udf执行错误的样子呈现给开发者,而它们可能仅仅是语法错误或者类型错误。
6、 不兼容的安全机制
开发者经常会听到这样的说法:“已经有足够多的案例证明,想要保证Hadoop的安全性,建议使用Kerberos,LDAP直白易用。”但是现状就是,Hadoop平台并未对此有友好的集成:没有SAML、没有OAuth,也没有很好的安全验证机制(开发者只能时不时的无奈面对再一次出现的登录窗口)。更有意思的是,Hadoop平台中很多组件都自己支持LDAP,且彼此不考虑兼容性。
7、 难以开发的LDAP连接器
对开发者来讲,用Java成功完成一个能用的LDAP连接器,至少需要修改上百次代码。而反过来看看完成的代码,连接器的功能还不完善。实际上,开发者们能感觉出Knox有点像一时冲动的产物。毕竟用Apache配置mod_rewrite模块就能完成的事情,非要用Java再写一遍,的确是让开发者头痛的事情。
8、 难以扩展的Hive表管理
如果开发者使用Hive进行表管理的话,在Hive执行了drop表命令后,会自动将表删除。但是如果这个表是外部的话,则不会自动删除。为什么Hive不能将这两个表同样对待呢?此外,既然Hive现在有向RDBMS发展的趋势,为什么不增加Update和Delete?
9、 不兼容的Namenode
Hadoop的很多组件,如Oozie、Knox等,都不遵循新的Namenode HA。开发者可以做一个HA Hadoop,前提是他完全不想使用其他组件。
10、 出错的文档
Hadoop的文档存在很多问题,开发者经常会发现文档的示例代码中有问题,有一些文档本身都没有遵循Hadoop的模式设计。鉴于这些文档在互联网上流传广泛,应该有相当一批人学习并尝试,因此都会遇到并纠结于这些错误。实际上,有些错误是完全可以避免的,只要文档的撰写人在完成文档的同时,自己动手运行一下示例代码。比如Oozie文档中充斥着大量过去版本的样例代码,开发者遇到错误的时候,很可能不是自己程序写错了,而是由于Oozie版本更替而导致之前教程中的函数不兼容造成,比如协议问题、模式有效性问题等等。有人形容Oozie,称其类似Ant和Maven,只是没有任何调试手段,而且代码非常善变。
此外,在Hadoop平台的适用范围方面,它对实时数据访问支持并不好,也无法高效存储大量小文件,而且目前尚不支持多用户。
作者 张天雷
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@hmdbvip.cn
文章转载自:慧都控件网



在现代软件开发过程中,自动化单元测试是确保代码质量与可靠性的关键环节。尤其对于特定框架(如MFC)的代码,测试复杂度显著增加,常因依赖外部资源或交互操作而难以在静默环境中顺利执行。Parasoft C/C++test作为专业的软件测试工具,致力于帮助开发团队高效实施自动化测试,通过其强大的桩函数功能,能够有效模拟依赖组件的行为,从而实现对复杂逻辑的隔离测试。
本文将为大家介绍如何在MyEclipse中使用XDoclet开发EJB 2 Session Bean,欢迎下载最新版体验!
如果能将 CSV 自动转换为 PDF ,就能快速生成清晰、美观的报表,既节省手动排版时间,又能保持数据的专业呈现。本文将介绍如何使用 Spire.XLS for Java 实现这一过程——从加载 CSV 到输出高质量 PDF,仅需数行代码即可完成。
Parasoft C/C++test是一款专为C/C++代码设计的自动化测试工具,通过静态代码分析、单元测试和运行时错误检测等功能,帮助开发团队在早期发现并修复缺陷,提升代码质量和开发效率 。在实际使用中,尤其是在VC6此类旧版开发环境中执行单元测试时,可能会因环境兼容性问题触发链接错误。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@hmdbvip.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢
永利最大(官方)网站