-
浅谈大数据之Hadoop部署前的思考
Hadoop的应用前提是”数据是有价值的!”,当然,这一点已经得到了几乎所有人的认可,并且在实际环境中,也都是这样在做的,我们都希望从系统日志,网络数据,社交信息等海量数据中发掘出有价值的信息,比如,用户的行为,习惯等,而这些是做下一步市场营销的有效决策依据。在Hadoop出现后,对于数据的发掘更是体现的***,尤其是从知名的互联网公司开始,都已经在使用或···
- 发布时间:2025-05-19
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
深入理解 Netty FastThreadLocal
作者:vivo 互联网服务器团队- Jiang Zhu 本文以线上诡异问题为切入点,通过对比JDK ThreadLocal和Netty FastThreadLocal实现逻辑以及优缺点,并深入解读源码,由浅入深理解Netty FastThreadLocal。 一、前言 最近在学习Netty相关的知识,在看到Netty FastThreadLocal章节中,···
- 发布时间:2025-05-19
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
5种Java数据计算层的解决方法
JAVA的数据计算层主要是为了降低应用程序层和数据持久层之间的耦合性,分担它们的计算压力。它应当符合如下特征: 5种java数据计算层的解决方法 1. 可以统一的计算来自任意数据持久层的数据,不仅包括数据库,也包括非数据库的Excel/Txt/XML。其中对最常见的结构化数据的计算是重点。 2. 可以统一的进行不同种类数据源之间的相互计算。不仅包括异种数据···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
面板数据分析中标准误的估计修正
众所周知,在进行标准二乘线性无偏估计的时候,我们假设残差项是独立同分布的(independent and identically distributed, i.i.d.)。而一旦此假设在实际数据中被打破,则估计就会出现偏误( bias )。Peterson指出,在过去的很多实证金融文献中,很多研究者实际上并没有正确地选择合适的方法,根据残差项与时间或者企业···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
大数据如何作用于金融领域并创造价值?
以下是知乎数据大牛wang hold的回答: ***,你所说的大数据软件,不太让人明白。至少在行业里少提到大数据软件这个说法,可以说大数据技术架构,也可能说数据挖掘软件。不过我理解,你提的大数据软件应该是围绕大数据分析与应用的一系列工作与系统吧? 第二,你提到的金融数据,这个涉及面很广,就我有限的接触来看就有很多,比如基金公司的销售数据,客户持有份额与交易···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
大数据的下一革命——敏捷BI
本着务实的态度,利用较低的成本,通过对大数据进行高速捕获和实时的分析,以获取核心业务和战略决策所需的关键信息,从而提升企业经营管理和战略决策水平,最终创造巨大的商业价值,也许是对大数据价值的***诠释。 在对大数据进行分析的过程中,传统数据挖掘/BI(Business Intelligence)的做法是,IT人员事先根据分析需求来进行建模(以及做二次表或打···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
Spark1.0.0部署指南
1 节点说明 IP Role 192.168.1.111 ActiveNameNode 192.168.1.112 StandbyNameNode,Master,Worker 192.168.1.113 DataNode,Master,Worker 192.168.1.114 DataNode,Worker HDFS集群和Spark集群之间节点共用。 2 ···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
大数据时代不可能匿名
大数据时代的匿名化并非100% 普林斯顿的计算机科学家艾文德奈瑞 · 亚南,曾在2006年发表的一篇文章中称,在本该匿名的互联网电影数据中,Netflix用户的各种租借历史数据却能在交叉引用过程中被泄露。亚南登在7月9日的一份报告中称,匿名化支持者们(认为匿名化可行的人)也许还没预感到当下大数据中的危险漏洞。 不管是理论上还是实践中,匿名化的作用并不大。那···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
Pinterest采用Redshift实现强大的交互式数据分析
我们最终选用了Redshift,它是基于亚马逊网络服务的数据仓库服务,它增强了我们的交互分析能力,每天尽可能快的导入数以亿计的记录,来确保核心数据源的可用性。Redshift是一个伟大的解决方案,它可以在几秒钟内回答问题来保证交互数据分析和快速的原型(然而Hadoop和Hive用来处理每天兆兆字节量级的数据,只能在几钟或者几个小时内给出答案)。 来看看我们···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
机器学习中的数学(5)-强大的矩阵奇异值分解及其应用
上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较···
- 发布时间:2025-05-18
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])