/docs/MyDocs

To get this branch, use:
bzr branch http://darksoft.org/webbzr/docs/MyDocs

« back to all changes in this revision

Viewing changes to Administration/Server/Cluster/apache/hadoopecosystemtable.github.io.html

  • Committer: Suren A. Chilingaryan
  • Date: 2017-04-03 02:45:17 UTC
  • Revision ID: csa@suren.me-20170403024517-dwzj0z0k1cmhxm7u
Restructuring, OpenShift, Ansible, Git

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
<!DOCTYPE html>
2
 
<html>
3
 
 
4
 
  <head>
5
 
    <meta charset='utf-8' />
6
 
    <meta http-equiv="X-UA-Compatible" content="chrome=1" />
7
 
    <meta name="description" content="Hadoopecosystemtable.github.io : This page is a summary to keep the track of Hadoop related project, and relevant projects around Big Data scene focused on the open source, free software enviroment." />
8
 
 
9
 
    <link rel="stylesheet" type="text/css" media="screen" href="stylesheets/stylesheet.css">
10
 
 
11
 
    <title>The Hadoop Ecosystem Table</title>
12
 
  </head>
13
 
 
14
 
  <body>
15
 
 
16
 
    <!-- HEADER -->
17
 
    <div id="header_wrap" class="outer">
18
 
        <header class="inner">
19
 
          <a id="forkme_banner" href="https://github.com/hadoopecosystemtable/hadoopecosystemtable.github.io">Fork Me on GitHub</a>
20
 
          <h1 id="project_title">The Hadoop Ecosystem Table</h1>
21
 
          <h2 id="project_tagline">This page is a summary to keep the track of Hadoop related projects, focused on FLOSS environment.</h2>
22
 
 
23
 
        </header>
24
 
    </div>
25
 
 
26
 
    <!-- MAIN CONTENT -->
27
 
    <div id="main_content_wrap" class="outer">
28
 
 
29
 
<section id="main_content" class="inner">
30
 
    
31
 
<!-- THE TABLE -->
32
 
<table class="example3">
33
 
 
34
 
<!--                        -->
35
 
<!-- Distributed Filesystem -->
36
 
<!--                        -->
37
 
<tr>
38
 
<th colspan="3">Distributed Filesystem</th>
39
 
</tr>
40
 
 
41
 
        <tr>
42
 
        <td width="30%">Apache HDFS</td>
43
 
        <td>
44
 
                The Hadoop Distributed File System (HDFS) offers a way to store large files across 
45
 
                multiple machines. Hadoop and HDFS was derived from Google File System (GFS) paper. 
46
 
                Prior to Hadoop 2.0.0, the NameNode was a single point of failure (SPOF) in an HDFS cluster. 
47
 
                With Zookeeper the HDFS High Availability feature addresses this problem by providing 
48
 
                the option of running two redundant NameNodes in the same cluster in an Active/Passive 
49
 
                configuration with a hot standby.
50
 
        </td>
51
 
        <td width="20%"><a href="http://hadoop.apache.org/">1. hadoop.apache.org</a> 
52
 
                <br> <a href="http://research.google.com/archive/gfs.html">2. Google FileSystem - GFS Paper</a> 
53
 
                <br> <a href="http://blog.cloudera.com/blog/2012/07/why-we-build-our-platform-on-hdfs/">3. Cloudera Why HDFS</a>
54
 
                <br> <a href="http://hortonworks.com/blog/thinking-about-the-hdfs-vs-other-storage-technologies/">4. Hortonworks Why HDFS</a>
55
 
        </td>
56
 
        </tr>
57
 
 
58
 
        <tr>
59
 
        <td width="20%">Red Hat GlusterFS</td>
60
 
        <td>
61
 
                GlusterFS is a scale-out network-attached storage file system. GlusterFS was 
62
 
                developed originally by Gluster, Inc., then by Red Hat, Inc., after their 
63
 
                purchase of Gluster in 2011. In June 2012, Red Hat Storage Server was 
64
 
                announced as a commercially-supported integration of GlusterFS with 
65
 
                Red Hat Enterprise Linux. Gluster File System, known now as Red Hat Storage Server. 
66
 
        </td>
67
 
        <td width="20%"><a href="http://www.gluster.org/">1. www.gluster.org</a>
68
 
                <br><a href="http://www.redhat.com/about/news/archive/2013/10/red-hat-contributes-apache-hadoop-plug-in-to-the-gluster-community">2. Red Hat Hadoop Plugin</a>
69
 
        </td>
70
 
        </tr>
71
 
 
72
 
        <tr>
73
 
        <td width="20%">Quantcast File System QFS</td>
74
 
        <td>
75
 
                QFS is an open-source distributed file system software package for 
76
 
                large-scale MapReduce or other batch-processing workloads. It was 
77
 
                designed as an alternative to Apache Hadoop’s HDFS, intended to deliver 
78
 
                better performance and cost-efficiency for large-scale processing clusters. 
79
 
                It is written in C++ and has fixed-footprint memory management. QFS uses 
80
 
                Reed-Solomon error correction as method for assuring reliable access to data.<br>
81
 
                Reed–Solomon coding is very widely used in mass storage systems to correct the burst 
82
 
                errors associated with media defects. Rather than storing three full versions of 
83
 
                each file like HDFS, resulting in the need for three times more storage, QFS 
84
 
                only needs 1.5x the raw capacity because it stripes data across nine different disk drives. 
85
 
        </td>
86
 
        <td width="20%"><a href="https://www.quantcast.com/engineering/qfs/">1. QFS site</a>
87
 
                <br><a href="https://github.com/quantcast/qfs">2. GitHub QFS</a>
88
 
                <br><a href="https://issues.apache.org/jira/browse/HADOOP-8885">3. HADOOP-8885</a>
89
 
        </td>
90
 
        </tr>
91
 
 
92
 
        <tr>
93
 
        <td width="30%">Ceph Filesystem</td>
94
 
        <td>
95
 
                Ceph is a free software storage platform designed to present object, block, 
96
 
                and file storage from a single distributed computer cluster. Ceph's main 
97
 
                goals are to be completely distributed without a single point of failure, 
98
 
                scalable to the exabyte level, and freely-available. The data is replicated, 
99
 
                making it fault tolerant. 
100
 
        </td>
101
 
        <td width="20%"><a href="http://ceph.com/ceph-storage/file-system/">1. Ceph Filesystem site</a>
102
 
                <br><a href="http://ceph.com/docs/next/cephfs/hadoop/">2. Ceph and Hadoop</a>
103
 
                <br><a href="https://issues.apache.org/jira/browse/HADOOP-6253">3. HADOOP-6253</a>
104
 
        </td>
105
 
        </tr>
106
 
 
107
 
        <tr>
108
 
        <td width="30%">Lustre file system</td>
109
 
        <td>
110
 
                The Lustre filesystem is a high-performance distributed filesystem 
111
 
                intended for larger network and high-availability environments. 
112
 
                Traditionally, Lustre is configured to manage remote data storage 
113
 
                disk devices within a Storage Area Network (SAN), which is two or 
114
 
                more remotely attached disk devices communicating via a Small Computer 
115
 
                System Interface (SCSI) protocol. This includes Fibre Channel, Fibre 
116
 
                Channel over Ethernet (FCoE), Serial Attached SCSI (SAS) and even iSCSI.<br>
117
 
                With Hadoop HDFS  the software needs a dedicated cluster of computers 
118
 
                on which to run.  But folks who run high performance computing clusters 
119
 
                for other purposes often don't run HDFS, which leaves them with a bunch 
120
 
                of computing power, tasks that could almost certainly benefit from a bit 
121
 
                of map reduce and no way to put that power to work running Hadoop. Intel's 
122
 
                noticed this and, in version 2.5 of its Hadoop distribution that it quietly 
123
 
                released last week, has added support for Lustre: the Intel® HPC Distribution 
124
 
                for Apache Hadoop* Software, a new product that combines Intel Distribution 
125
 
                for Apache Hadoop software with Intel® Enterprise Edition for Lustre software. 
126
 
                This is the only distribution of Apache Hadoop that is integrated with Lustre, 
127
 
                the parallel file system used by many of the world's fastest supercomputers
128
 
        </td>
129
 
        <td width="20%"><a href="http://wiki.lustre.org/">1. wiki.lustre.org/</a>
130
 
                <br><a href="http://wiki.lustre.org/index.php/Running_Hadoop_with_Lustre">2. Hadoop with Lustre</a>
131
 
                <br><a href="http://hadoop.intel.com/products/distribution">3. Intel HPC Hadoop</a>
132
 
        </td>
133
 
        </tr>
134
 
 
135
 
        <tr>
136
 
        <td width="30%">Alluxio</td>
137
 
        <td>
138
 
                Alluxio, the world’s first memory-centric virtual distributed storage system, unifies data access 
139
 
                and bridges computation frameworks and underlying storage systems. Applications only need to connect
140
 
                with Alluxio to access data stored in any underlying storage systems. Additionally, Alluxio’s 
141
 
                memory-centric architecture enables data access orders of magnitude faster than existing solutions.
142
 
                <br>
143
 
                In big data ecosystem, Alluxio lies between computation frameworks or jobs, such as Apache Spark, 
144
 
                Apache MapReduce, or Apache Flink, and various kinds of storage systems, such as Amazon S3, 
145
 
                OpenStack Swift, GlusterFS, HDFS, Ceph, or OSS. Alluxio brings significant performance improvement 
146
 
                to the stack; for example, Baidu uses Alluxio to improve their data analytics performance by 30 times. 
147
 
                Beyond performance, Alluxio bridges new workloads with data stored in traditional storage systems. 
148
 
                Users can run Alluxio using its standalone cluster mode, for example on Amazon EC2, or launch Alluxio 
149
 
                with Apache Mesos or Apache Yarn.
150
 
                <br>
151
 
                Alluxio is Hadoop compatible. This means that existing Spark and MapReduce programs can run on top of 
152
 
                Alluxio without any code changes. The project is open source (Apache License 2.0) and is deployed at 
153
 
                multiple companies. It is one of the fastest growing open source projects. With less than three years
154
 
                open source history, Alluxio has attracted more than 160 contributors from over 50 institutions, 
155
 
                including Alibaba, Alluxio, Baidu, CMU, IBM, Intel, NJU, Red Hat, UC Berkeley, and Yahoo. 
156
 
                The project is the storage layer of the Berkeley Data Analytics Stack (BDAS) and also part of the 
157
 
                Fedora distribution.
158
 
        </td>
159
 
        <td width="20%"><a href="http://www.alluxio.org/">1. Alluxio site</a>
160
 
        </td>
161
 
        </tr>
162
 
 
163
 
        <tr>
164
 
        <td width="30%">GridGain</td>
165
 
        <td>
166
 
                GridGain is open source project licensed under Apache 2.0. One of the main pieces of this platform is the 
167
 
                In-Memory Apache Hadoop Accelerator which aims to accelerate HDFS and Map/Reduce by bringing both, data 
168
 
                and computations into memory. This work is done with the GGFS - Hadoop compliant in-memory file system. 
169
 
                For I/O intensive jobs GridGain GGFS offers performance close to 100x faster than standard HDFS.
170
 
                Paraphrasing Dmitriy Setrakyan from GridGain Systems talking about GGFS regarding Tachyon:
171
 
                <ul>
172
 
                 <li>GGFS allows read-through and write-through to/from underlying HDFS or any
173
 
                        other Hadoop compliant file system with zero code change. Essentially GGFS
174
 
                        entirely removes ETL step from integration.</li>
175
 
                 <li>GGFS has ability to pick and choose what folders stay in memory, what
176
 
                        folders stay on disc, and what folders get synchronized with underlying
177
 
                        (HD)FS either synchronously or asynchronously.</li>
178
 
                 <li>GridGain is working on adding native MapReduce component which will
179
 
                        provide native complete Hadoop integration without changes in API, like
180
 
                        Spark currently forces you to do. Essentially GridGain MR+GGFS will allow
181
 
                        to bring Hadoop completely or partially in-memory in Plug-n-Play fashion
182
 
                        without any API changes.</li>
183
 
                </ul>
184
 
        </td>
185
 
        <td width="20%"><a href="http://www.gridgain.org/">1. GridGain site</a>
186
 
        </td>
187
 
        </tr>
188
 
 
189
 
        <tr>
190
 
        <td width="30%">XtreemFS</td>
191
 
        <td>
192
 
                XtreemFS is a general purpose storage system and covers most storage needs in a single deployment.
193
 
                It is open-source, requires no special hardware or kernel modules, and can be mounted on Linux,
194
 
                Windows and OS X.
195
 
                XtreemFS runs distributed and offers resilience through replication. XtreemFS Volumes can be accessed
196
 
                through a FUSE component, that offers normal file interaction with POSIX like semantics. Furthermore an
197
 
                implementation of Hadoops FileSystem interface is included which makes XtreemFS available for use with
198
 
                Hadoop, Flink and Spark out of the box.
199
 
                XtreemFS is licensed under the New BSD license. The XtreemFS project is developed by Zuse Institute Berlin.
200
 
                The development of the project is funded by the European Commission since 2006 under
201
 
                Grant Agreements No. FP6-033576, FP7-ICT-257438, and FP7-318521, as well as the German projects MoSGrid,
202
 
                "First We Take Berlin", FFMK, GeoMultiSens, and BBDC.
203
 
        </td>
204
 
        <td width="20%"><a href="http://www.xtreemfs.org/">1. XtreemFS site</a>
205
 
                        <a href="https://github.com/xtreemfs/xtreemfs/wiki/Apache-Flink-with-XtreemFS">2. Flink on XtreemFS</a>
206
 
                        <a href="https://github.com/xtreemfs/xtreemfs/wiki/Apache-Spark-with-XtreemFS">. Spark XtreemFS</a>
207
 
        </td>
208
 
        </tr>
209
 
 
210
 
<!--                        -->
211
 
<!-- Distributed Programming-->
212
 
<!--                        -->
213
 
<tr>
214
 
<th colspan="3">Distributed Programming</th>
215
 
</tr>
216
 
 
217
 
        <tr>
218
 
        <td width="20%">Apache Ignite</td>
219
 
        <td>
220
 
                Apache Ignite In-Memory Data Fabric is a distributed in-memory platform 
221
 
                for computing and transacting on large-scale data sets in real-time. 
222
 
                It includes a distributed key-value in-memory store, SQL capabilities, 
223
 
                map-reduce and other computations, distributed data structures,
224
 
                continuous queries, messaging and events subsystems, Hadoop and Spark integration.
225
 
                Ignite is built in Java and provides .NET and C++ APIs.
226
 
        </td>
227
 
        <td width="20%"><a href="http://ignite.apache.org/">1. Apache Ignite</a> 
228
 
                <br> <a href="https://apacheignite.readme.io/">2. Apache Ignite documentation</a>               
229
 
        </td>
230
 
        </tr>
231
 
 
232
 
        <tr>
233
 
        <td width="20%">Apache MapReduce</td>
234
 
        <td>
235
 
                MapReduce is a programming model for processing large data sets with a parallel, 
236
 
                distributed algorithm on a cluster. Apache MapReduce was derived from Google 
237
 
                MapReduce: Simplified Data Processing on Large Clusters paper. The current 
238
 
                Apache MapReduce version is built over Apache YARN Framework. YARN stands 
239
 
                for “Yet-Another-Resource-Negotiator”. It is a new framework that facilitates 
240
 
                writing arbitrary distributed processing frameworks and applications. YARN’s 
241
 
                execution model is more generic than the earlier MapReduce implementation. 
242
 
                YARN can run applications that do not follow the MapReduce model, unlike the 
243
 
                original Apache Hadoop MapReduce (also called MR1). Hadoop YARN is an attempt 
244
 
                to take Apache Hadoop beyond MapReduce for data-processing.
245
 
        </td>
246
 
        <td width="20%"><a href="http://wiki.apache.org/hadoop/MapReduce/">1. Apache MapReduce</a> 
247
 
                <br> <a href="http://research.google.com/archive/mapreduce.html">2. Google MapReduce paper</a> 
248
 
                <br> <a href="http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html">3. Writing YARN applications</a>
249
 
        </td>
250
 
        </tr>
251
 
 
252
 
        <tr>
253
 
        <td width="20%">Apache Pig</td>
254
 
        <td>
255
 
                Pig provides an engine for executing data flows in parallel on Hadoop. It includes a language, 
256
 
                Pig Latin, for expressing these data flows. Pig Latin includes operators for many of the 
257
 
                traditional data operations (join, sort, filter, etc.), as well as the ability for users 
258
 
                to develop their own functions for reading, processing, and writing data. Pig runs on Hadoop. 
259
 
                It makes use of both the Hadoop Distributed File System, HDFS, and Hadoop’s processing system, MapReduce.<br>
260
 
                Pig uses MapReduce to execute all of its data processing. It compiles the Pig Latin scripts
261
 
                that users write into a series of one or more MapReduce jobs that it then executes. Pig Latin looks 
262
 
                different from many of the programming languages you have seen. There are no if statements or for 
263
 
                loops in Pig Latin. This is because traditional procedural and object-oriented programming languages 
264
 
                describe control flow, and data flow is a side effect of the program. Pig Latin instead focuses on data flow.
265
 
        </td>
266
 
        <td width="20%"><a href="https://pig.apache.org/">1. pig.apache.org/</a> 
267
 
                <br> <a href="https://github.com/alanfgates/programmingpig">2.Pig examples by Alan Gates</a>
268
 
        </td>
269
 
        </tr>
270
 
 
271
 
        <tr>
272
 
        <td width="20%">JAQL</td>
273
 
        <td>
274
 
                JAQL is a functional, declarative programming language designed especially for working with large 
275
 
                volumes of structured, semi-structured and unstructured data. As its name implies, a primary 
276
 
                use of JAQL is to handle data stored as JSON documents, but JAQL can work on various types of data. 
277
 
                For example, it can support XML, comma-separated values (CSV) data and flat files. A "SQL within JAQL" 
278
 
                capability lets programmers work with structured SQL data while employing a JSON data model that's less 
279
 
                restrictive than its Structured Query Language counterparts.<br>
280
 
                Specifically, Jaql allows you to select, join, group, and filter data that is stored in HDFS, much 
281
 
                like a blend of Pig and Hive. Jaql’s query language was inspired by many programming and query languages, 
282
 
                including Lisp, SQL, XQuery, and Pig. <br>
283
 
                JAQL was created by workers at IBM Research Labs in 2008 and released to open source. While it continues 
284
 
                to be hosted as a project on Google Code, where a downloadable version is available under an Apache 2.0 license, 
285
 
                the major development activity around JAQL has remained centered at IBM. The company offers the query language 
286
 
                as part of the tools suite associated with InfoSphere BigInsights, its Hadoop platform. Working together with a 
287
 
                workflow orchestrator, JAQL is used in BigInsights to exchange data between storage, processing and analytics jobs. 
288
 
                It also provides links to external data and services, including relational databases and machine learning data. 
289
 
        </td>
290
 
        <td width="20%"><a href="https://code.google.com/p/jaql/">1. JAQL in Google Code</a> 
291
 
                <br> <a href="http://www-01.ibm.com/software/data/infosphere/hadoop/jaql/">2. What is Jaql? by IBM</a>
292
 
        </td>
293
 
        </tr>
294
 
 
295
 
        <tr>
296
 
        <td width="20%">Apache Spark</td>
297
 
        <td>
298
 
                Data analytics cluster computing framework originally developed in the AMPLab at UC Berkeley. 
299
 
                Spark fits into the Hadoop open-source community, building on top of the Hadoop Distributed File System (HDFS). 
300
 
                However, Spark provides an easier to use alternative to Hadoop MapReduce and offers performance up to 10 times 
301
 
                faster than previous generation systems like Hadoop MapReduce for certain applications.<br>
302
 
                Spark is a framework for writing fast, distributed programs. Spark solves similar problems as Hadoop MapReduce 
303
 
                does but with a fast in-memory approach and a clean functional style API. With its ability to integrate with 
304
 
                Hadoop and inbuilt tools for interactive query analysis (Shark), large-scale graph processing and analysis (Bagel), 
305
 
                and real-time analysis (Spark Streaming), it can be interactively used to quickly process and query big data sets.<br>
306
 
                To make programming faster, Spark provides clean, concise APIs in Scala, Java and Python. You can also use Spark 
307
 
                interactively from the Scala and Python shells to rapidly query big datasets. Spark is also the engine behind Shark, 
308
 
                a fully Apache Hive-compatible data warehousing system that can run 100x faster than Hive.
309
 
        </td>
310
 
        <td width="20%"><a href="http://spark.apache.org/">1. Apache Spark</a>
311
 
                <br> <a href="https://github.com/apache/spark">2. Mirror of Spark on Github</a>
312
 
                <br> <a href="http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf">3. RDDs - Paper</a>
313
 
                <br> <a href="https://people.csail.mit.edu/matei/papers/2010/hotcloud_spark.pdf">4. Spark: Cluster Computing... - Paper</a>
314
 
                <br> <a href="http://spark.apache.org/research.html">Spark Research</a>
315
 
        </td>
316
 
        </tr>
317
 
        
318
 
        <tr>
319
 
        <td width="20%">Apache Storm</td>
320
 
        <td>
321
 
                Storm is a complex event processor (CEP) and distributed computation 
322
 
                framework written predominantly in the Clojure programming language. 
323
 
                Is a distributed real-time computation system for processing fast, 
324
 
                large streams of data. Storm is an architecture based on master-workers 
325
 
                paradigma. So a Storm cluster mainly consists of a master and worker 
326
 
                nodes, with coordination done by Zookeeper. <br>
327
 
                Storm makes use of zeromq (0mq, zeromq), an advanced, embeddable 
328
 
                networking library.  It provides a message queue, but unlike 
329
 
                message-oriented middleware (MOM), a 0MQ system can run without 
330
 
                a dedicated message broker. The library is designed to have a 
331
 
                familiar socket-style API.<br>
332
 
                Originally created by Nathan Marz and team at BackType, the 
333
 
                project was open sourced after being acquired by Twitter. Storm 
334
 
                was initially developed and deployed at BackType in 2011. After 
335
 
                7 months of development BackType was acquired by Twitter in July 
336
 
                2011. Storm was open sourced in September 2011. <br>
337
 
                Hortonworks is developing a Storm-on-YARN version and plans 
338
 
                finish the base-level integration in 2013 Q4. This is the plan 
339
 
                from Hortonworks. Yahoo/Hortonworks  also plans to move Storm-on-YARN 
340
 
                code from github.com/yahoo/storm-yarn to be a subproject of 
341
 
                Apache Storm project in the near future.<br>
342
 
                Twitter has recently released a Hadoop-Storm Hybrid called 
343
 
                “Summingbird.” Summingbird fuses the two frameworks into one, 
344
 
                allowing for developers to use Storm for short-term processing 
345
 
                and Hadoop for deep data dives,. a system that aims to mitigate 
346
 
                the tradeoffs between batch processing and stream processing by 
347
 
                combining them into a hybrid system.
348
 
        </td>
349
 
        <td width="20%"><a href="http://storm-project.net/">1. Storm Project/</a> 
350
 
                <br> <a href="github.com/yahoo/storm-yarn">2. Storm-on-YARN</a>
351
 
        </td>
352
 
        </tr>
353
 
 
354
 
        <tr>
355
 
        <td width="20%">Apache Flink</td>
356
 
        <td>
357
 
                Apache Flink (formerly called Stratosphere) features powerful programming abstractions in Java and Scala, 
358
 
                a high-performance runtime, and automatic program optimization. It has native support for iterations, 
359
 
                incremental iterations, and programs consisting of large DAGs of operations.<br>
360
 
                Flink is a data processing system and an alternative to Hadoop's MapReduce component. It comes with 
361
 
                its own runtime, rather than building on top of MapReduce. As such, it can work completely independently 
362
 
                of the Hadoop ecosystem. However, Flink can also access Hadoop's distributed file system (HDFS) to read 
363
 
                and write data, and Hadoop's next-generation resource manager (YARN) to provision cluster resources. 
364
 
                Since most Flink users are using Hadoop HDFS to store their data, it ships already the required libraries to access HDFS.
365
 
        </td>
366
 
        <td width="20%"><a href="http://flink.incubator.apache.org/">1. Apache Flink incubator page</a>
367
 
                <br><a href="http://stratosphere.eu/">2. Stratosphere site</a>
368
 
        </td>
369
 
        </tr>
370
 
 
371
 
        <tr>
372
 
        <td width="20%">Apache Apex</td>
373
 
        <td>
374
 
                Apache Apex is an enterprise grade Apache YARN based big data-in-motion platform that 
375
 
                unifies stream processing as well as batch processing. It processes big data 
376
 
                in-motion in a highly scalable, highly performant, fault tolerant, stateful, 
377
 
                secure, distributed, and an easily operable way. It provides a simple API that 
378
 
                enables users to write or re-use generic Java code, thereby lowering the expertise 
379
 
                needed to write big data applications. <p>
380
 
                The Apache Apex platform is supplemented by Apache Apex-Malhar, 
381
 
                which is a library of operators that implement common business logic 
382
 
                functions needed by customers who want to quickly develop applications. 
383
 
                These operators provide access to HDFS, S3, NFS, FTP, and other file systems; 
384
 
                Kafka, ActiveMQ, RabbitMQ, JMS, and other message systems; MySql, Cassandra, 
385
 
                MongoDB, Redis, HBase, CouchDB and other databases along with JDBC connectors. 
386
 
                The library also includes a host of other common business logic patterns that 
387
 
                help users to significantly reduce the time it takes to go into production. 
388
 
                Ease of integration with all other big data technologies is one of the primary 
389
 
                missions of Apache Apex-Malhar.<p>
390
 
                Apex, available on GitHub, is the core technology upon which DataTorrent's 
391
 
                commercial offering, DataTorrent RTS 3, along with other technology such as 
392
 
                a data ingestion tool called dtIngest, are based.
393
 
        </td>
394
 
        <td width="20%"><a href="https://www.datatorrent.com/apex/">1. Apache Apex from DataTorrent</a>
395
 
                <br><a href="http://apex.incubator.apache.org/">2. Apache Apex main page</a>
396
 
                <br><a href="https://wiki.apache.org/incubator/ApexProposal">3. Apache Apex Proposal</a>
397
 
        </td>
398
 
        </tr>
399
 
 
400
 
        <tr>
401
 
        <td width="20%">Netflix PigPen</td>
402
 
        <td>
403
 
                PigPen is map-reduce for Clojure which compiles to Apache Pig. Clojure is dialect of the Lisp programming 
404
 
                language created by Rich Hickey, so is a functional general-purpose language, and runs on the Java Virtual Machine, 
405
 
                Common Language Runtime, and JavaScript engines. In PigPen there are no special user defined functions (UDFs). 
406
 
                Define Clojure functions, anonymously or named, and use them like you would in any Clojure program. This tool 
407
 
                is open sourced by Netflix, Inc. the American provider of on-demand Internet streaming media.
408
 
        </td>
409
 
        <td width="20%"><a href="https://github.com/Netflix/PigPen">1. PigPen on GitHub</a>
410
 
        </td>
411
 
        </tr>
412
 
 
413
 
        <tr>
414
 
        <td width="20%">AMPLab SIMR</td>
415
 
        <td>
416
 
                Apache Spark was developed thinking in Apache YARN. However, up to now, it has been relatively hard to run 
417
 
                Apache Spark on Hadoop MapReduce v1 clusters, i.e. clusters that do not have YARN installed. Typically, 
418
 
                users would have to get permission to install Spark/Scala on some subset of the machines, a process that 
419
 
                could be time consuming. SIMR allows anyone with access to a Hadoop MapReduce v1 cluster to run Spark out 
420
 
                of the box. A user can run Spark directly on top of Hadoop MapReduce v1 without any administrative rights, 
421
 
                and without having Spark or Scala installed on any of the nodes.
422
 
        </td>
423
 
        <td width="20%"><a href="http://databricks.github.io/simr/">1. SIMR on GitHub</a>
424
 
        </td>
425
 
        </tr>
426
 
 
427
 
        <tr>
428
 
        <td width="20%">Facebook Corona</td>
429
 
        <td>
430
 
                “The next version of Map-Reduce" from Facebook, based in own fork of Hadoop. The current Hadoop implementation 
431
 
                of the MapReduce technique uses a single job tracker, which causes scaling issues for very large data sets. 
432
 
                The Apache Hadoop developers have been creating their own next-generation MapReduce, called YARN, which Facebook 
433
 
                engineers looked at but discounted because of the highly-customised nature of the company's deployment of Hadoop and HDFS.
434
 
                Corona, like YARN, spawns multiple job trackers (one for each job, in Corona's case). 
435
 
        </td>
436
 
        <td width="20%"><a href="https://github.com/facebookarchive/hadoop-20/tree/master/src/contrib/corona">1. Corona on Github</a>
437
 
        </td>
438
 
        </tr>
439
 
 
440
 
    <tr>
441
 
        <td width="20%">Apache REEF</td>
442
 
        <td>
443
 
                Apache REEF&trade; (Retainable Evaluator Execution Framework) is a  library for developing portable
444
 
                applications for cluster resource managers such as Apache Hadoop&trade; YARN or Apache Mesos&trade;.
445
 
                Apache REEF drastically simplifies development of those resource managers through the following features:
446
 
 
447
 
                <ul>
448
 
                        <li>
449
 
                                Centralized Control Flow: Apache REEF turns the chaos of a distributed application into events in a 
450
 
                                single machine, the Job Driver. Events include container allocation, Task launch, completion and 
451
 
                                failure. For failures, Apache REEF makes every effort of making the actual `Exception` thrown by the 
452
 
                                Task available to the Driver.
453
 
                        </li>
454
 
                        <li>
455
 
                                Task runtime: Apache REEF provides a Task runtime called Evaluator. Evaluators are instantiated in 
456
 
                                every container of a REEF application. Evaluators can keep data in memory in between Tasks, which 
457
 
                                enables efficient pipelines on REEF.
458
 
                        </li>
459
 
                        <li>
460
 
                                Support for multiple resource managers: Apache REEF applications are portable to any supported resource 
461
 
                                manager with minimal effort. Further, new resource managers are easy to support in REEF.
462
 
                        </li> 
463
 
                <li>
464
 
                                 .NET and Java API: Apache REEF is the only API to write YARN or Mesos applications in .NET. Further, a 
465
 
                                 single REEF application is free to mix and match Tasks written for .NET or Java.
466
 
                        </li>
467
 
                <li>
468
 
                                Plugins: Apache REEF allows for plugins (called "Services") to augment its feature set without adding  
469
 
                                bloat to the core. REEF includes many Services, such as a name-based communications between Tasks 
470
 
                                MPI-inspired group communications (Broadcast, Reduce, Gather, ...) and data ingress.
471
 
                        </li>
472
 
                </ul>
473
 
        </td>
474
 
        <td width="20%"><a href="https://reef.apache.org">1. Apache REEF Website</a>
475
 
        </td>
476
 
        </tr>
477
 
 
478
 
        <tr>
479
 
        <td width="20%">Apache Twill</td>
480
 
        <td>
481
 
                Twill is an abstraction over Apache Hadoop® YARN that reduces the 
482
 
                complexity of developing distributed applications, allowing developers 
483
 
                to focus more on their business logic. Twill uses a simple thread-based model that Java 
484
 
                programmers will find familiar. YARN can be viewed as a compute 
485
 
                fabric of a cluster, which means YARN applications like Twill will 
486
 
                run on any Hadoop 2 cluster.<br>
487
 
                YARN is an open source application that allows the Hadoop cluster 
488
 
                to turn into a collection of virtual machines. Weave, developed by 
489
 
                Continuuity and initially housed on Github, is a complementary open 
490
 
                source application that uses a programming model similar to Java 
491
 
                threads, making it easy to write distributed applications. In order to remove 
492
 
                a conflict with a similarly named project on Apache, called "Weaver," 
493
 
                Weave's name changed to Twill when it moved to Apache incubation.<br>
494
 
                Twill functions as a scaled-out proxy. Twill is a middleware layer 
495
 
                in between YARN and any application on YARN. When you develop a 
496
 
                Twill app, Twill handles APIs in YARN that resemble a multi-threaded application familiar to Java. 
497
 
                It is very easy to build multi-processed distributed applications in Twill.
498
 
        </td>
499
 
        <td width="20%"><a href="https://incubator.apache.org/projects/twill.html">1. Apache Twill Incubator</a>
500
 
        </td>
501
 
        </tr>
502
 
 
503
 
        <tr>
504
 
        <td width="20%">Damballa Parkour</td>
505
 
        <td>
506
 
                Library for develop MapReduce programs using the LISP like language Clojure. Parkour aims to provide deep Clojure 
507
 
                integration for Hadoop.  Programs using Parkour are normal Clojure programs, using standard Clojure functions 
508
 
                instead of new framework abstractions.  Programs using Parkour are also full Hadoop programs, with complete 
509
 
                access to absolutely everything possible in raw Java Hadoop MapReduce.
510
 
        </td>
511
 
        <td width="20%"><a href="https://github.com/damballa/parkour">1. Parkour GitHub Project</a>
512
 
        </td>
513
 
        </tr>
514
 
 
515
 
        <tr>
516
 
        <td width="20%">Apache Hama</td>
517
 
        <td>
518
 
                Apache Top-Level open source project, allowing you to do advanced analytics beyond MapReduce. Many data 
519
 
                analysis techniques such as machine learning and graph algorithms require iterative computations, 
520
 
                this is where Bulk Synchronous Parallel model can be more effective than "plain" MapReduce.
521
 
        </td>
522
 
        <td width="20%"><a href="http://hama.apache.org/">1. Hama site</a>
523
 
        </td>
524
 
        </tr>
525
 
 
526
 
        <tr>
527
 
        <td width="20%">Datasalt Pangool</td>
528
 
        <td>
529
 
                A new MapReduce paradigm. A new API for MR jobs, in higher level than Java.
530
 
        </td>
531
 
        <td width="20%"><a href="http://pangool.net">1.Pangool</a>
532
 
        <br> <a href = "https://github.com/datasalt/pangool">2.GitHub Pangool</a>
533
 
        </td>
534
 
        </tr>
535
 
 
536
 
        <tr>
537
 
        <td width="20%">Apache Tez</td>
538
 
        <td>
539
 
                Tez is a proposal to develop a generic application which can be used to process complex data-processing 
540
 
                task DAGs and runs natively on Apache Hadoop YARN. Tez generalizes the MapReduce paradigm to a more 
541
 
                powerful framework based on expressing computations as a dataflow graph. Tez is not meant directly for 
542
 
                end-users – in fact it enables developers to build end-user applications with much better performance 
543
 
                and flexibility. Hadoop has traditionally been a batch-processing platform for large amounts of data. 
544
 
                However, there are a lot of use cases for near-real-time performance of query processing. There are also 
545
 
                several workloads, such as Machine Learning, which do not fit will into the MapReduce paradigm. Tez helps 
546
 
                Hadoop address these use cases. Tez framework constitutes part of Stinger initiative (a low latency 
547
 
                based SQL type query interface for Hadoop based on Hive).
548
 
        </td>
549
 
        <td width="20%"><a href="http://incubator.apache.org/projects/tez.html">1. Apache Tez Incubator</a>
550
 
                <br> <a href="http://hortonworks.com/hadoop/tez/">2. Hortonworks Apache Tez page</a>
551
 
        </td>
552
 
        </tr>
553
 
 
554
 
        <tr>
555
 
        <td width="20%">Apache DataFu</td>
556
 
        <td>
557
 
                DataFu provides a collection of Hadoop MapReduce jobs and functions in higher level languages based 
558
 
                on it to perform data analysis. It provides functions for common statistics tasks (e.g. quantiles, 
559
 
                sampling), PageRank, stream sessionization, and set and bag operations. DataFu also provides Hadoop 
560
 
                jobs for incremental data processing in MapReduce. DataFu is a collection of Pig UDFs (including PageRank, 
561
 
                sessionization, set operations, sampling, and much more) that were originally developed at LinkedIn.
562
 
        </td>
563
 
        <td width="20%"><a href="http://incubator.apache.org/projects/datafu.html">1. DataFu Apache Incubator</a>
564
 
        </td>
565
 
        </tr>
566
 
 
567
 
        <tr>
568
 
        <td width="20%">Pydoop</td>
569
 
        <td>
570
 
                Pydoop is a Python MapReduce and HDFS API for Hadoop, built upon the C++
571
 
                Pipes and the C libhdfs APIs, that allows to write full-fledged  MapReduce 
572
 
                applications with HDFS access. Pydoop has several advantages over Hadoop’s built-in 
573
 
                solutions for Python programming, i.e., Hadoop Streaming and Jython: being a CPython 
574
 
                package, it allows you to access all standard library and third party modules, 
575
 
                some of which may not be available.
576
 
        </td>
577
 
        <td width="20%"><a href="http://pydoop.sourceforge.net/docs/">1. SF Pydoop site</a>
578
 
                <br> <a href="https://github.com/crs4/pydoop">2. Pydoop GitHub Project</a>
579
 
        </td>
580
 
        </tr>
581
 
 
582
 
        <tr>
583
 
        <td width="20%">Kangaroo</td>
584
 
        <td>
585
 
                Open-source project from Conductor for writing MapReduce jobs consuming data from Kafka. 
586
 
                The introductory post explains Conductor’s use case—loading data from Kafka to HBase 
587
 
                by way of a MapReduce job using the HFileOutputFormat. Unlike other solutions 
588
 
                which are limited to a single InputSplit per Kafka partition, Kangaroo can launch 
589
 
                multiple consumers at different offsets in the stream of a single partition for 
590
 
                increased throughput and parallelism.
591
 
        </td>
592
 
        <td width="20%"><a href="http://www.conductor.com/nightlight/data-stream-processing-bulk-kafka-hadoop/">1. Kangaroo Introduction</a>
593
 
                <br> <a href="https://github.com/Conductor/kangaroo">2. Kangaroo GitHub Project</a>
594
 
        </td>
595
 
        </tr>
596
 
 
597
 
        <tr>
598
 
        <td width="20%">TinkerPop</td>
599
 
        <td>
600
 
                Graph computing framework written in Java. Provides a core API that graph system vendors can implement. 
601
 
                There are various types of graph systems including in-memory graph libraries, OLTP graph databases, 
602
 
                and OLAP graph processors. Once the core interfaces are implemented, the underlying graph system 
603
 
                can be queried using the graph traversal language Gremlin and processed with TinkerPop-enabled 
604
 
                algorithms. For many, TinkerPop is seen as the JDBC of the graph computing community.
605
 
        </td>
606
 
        <td width="20%"><a href="https://wiki.apache.org/incubator/TinkerPopProposal">1. Apache Tinkerpop Proposal</a>
607
 
                <br> <a href="http://www.tinkerpop.com/">2. TinkerPop site</a>
608
 
        </td>
609
 
        </tr>
610
 
 
611
 
        <tr>
612
 
        <td width="20%">Pachyderm MapReduce</td>
613
 
        <td>
614
 
                Pachyderm is a completely new MapReduce engine built on top Docker and CoreOS. 
615
 
                In Pachyderm MapReduce (PMR) a job is an HTTP server inside a Docker container 
616
 
                (a microservice). You give Pachyderm a Docker image and it will automatically 
617
 
                distribute it throughout the cluster next to your data. Data is POSTed to 
618
 
                the container over HTTP and the results are stored back in the file system. 
619
 
                You can implement the web server in any language you want and pull in any library.
620
 
                Pachyderm also creates a DAG for all the jobs in the system and their dependencies 
621
 
                and it automatically schedules the pipeline such that each job isn’t run until it’s 
622
 
                dependencies have completed. Everything in Pachyderm “speaks in diffs” so it knows 
623
 
                exactly which data has changed and which subsets of the pipeline need to be rerun.
624
 
                CoreOS is an open source lightweight operating system based on Chrome OS, actually
625
 
                CoreOS is a fork of Chrome OS. CoreOS provides only the minimal functionality 
626
 
                required for deploying applications inside software containers, together with 
627
 
                built-in mechanisms for service discovery and configuration sharing
628
 
        </td>
629
 
        <td width="20%"><a href="http://www.pachyderm.io/">1. Pachyderm site</a>
630
 
                <br> <a href="https://medium.com/pachyderm-data/lets-build-a-modern-hadoop-4fc160f8d74f">2. Pachyderm introduction article</a>
631
 
        </td>
632
 
        </tr>
633
 
 
634
 
        <tr>
635
 
        <td width="20%">Apache Beam</td>
636
 
        <td>
637
 
                Apache Beam is an open source, unified model for defining and executing 
638
 
                data-parallel processing pipelines, as well as a set of language-specific 
639
 
                SDKs for constructing pipelines and runtime-specific Runners for executing them.<p>
640
 
                The model behind Beam evolved from a number of internal Google 
641
 
                data processing projects, including MapReduce, FlumeJava, and 
642
 
                Millwheel. This model was originally known as the “Dataflow Model” 
643
 
                and first implemented as Google Cloud Dataflow, including a Java SDK 
644
 
                on GitHub for writing pipelines and fully managed service for 
645
 
                executing them on Google Cloud Platform.<p>
646
 
                In January 2016, Google and a number of partners submitted the Dataflow 
647
 
                Programming Model and SDKs portion as an Apache Incubator Proposal, 
648
 
                under the name Apache Beam (unified Batch + strEAM processing). 
649
 
        </td>
650
 
        <td width="20%"><a href="https://wiki.apache.org/incubator/BeamProposal">1. Apache Beam Proposal</a>
651
 
                <br><a href="https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison">2. DataFlow Beam and Spark Comparasion</a>
652
 
        </td>
653
 
        </tr>
654
 
 
655
 
<!--                        -->
656
 
<!-- NoSQL ecosystem        -->
657
 
<!--                        -->
658
 
<tr>
659
 
<th colspan="3">NoSQL Databases</th>
660
 
</tr>
661
 
 
662
 
<tr>
663
 
<th colspan="3" style="background-color:#0099FF;">Column Data Model</th>
664
 
</tr>
665
 
 
666
 
        <tr>
667
 
        <td width="20%">Apache HBase</td>
668
 
        <td>
669
 
                Google BigTable Inspired. Non-relational distributed database. 
670
 
                Ramdom, real-time r/w operations in column-oriented very large 
671
 
                tables (BDDB: Big Data Data Base). It’s the backing system for 
672
 
                MR jobs outputs. It’s the Hadoop database.  It’s for backing 
673
 
                Hadoop MapReduce jobs with Apache HBase tables
674
 
        </td>
675
 
        <td width="20%"><a href="https://hbase.apache.org/">1. Apache HBase Home</a>
676
 
                <br> <a href="https://github.com/apache/hbase">2. Mirror of HBase on Github</a>
677
 
        </td>
678
 
        </tr>
679
 
 
680
 
        <tr>
681
 
        <td width="20%">Apache Cassandra</td>
682
 
        <td>
683
 
                Distributed Non-SQL DBMS, it’s a BDDB. MR can retrieve data from Cassandra. 
684
 
                This BDDB can run without HDFS, or on-top of HDFS (DataStax fork of Cassandra).  
685
 
                HBase and its required supporting systems are derived from what is known of 
686
 
                the original Google BigTable and Google File System designs (as known from the 
687
 
                Google File System paper Google published in 2003, and the BigTable paper published 
688
 
                in 2006). Cassandra on the other hand is a recent open source fork of a standalone 
689
 
                database system initially coded by Facebook, which while implementing the BigTable 
690
 
                data model, uses a system inspired by Amazon’s Dynamo for storing data (in fact 
691
 
                much of the initial development work on Cassandra was performed by two Dynamo 
692
 
                engineers recruited to Facebook from Amazon).
693
 
        </td>
694
 
        <td width="20%">
695
 
                <a href="http://cassandra.apache.org" target="_blank">1. Apache HBase Home</a> <br>
696
 
                <a href="https://github.com/apache/cassandra" target="_blank">2. Cassandra on GitHub</a> <br>
697
 
                <a href="https://academy.datastax.com" target="_blank">3. Training Resources</a> <br>
698
 
                <a href="https://www.cs.cornell.edu/projects/ladis2009/papers/lakshman-ladis2009.pdf" target="_blank">4. Cassandra - Paper</a>
699
 
        </td>
700
 
        </tr>
701
 
 
702
 
        <tr>
703
 
        <td width="20%">Hypertable</td>
704
 
        <td>
705
 
                Database system inspired by publications on the design of Google's 
706
 
                BigTable. The project is based on experience of engineers who were 
707
 
                solving large-scale data-intensive tasks for many years. Hypertable 
708
 
                runs on top of a distributed file system such as the Apache Hadoop DFS, 
709
 
                GlusterFS, or the Kosmos File System (KFS). It is written almost entirely 
710
 
                in C++. Sposored by Baidu the Chinese search engine.
711
 
        </td>
712
 
        <td width="20%">TODO</td>
713
 
        </tr>
714
 
 
715
 
        <tr>
716
 
        <td width="20%">Apache Accumulo</td>
717
 
        <td>
718
 
                Distributed key/value store is a robust, scalable, high performance 
719
 
                data storage and retrieval system. Apache Accumulo is based on Google's 
720
 
                BigTable design and is built on top of Apache Hadoop, Zookeeper, and Thrift. 
721
 
                Accumulo is software created by the NSA with security features.
722
 
        </td>
723
 
        <td width="20%"><a href="https://accumulo.apache.org/">1. Apache Accumulo Home</a>
724
 
        </td>
725
 
        </tr>
726
 
 
727
 
        <tr>
728
 
        <td width="20%">Apache Kudu</td>
729
 
        <td>
730
 
                Distributed, columnar, relational data store optimized for analytical use cases requiring 
731
 
                very fast reads with competitive write speeds.
732
 
                <ul>
733
 
                  <li>Relational data model (tables) with strongly-typed columns and a fast, online alter table operation.</li>
734
 
                  <li>Scale-out and sharded with support for partitioning based on key ranges and/or hashing.</li>
735
 
                  <li>Fault-tolerant and consistent due to its implementation of Raft consensus.</li>
736
 
                  <li>Supported by Apache Impala and Apache Drill, enabling fast SQL reads and writes through those systems.</li>
737
 
                  <li>Integrates with MapReduce and Spark.</li>
738
 
                  <li>Additionally provides "NoSQL" APIs in Java, Python, and C++.</li>
739
 
                </ul>
740
 
        </td>
741
 
        <td width="20%"><a href="http://getkudu.io/">1. Apache Kudu Home</a><br>
742
 
                <a href="http://github.com/cloudera/kudu">2. Kudu on Github</a><br>
743
 
                <a href="http://getkudu.io/kudu.pdf">3. Kudu technical whitepaper (pdf)</a>
744
 
        </td>
745
 
        </tr>
746
 
 
747
 
        <tr>
748
 
        <td width="20%">Apache Parquet</td>
749
 
        <td>
750
 
                Columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of
751
 
data processing framework, data model or programming language.
752
 
        </td>
753
 
        <td width="20%"><a href="https://parquet.apache.org">1. Apache Parquet Home</a><br>
754
 
                <a href="https://github.com/apache/parquet-mr">2. Apache Parquet on Github</a>
755
 
        </td>
756
 
        </tr>
757
 
 
758
 
<tr>
759
 
<th colspan="3" style="background-color:#0099FF;">Document Data Model</th>
760
 
</tr>
761
 
 
762
 
        <tr>
763
 
        <td width="20%">MongoDB</td>
764
 
        <td>
765
 
                Document-oriented database system. It is part of the NoSQL family of 
766
 
                database systems. Instead of storing data in tables as is done in a "classical" 
767
 
                relational database, MongoDB stores structured data as JSON-like documents
768
 
        </td>
769
 
        <td width="20%"><a href="http://www.mongodb.org/">1. Mongodb site</a>
770
 
        </td>
771
 
        </tr>
772
 
 
773
 
        <tr>
774
 
        <td width="20%">RethinkDB</td>
775
 
        <td>
776
 
                RethinkDB is built to store JSON documents, and scale to multiple 
777
 
                machines with very little effort. It has a pleasant query language 
778
 
                that supports really useful queries like table joins and group by, 
779
 
                and is easy to setup and learn.
780
 
        </td>
781
 
        <td width="20%"><a href="http://www.rethinkdb.com/">1. RethinkDB site</a>
782
 
        </td>
783
 
        </tr>
784
 
 
785
 
        <tr>
786
 
        <td width="20%">ArangoDB</td>
787
 
        <td>
788
 
                An open-source database with a flexible data model for documents, graphs, 
789
 
                and key-values. Build high performance applications using a convenient 
790
 
                sql-like query language or JavaScript extensions.
791
 
        </td>
792
 
        <td width="20%"><a href="https://www.arangodb.org/">1. ArangoDB site</a>
793
 
        </td>
794
 
        </tr>
795
 
 
796
 
<tr>
797
 
<th colspan="3" style="background-color:#0099FF;">Stream Data Model</th>
798
 
</tr>
799
 
 
800
 
        <tr>
801
 
        <td width="20%">EventStore</td>
802
 
        <td>
803
 
                An open-source, functional database with support for Complex Event Processing. 
804
 
                It provides a persistence engine for applications using event-sourcing, or for 
805
 
                storing time-series data. Event Store is written in C#, C++ for the server which 
806
 
                runs on Mono or the .NET CLR, on Linux or Windows. 
807
 
                Applications using Event Store can be written in JavaScript. Event sourcing (ES)
808
 
                is a way of persisting your application's state by storing the history that determines 
809
 
                the current state of your application.
810
 
        </td>
811
 
        <td width="20%"><a href="http://geteventstore.com/">1. EventStore site</a>
812
 
        </td>
813
 
        </tr>
814
 
 
815
 
<tr>
816
 
<th colspan="3" style="background-color:#0099FF;">Key-value Data Model</th>
817
 
</tr>
818
 
 
819
 
        <tr>
820
 
        <td width="20%">Redis DataBase</td>
821
 
        <td>
822
 
                Redis is an open-source, networked, in-memory, data structures 
823
 
                store with optional durability. It is written in ANSI C.
824
 
                In its outer layer, the Redis data model is a dictionary which 
825
 
                maps keys to values. One of the main differences between Redis 
826
 
                and other structured storage systems is that Redis supports not 
827
 
                only strings, but also abstract data types. Sponsored by Redis Labs. 
828
 
                It’s BSD licensed.
829
 
        </td>
830
 
        <td width="20%"><a href="http://redis.io/">1. Redis site</a>
831
 
                <br> <a href="http://redislabs.com/">2. Redis Labs site</a>
832
 
        </td>
833
 
        </tr>
834
 
 
835
 
        <tr>
836
 
        <td width="20%">Linkedin Voldemort</td>
837
 
        <td>
838
 
                Distributed data store that is designed as a key-value store used 
839
 
                by LinkedIn for high-scalability storage.
840
 
        </td>
841
 
        <td width="20%"><a href="http://www.project-voldemort.com/voldemort/">1. Voldemort site</a>
842
 
        </td>
843
 
        </tr>
844
 
 
845
 
        <tr>
846
 
        <td width="20%">RocksDB</td>
847
 
        <td>
848
 
                RocksDB is an embeddable persistent key-value store for fast storage. 
849
 
                RocksDB can also be the foundation for a client-server database but our 
850
 
                current focus is on embedded workloads.
851
 
        </td>
852
 
        <td width="20%"><a href="http://rocksdb.org/">1. RocksDB site</a>
853
 
        </td>
854
 
        </tr>
855
 
 
856
 
        <tr>
857
 
        <td width="20%">OpenTSDB</td>
858
 
        <td>
859
 
                OpenTSDB is a distributed, scalable Time Series Database (TSDB) 
860
 
                written on top of HBase. OpenTSDB was written to address a common 
861
 
                need: store, index and serve metrics collected from computer systems 
862
 
                (network gear, operating systems, applications) at a large scale, 
863
 
                and make this data easily accessible and graphable.
864
 
        </td>
865
 
        <td width="20%"><a href="http://opentsdb.net/">1. OpenTSDB site</a>
866
 
        </td>
867
 
        </tr>
868
 
 
869
 
<!--                        -->
870
 
<!-- NoSQL: Graph Data Model -->
871
 
<!--                        -->
872
 
<tr>
873
 
<th colspan="3" style="background-color:#0099FF;">Graph Data Model</th>
874
 
</tr>
875
 
 
876
 
        <tr>
877
 
        <td width="20%">ArangoDB</td>
878
 
        <td>
879
 
                An open-source database with a flexible data model for documents, 
880
 
                graphs, and key-values. Build high performance applications using 
881
 
                a convenient sql-like query language or JavaScript extensions.
882
 
        </td>
883
 
        <td width="20%"><a href="https://www.arangodb.org/">1. ArangoDB site</a>
884
 
        </td>
885
 
        </tr>
886
 
 
887
 
        <tr>
888
 
        <td width="20%">Neo4j</td>
889
 
        <td>
890
 
                An open-source graph database writting entirely in Java. It is an 
891
 
                embedded, disk-based, fully transactional Java persistence engine 
892
 
                that stores data structured in graphs rather than in tables.
893
 
        </td>
894
 
        <td width="20%"><a href="http://www.neo4j.org/">1. Neo4j site</a>
895
 
        </td>
896
 
        </tr>
897
 
 
898
 
        <tr>
899
 
        <td width="20%">TitanDB</td>
900
 
        <td>
901
 
                TitanDB is a highly scalable graph database optimized for storing 
902
 
                and querying large graphs with billions of vertices and edges 
903
 
                distributed across a multi-machine cluster. Titan is a transactional 
904
 
                database that can support thousands of concurrent users.
905
 
        </td>
906
 
        <td width="20%"><a href="http://thinkaurelius.github.io/titan/">1. Titan site</a>
907
 
        </td>
908
 
        </tr>
909
 
 
910
 
<!--                        -->
911
 
<!-- NewSQL ecosystem       -->
912
 
<!--                        -->
913
 
<tr>
914
 
<th colspan="3">NewSQL Databases</th>
915
 
</tr>
916
 
 
917
 
        <tr>
918
 
        <td width="20%">TokuDB</td>
919
 
        <td>
920
 
                TokuDB is a storage engine for MySQL and MariaDB that is specifically 
921
 
                designed for high performance on write-intensive workloads. It achieves 
922
 
                this via Fractal Tree indexing. TokuDB is a scalable, ACID and MVCC 
923
 
                compliant storage engine. TokuDB is one of the technologies that enable 
924
 
                Big Data in MySQL.
925
 
        </td>
926
 
        <td width="20%">TODO</td>
927
 
        </tr>
928
 
 
929
 
        <tr>
930
 
        <td width="20%">HandlerSocket</td>
931
 
        <td>
932
 
                HandlerSocket is a NoSQL plugin for MySQL/MariaDB (the storage engine 
933
 
                of MySQL). It works as a daemon inside the mysqld process, accepting TCP 
934
 
                connections, and executing requests from clients. HandlerSocket does not 
935
 
                support SQL queries. Instead, it supports simple CRUD operations on tables.
936
 
                HandlerSocket can be much faster than mysqld/libmysql in some cases because 
937
 
                it has lower CPU, disk, and network overhead.
938
 
        </td>
939
 
        <td width="20%">TODO</td>
940
 
        </tr>
941
 
 
942
 
        <tr>
943
 
        <td width="20%">Akiban Server</td>
944
 
        <td>
945
 
                Akiban Server is an open source database that brings document stores and 
946
 
                relational databases together. Developers get powerful document access 
947
 
                alongside surprisingly powerful SQL.
948
 
        </td>
949
 
        <td width="20%">TODO</td>
950
 
        </tr>
951
 
 
952
 
        <tr>
953
 
        <td width="20%">Drizzle</td>
954
 
        <td>
955
 
                Drizzle is a re-designed version of the MySQL v6.0 codebase and 
956
 
                is designed around a central concept of having a microkernel 
957
 
                architecture. Features such as the query cache and authentication 
958
 
                system are now plugins to the database, which follow the general 
959
 
                theme of "pluggable storage engines" that were introduced in MySQL 5.1. 
960
 
                It supports PAM, LDAP, and HTTP AUTH for authentication via plugins 
961
 
                it ships. Via its plugin system it currently supports logging to files, 
962
 
                syslog, and remote services such as RabbitMQ and Gearman. Drizzle 
963
 
                is an ACID-compliant relational database that supports 
964
 
                transactions via an MVCC design
965
 
        </td>
966
 
        <td width="20%">TODO</td>
967
 
        </tr>
968
 
 
969
 
        <tr>
970
 
        <td width="20%">Haeinsa</td>
971
 
        <td>
972
 
                Haeinsa is linearly scalable multi-row, multi-table transaction 
973
 
                library for HBase. Use Haeinsa if you need strong ACID semantics 
974
 
                on your HBase cluster. Is based on Google Perlocator concept.
975
 
        </td>
976
 
        <td width="20%">TODO</td>
977
 
        </tr>
978
 
 
979
 
        <tr>
980
 
        <td width="20%">SenseiDB</td>
981
 
        <td>
982
 
                Open-source, distributed, realtime, semi-structured database. 
983
 
                Some Features: Full-text search, Fast realtime updates, Structured 
984
 
                and faceted search, BQL: SQL-like query language, Fast key-value 
985
 
                lookup, High performance under concurrent heavy update and query 
986
 
                volumes, Hadoop integration
987
 
        </td>
988
 
        <td width="20%"><a href="http://senseidb.com/">1. SenseiDB site</a>
989
 
        </td>
990
 
        </tr>
991
 
 
992
 
        <tr>
993
 
        <td width="20%">Sky</td>
994
 
        <td>
995
 
                Sky is an open source database used for flexible, high performance 
996
 
                analysis of behavioral data. For certain kinds of data such as 
997
 
                clickstream data and log data, it can be several orders of magnitude 
998
 
                faster than traditional approaches such as SQL databases or Hadoop.
999
 
        </td>
1000
 
        <td width="20%"><a href="http://skydb.io/">1. SkyDB site</a>
1001
 
        </td>
1002
 
        </tr>
1003
 
 
1004
 
        <tr>
1005
 
        <td width="20%">BayesDB</td>
1006
 
        <td>
1007
 
                BayesDB, a Bayesian database table, lets users query the probable 
1008
 
                implications of their tabular data as easily as an SQL database 
1009
 
                lets them query the data itself. Using the built-in Bayesian Query 
1010
 
                Language (BQL), users with no statistics training can solve basic 
1011
 
                data science problems, such as detecting predictive relationships 
1012
 
                between variables, inferring missing values, simulating probable 
1013
 
                observations, and identifying statistically similar database entries.
1014
 
        </td>
1015
 
        <td width="20%"><a href="http://probcomp.csail.mit.edu/bayesdb/index.html">1. BayesDB site</a>
1016
 
        </td>
1017
 
        </tr>
1018
 
 
1019
 
        <tr>
1020
 
        <td width="20%">InfluxDB</td>
1021
 
        <td>
1022
 
                InfluxDB is an open source distributed time series database with 
1023
 
                no external dependencies. It's useful for recording metrics, events, 
1024
 
                and performing analytics. It has a built-in HTTP API so you don't 
1025
 
                have to write any server side code to get up and running. InfluxDB 
1026
 
                is designed to be scalable, simple to install and manage, and fast 
1027
 
                to get data in and out. It aims to answer queries in real-time. 
1028
 
                That means every data point is indexed as it comes in and is immediately 
1029
 
                available in queries that should return under 100ms. 
1030
 
        </td>
1031
 
        <td width="20%"><a href="http://influxdb.org/">1. InfluxDB site</a>
1032
 
        </td>
1033
 
        </tr>
1034
 
 
1035
 
<tr>
1036
 
<th colspan="3">SQL-on-Hadoop</th>
1037
 
</tr>
1038
 
 
1039
 
        <tr>
1040
 
        <td width="20%">Apache Hive</td>
1041
 
        <td>
1042
 
                Data Warehouse infrastructure developed by Facebook. Data 
1043
 
                summarization, query, and analysis. It’s provides SQL-like 
1044
 
                language (not SQL92 compliant): HiveQL.
1045
 
        </td>
1046
 
        <td width="20%"><a href="http://hive.apache.org/">1. Apache HIVE site</a>
1047
 
                <br> <a href="https://github.com/apache/hive">2. Apache HIVE GitHub Project</a>
1048
 
        </td>
1049
 
        </tr>
1050
 
 
1051
 
        <tr>
1052
 
        <td width="20%">Apache HCatalog</td>
1053
 
        <td>
1054
 
                HCatalog’s table abstraction presents users with a relational view 
1055
 
                of data in the Hadoop Distributed File System (HDFS) and ensures 
1056
 
                that users need not worry about where or in what format their data 
1057
 
                is stored. Right now HCatalog is part of Hive. Only old versions are separated for download.
1058
 
        </td>
1059
 
        <td width="20%">TODO</td>
1060
 
        </tr>
1061
 
 
1062
 
        <tr>
1063
 
        <td width="20%">Apache Trafodion</td>
1064
 
        <td>
1065
 
                Apache Trafodion is a webscale SQL-on-Hadoop solution enabling
1066
 
                enterprise-class transactional and operational workloads on
1067
 
                HBase. Trafodion is a native MPP ANSI SQL database engine that
1068
 
                builds on the scalability, elasticity and flexibility of HDFS and
1069
 
                HBase, extending these to provide guaranteed transactional
1070
 
                integrity for all workloads including multi-column, multi-row,
1071
 
                multi-table, and multi-server updates.
1072
 
        </td>
1073
 
        <td width="20%"><a href="http://trafodion.incubator.apache.org">1. Apache Trafodion website</a>
1074
 
          <br> <a href="https://cwiki.apache.org/confluence/display/TRAFODION/Apache+Trafodion+Home">2. Apache Trafodion wiki</a>
1075
 
          <br> <a href="https://github.com/apache/incubator-trafodion">3. Apache Trafodion GitHub Project</a>
1076
 
          
1077
 
        </td>
1078
 
        </tr>
1079
 
        
1080
 
        <tr>
1081
 
        <td width="20%">Apache HAWQ</td>
1082
 
        <td>
1083
 
                Apache HAWQ is a Hadoop native SQL query engine that combines 
1084
 
                key technological advantages of MPP database evolved from Greenplum Database,
1085
 
                with the scalability and convenience of Hadoop. 
1086
 
        </td>
1087
 
        <td width="20%"><a href="http://hawq.incubator.apache.org/">1. Apache HAWQ site</a>
1088
 
                <br> <a href="https://github.com/apache/incubator-hawq">2. HAWQ GitHub Project</a>
1089
 
        </td>
1090
 
        </tr>
1091
 
 
1092
 
        <tr>
1093
 
        <td width="20%">Apache Drill</td>
1094
 
        <td>
1095
 
                Drill is the open source version of Google's Dremel system which 
1096
 
                is available as an infrastructure service called Google BigQuery. 
1097
 
                In recent years open source systems have emerged to address the 
1098
 
                need for scalable batch processing (Apache Hadoop) and stream 
1099
 
                processing (Storm, Apache S4). Apache Hadoop, originally inspired 
1100
 
                by Google's internal MapReduce system, is used by thousands of 
1101
 
                organizations processing large-scale datasets. Apache Hadoop is 
1102
 
                designed to achieve very high throughput, but is not designed to 
1103
 
                achieve the sub-second latency needed for interactive data analysis 
1104
 
                and exploration. Drill, inspired by Google's internal Dremel system, 
1105
 
                is intended to address this need
1106
 
        </td>
1107
 
        <td width="20%"><a href="http://incubator.apache.org/drill/">1. Apache Incubator Drill</a>
1108
 
        </td>
1109
 
        </tr>
1110
 
 
1111
 
        <tr>
1112
 
        <td width="20%">Cloudera Impala</td>
1113
 
        <td>
1114
 
                The Apache-licensed Impala project brings scalable parallel database 
1115
 
                technology to Hadoop, enabling users to issue low-latency SQL queries 
1116
 
                to data stored in HDFS and Apache HBase without requiring data movement 
1117
 
                or transformation. It's a Google Dremel clone (Big Query google).
1118
 
        </td>
1119
 
        <td width="20%"><a href="http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html">1. Cloudera Impala site</a>
1120
 
                <br> <a href="https://github.com/cloudera/impala">2. Impala GitHub Project</a>
1121
 
        </td>
1122
 
        </tr>
1123
 
 
1124
 
        <tr>
1125
 
        <td width="20%">Facebook Presto</td>
1126
 
        <td>
1127
 
                Facebook has open sourced Presto, a SQL engine it says is on 
1128
 
                average 10 times faster than Hive for running queries across 
1129
 
                large data sets stored in Hadoop and elsewhere.
1130
 
        </td>
1131
 
        <td width="20%"><a href="http://prestodb.io/">1. Presto site</a>
1132
 
        </td>
1133
 
        </tr>
1134
 
 
1135
 
        <tr>
1136
 
        <td width="20%">Datasalt Splout SQL</td>
1137
 
        <td>
1138
 
                Splout allows serving an arbitrarily big dataset with high QPS 
1139
 
                rates and at the same time provides full SQL query syntax.
1140
 
        </td>
1141
 
        <td width="20%">TODO</td>
1142
 
        </tr>
1143
 
 
1144
 
        <tr>
1145
 
        <td width="20%">Apache Tajo</td>
1146
 
        <td>
1147
 
                Apache Tajo is a robust big data relational and distributed data 
1148
 
                warehouse system for Apache Hadoop. Tajo is designed for low-latency 
1149
 
                and scalable ad-hoc queries, online aggregation, and ETL 
1150
 
                (extract-transform-load process) on large-data sets stored on 
1151
 
                HDFS (Hadoop Distributed File System) and other data sources. 
1152
 
                By supporting SQL standards and leveraging advanced database 
1153
 
                techniques, Tajo allows direct control of distributed execution 
1154
 
                and data flow across a variety of query evaluation strategies 
1155
 
                and optimization opportunities. For reference, the Apache 
1156
 
                Software Foundation announced Tajo as a Top-Level Project in April 2014.
1157
 
        </td>
1158
 
        <td width="20%"><a href="http://tajo.apache.org/">1. Apache Tajo site</a>
1159
 
        </td>
1160
 
        </tr>
1161
 
 
1162
 
        <tr>
1163
 
        <td width="20%">Apache Phoenix</td>
1164
 
        <td>
1165
 
                Apache Phoenix is a SQL skin over HBase delivered as a 
1166
 
                client-embedded JDBC driver targeting low latency queries over 
1167
 
                HBase data. Apache Phoenix takes your SQL query, compiles it into 
1168
 
                a series of HBase scans, and orchestrates the running of those 
1169
 
                scans to produce regular JDBC result sets. The table metadata is 
1170
 
                stored in an HBase table and versioned, such that snapshot queries 
1171
 
                over prior versions will automatically use the correct schema. 
1172
 
                Direct use of the HBase API, along with coprocessors and custom 
1173
 
                filters, results in performance on the order of milliseconds for 
1174
 
                small queries, or seconds for tens of millions of rows.
1175
 
        </td>
1176
 
        <td width="20%"><a href="http://phoenix.incubator.apache.org/index.html">1. Apache Phoenix site</a>
1177
 
        </td>
1178
 
        </tr>
1179
 
 
1180
 
        <tr>
1181
 
        <td width="20%">Apache MRQL</td>
1182
 
        <td>
1183
 
                MRQL is a query processing and optimization system for large-scale, 
1184
 
                distributed data analysis, built on top of Apache Hadoop, Hama, and Spark.<br> 
1185
 
                MRQL (pronounced miracle) is a query processing and optimization 
1186
 
                system for large-scale, distributed data analysis. MRQL (the MapReduce 
1187
 
                Query Language) is an SQL-like query language for large-scale data analysis 
1188
 
                on a cluster of computers. The MRQL query processing system can evaluate MRQL 
1189
 
                queries in three modes:
1190
 
                <ul>
1191
 
                 <li>in Map-Reduce mode using Apache Hadoop,</li>
1192
 
                 <li>in BSP mode (Bulk Synchronous Parallel mode) using Apache Hama, and</li>
1193
 
                 <li>in Spark mode using Apache Spark.</li>
1194
 
                 <li>in Flink mode using Apache Flink.</li>
1195
 
                </ul>
1196
 
        </td>
1197
 
        <td width="20%"><a href="http://mrql.incubator.apache.org/">1. Apache Incubator MRQL site</a>
1198
 
        </td>
1199
 
        </tr>
1200
 
 
1201
 
        <tr>
1202
 
        <td width="20%">Kylin</td>
1203
 
        <td>
1204
 
                Kylin is an open source Distributed Analytics Engine from eBay 
1205
 
                Inc. that provides SQL interface and multi-dimensional analysis 
1206
 
                (OLAP) on Hadoop supporting extremely large datasets
1207
 
        </td>
1208
 
        <td width="20%"><a href="http://www.kylin.io/">1. Kylin project site</a>
1209
 
        </td>
1210
 
        </tr>
1211
 
 
1212
 
<!--                        -->
1213
 
<!-- Data Ingestion Tools   -->
1214
 
<!--                        -->
1215
 
<tr>
1216
 
<th colspan="3">Data Ingestion</th>
1217
 
</tr>
1218
 
 
1219
 
        <tr>
1220
 
        <td width="20%">Apache Flume</td>
1221
 
        <td>
1222
 
                Flume is a distributed, reliable, and available service for 
1223
 
                efficiently collecting, aggregating, and moving large amounts 
1224
 
                of log data. It has a simple and flexible architecture based on 
1225
 
                streaming data flows. It is robust and fault tolerant with tunable 
1226
 
                reliability mechanisms and many failover and recovery mechanisms. 
1227
 
                It uses a simple extensible data model that allows for online analytic application.
1228
 
        </td>
1229
 
        <td width="20%"><a href="http://flume.apache.org/">1. Apache Flume project site</a>
1230
 
        </td>
1231
 
        </tr>
1232
 
 
1233
 
        <tr>
1234
 
        <td width="20%">Apache Sqoop</td>
1235
 
        <td>
1236
 
                System for bulk data transfer between HDFS and structured 
1237
 
                datastores as RDBMS. Like Flume but from HDFS to RDBMS.
1238
 
        </td>
1239
 
        <td width="20%"><a href="http://sqoop.apache.org/">1. Apache Sqoop project site</a>
1240
 
        </td>
1241
 
        </tr>
1242
 
 
1243
 
        <tr>
1244
 
        <td width="20%">Facebook Scribe</td>
1245
 
        <td>
1246
 
                Log agregator in real-time. It’s a Apache Thrift Service.
1247
 
        </td>
1248
 
        <td width="20%">TODO</td>
1249
 
        </tr>
1250
 
 
1251
 
        <tr>
1252
 
        <td width="20%">Apache Chukwa</td>
1253
 
        <td>
1254
 
                Large scale log aggregator, and analytics.
1255
 
        </td>
1256
 
        <td width="20%">TODO</td>
1257
 
        </tr>
1258
 
 
1259
 
        <tr>
1260
 
        <td width="20%">Apache Kafka</td>
1261
 
        <td>
1262
 
                Distributed publish-subscribe system for processing large amounts 
1263
 
                of streaming data. Kafka is a Message Queue developed by LinkedIn 
1264
 
                that persists messages to disk in a very performant manner. 
1265
 
                Because messages are persisted, it has the interesting ability 
1266
 
                for clients to rewind a stream and consume the messages again. 
1267
 
                Another upside of the disk persistence is that bulk importing 
1268
 
                the data into HDFS for offline analysis can be done very quickly 
1269
 
                and efficiently. Storm, developed by BackType (which was acquired 
1270
 
                by Twitter a year ago), is more about transforming a stream of 
1271
 
                messages into new streams.
1272
 
        </td>
1273
 
        <td width="20%"><a href="http://kafka.apache.org/">1. Apache Kafka</a>
1274
 
                <br/><a href="https://github.com/apache/kafka/">2. GitHub source code</a>
1275
 
        </td>
1276
 
        </tr>
1277
 
 
1278
 
        <tr>
1279
 
        <td width="20%">Netflix Suro</td>
1280
 
        <td>
1281
 
                Suro has its roots in Apache Chukwa, which was initially adopted 
1282
 
                by Netflix. Is a log agregattor like Storm, Samza.
1283
 
        </td>
1284
 
        <td width="20%">TODO</td>
1285
 
        </tr>
1286
 
 
1287
 
        <tr>
1288
 
        <td width="20%">Apache Samza</td>
1289
 
        <td>
1290
 
                Apache Samza is a distributed stream processing framework. 
1291
 
                It uses Apache Kafka for messaging, and Apache Hadoop YARN to 
1292
 
                provide fault tolerance, processor isolation, security, and 
1293
 
                resource management. 
1294
 
                Developed by http://www.linkedin.com/in/jaykreps Linkedin.
1295
 
        </td>
1296
 
        <td width="20%">TODO</td>
1297
 
        </tr>
1298
 
 
1299
 
        <tr>
1300
 
        <td width="20%">Cloudera Morphline</td>
1301
 
        <td>
1302
 
                Cloudera Morphlines is a new open source framework that reduces 
1303
 
                the time and skills necessary to integrate, build, and change 
1304
 
                Hadoop processing applications that extract, transform, 
1305
 
                and load data into Apache Solr, Apache HBase, HDFS, enterprise 
1306
 
                data warehouses, or analytic online dashboards. 
1307
 
        </td>
1308
 
        <td width="20%">TODO</td>
1309
 
        </tr>
1310
 
 
1311
 
        <tr>
1312
 
        <td width="20%">HIHO</td>
1313
 
        <td>
1314
 
                This project is a framework for connecting disparate data sources 
1315
 
                with the Apache Hadoop system, making them interoperable. HIHO 
1316
 
                connects Hadoop with multiple RDBMS and file systems, so that 
1317
 
                data can be loaded to Hadoop and unloaded from Hadoop
1318
 
        </td>
1319
 
        <td width="20%">TODO</td>
1320
 
        </tr>
1321
 
 
1322
 
        <tr>
1323
 
        <td width="20%">Apache NiFi</td>
1324
 
        <td>
1325
 
                Apache NiFi is a dataflow system that is currently under 
1326
 
                incubation at the Apache Software Foundation. NiFi is based on 
1327
 
                the concepts of flow-based programming and is highly configurable. 
1328
 
                NiFi uses a component based extension model to rapidly add 
1329
 
                capabilities to complex dataflows. Out of the box NiFi has 
1330
 
                several extensions for dealing with file-based dataflows such 
1331
 
                as FTP, SFTP, and HTTP integration as well as integration with 
1332
 
                HDFS. One of NiFi’s unique features is a rich, web-based 
1333
 
                interface for designing, controlling, and monitoring a dataflow.
1334
 
        </td>
1335
 
        <td width="20%"><a href="http://nifi.apache.org/index.html">1. Apache NiFi</a>
1336
 
        </td>
1337
 
        </tr>
1338
 
 
1339
 
        <tr>
1340
 
        <td width="20%">Apache ManifoldCF</td>
1341
 
        <td>
1342
 
                Apache ManifoldCF provides a framework for connecting source content 
1343
 
                repositories like file systems, DB, CMIS, SharePoint, FileNet ... 
1344
 
                to target repositories or indexes, such as Apache Solr or ElasticSearch. 
1345
 
                It's a kind of crawler for multi-content repositories, supporting a lot
1346
 
                of sources and multi-format conversion for indexing by means of Apache
1347
 
                Tika Content Extractor transformation filter.
1348
 
        </td>
1349
 
        <td width="20%"><a href="http://manifoldcf.apache.org/">1. Apache ManifoldCF</a>
1350
 
        </td>
1351
 
        </tr>
1352
 
        
1353
 
         
1354
 
<tr>
1355
 
<th colspan="3">Service Programming</th>
1356
 
</tr>
1357
 
 
1358
 
        <tr>
1359
 
        <td width="20%">Apache Thrift</td>
1360
 
        <td>
1361
 
                A cross-language RPC framework for service creations. It’s the 
1362
 
                service base for Facebook technologies (the original Thrift 
1363
 
                contributor). Thrift provides a framework for developing and 
1364
 
                accessing remote services. It allows developers to create 
1365
 
                services that can be consumed by any application that is written 
1366
 
                in a language that there are Thrift bindings for. Thrift 
1367
 
                manages serialization of data to and from a service, as well as 
1368
 
                the protocol that describes a method invocation, response, etc. 
1369
 
                Instead of writing all the RPC code -- you can just get straight 
1370
 
                to your service logic. Thrift uses TCP and so a given service is 
1371
 
                bound to a particular port.
1372
 
        </td>
1373
 
        <td width="20%"><a href="http://thrift.apache.org//">1. Apache Thrift</a>
1374
 
        </td>
1375
 
        </tr>
1376
 
 
1377
 
        <tr>
1378
 
        <td width="20%">Apache Zookeeper</td>
1379
 
        <td>
1380
 
                It’s a coordination service that gives you the tools you need to 
1381
 
                write correct distributed applications. ZooKeeper was developed 
1382
 
                at Yahoo! Research. Several Hadoop projects are already using 
1383
 
                ZooKeeper to coordinate the cluster and provide highly-available 
1384
 
                distributed services. Perhaps most famous of those are Apache 
1385
 
                HBase, Storm, Kafka. ZooKeeper is an application library with 
1386
 
                two principal implementations of the APIs—Java and C—and a service 
1387
 
                component implemented in Java that runs on an ensemble of dedicated 
1388
 
                servers. Zookeeper is for building distributed systems, simplifies 
1389
 
                the development process, making it more agile and enabling more 
1390
 
                robust implementations. Back in 2006, Google published a paper 
1391
 
                on "Chubby", a distributed lock service which gained wide adoption 
1392
 
                within their data centers. Zookeeper, not surprisingly, is a close 
1393
 
                clone of Chubby designed to fulfill many of the same roles for 
1394
 
                HDFS and other Hadoop infrastructure.
1395
 
        </td>
1396
 
        <td width="20%"><a href="http://zookeeper.apache.org/">1. Apache Zookeeper</a>
1397
 
                <br><a href="http://research.google.com/archive/chubby.html">2. Google Chubby paper</a>
1398
 
        </td>
1399
 
        </tr>
1400
 
 
1401
 
        <tr>
1402
 
        <td width="20%">Apache Avro</td>
1403
 
        <td>
1404
 
                Apache Avro is a framework for modeling, serializing and making 
1405
 
                Remote Procedure Calls (RPC). Avro data is described by a schema, 
1406
 
                and one interesting feature is that the schema is stored in the 
1407
 
                same file as the data it describes, so files are self-describing. 
1408
 
                Avro does not require code generation. This framework can compete 
1409
 
                with other similar tools like: Apache Thrift, Google Protocol Buffers, ZeroC ICE, and so on. 
1410
 
        </td>
1411
 
        <td width="20%"><a href="http://avro.apache.org/">1. Apache Avro</a>
1412
 
        </td>
1413
 
        </tr>
1414
 
 
1415
 
        <tr>
1416
 
        <td width="20%">Apache Curator</td>
1417
 
        <td>
1418
 
                Curator is a set of Java libraries that make using Apache 
1419
 
                ZooKeeper much easier.
1420
 
        </td>
1421
 
        <td width="20%">TODO</td>
1422
 
        </tr>
1423
 
 
1424
 
        <tr>
1425
 
        <td width="20%">Apache karaf</td>
1426
 
        <td>
1427
 
                Apache Karaf is an OSGi runtime that runs on top of any OSGi 
1428
 
                framework and provides you a set of services, a powerful 
1429
 
                provisioning concept, an extensible shell and more.
1430
 
        </td>
1431
 
        <td width="20%">TODO</td>
1432
 
        </tr>
1433
 
 
1434
 
        <tr>
1435
 
        <td width="20%">Twitter Elephant Bird</td>
1436
 
        <td>
1437
 
                Elephant Bird is a project that provides utilities (libraries) 
1438
 
                for working with LZOP-compressed data. It also provides a 
1439
 
                container format that supports working with Protocol Buffers, 
1440
 
                Thrift in MapReduce, Writables, Pig LoadFuncs, Hive SerDe, 
1441
 
                HBase miscellanea. This open source library is massively 
1442
 
                used in Twitter.
1443
 
        </td>
1444
 
        <td width="20%"><a href="https://github.com/kevinweil/elephant-bird">1. Elephant Bird GitHub</a>
1445
 
        </td>
1446
 
        </tr>
1447
 
 
1448
 
        <tr>
1449
 
        <td width="20%">Linkedin Norbert</td>
1450
 
        <td>
1451
 
                Norbert is a library that provides easy cluster management and 
1452
 
                workload distribution. With Norbert, you can quickly distribute 
1453
 
                a simple client/server architecture to create a highly scalable 
1454
 
                architecture capable of handling heavy traffic. Implemented in 
1455
 
                Scala, Norbert wraps ZooKeeper, Netty and uses Protocol Buffers 
1456
 
                for transport to make it easy to build a cluster aware application. 
1457
 
                A Java API is provided and pluggable load balancing strategies 
1458
 
                are supported with round robin and consistent hash strategies 
1459
 
                provided out of the box.
1460
 
        </td>
1461
 
        <td width="20%"><a href="http://data.linkedin.com/opensource/norbert">1. Linedin Project</a>
1462
 
                <br><a href="https://github.com/rhavyn/norbert">2. GitHub source code</a>
1463
 
        </td>
1464
 
        </tr>
1465
 
 
1466
 
<tr>
1467
 
<th colspan="3">Scheduling</th>
1468
 
</tr>
1469
 
 
1470
 
        <tr>
1471
 
        <td width="20%">Apache Oozie</td>
1472
 
        <td>
1473
 
                Workflow scheduler system for MR jobs using DAGs 
1474
 
                (Direct Acyclical Graphs). Oozie Coordinator can trigger jobs 
1475
 
                by time (frequency) and data availability
1476
 
        </td>
1477
 
        <td width="20%"><a href="http://oozie.apache.org/">1. Apache Oozie</a>
1478
 
                <br/><a href="https://github.com/apache/oozie">2. GitHub source code</a>
1479
 
        </td>
1480
 
        </tr>
1481
 
 
1482
 
        <tr>
1483
 
        <td width="20%">Linkedin Azkaban</td>
1484
 
        <td>
1485
 
                Hadoop workflow management. A batch job scheduler can be seen as 
1486
 
                a combination of the cron and make Unix utilities combined with 
1487
 
                a friendly UI.
1488
 
        </td>
1489
 
        <td width="20%">TODO</td>
1490
 
        </tr>
1491
 
 
1492
 
        <tr>
1493
 
        <td width="20%">Apache Falcon</td>
1494
 
        <td>
1495
 
                Apache Falcon is a data management framework for simplifying 
1496
 
                data lifecycle management and processing pipelines on Apache 
1497
 
                Hadoop. It enables users to configure, manage and orchestrate 
1498
 
                data motion, pipeline processing, disaster recovery, and data 
1499
 
                retention workflows. Instead of hard-coding complex data lifecycle 
1500
 
                capabilities, Hadoop applications can now rely on the well-tested 
1501
 
                Apache Falcon framework for these functions. Falcon’s simplification 
1502
 
                of data management is quite useful to anyone building apps on 
1503
 
                Hadoop. Data Management on Hadoop encompasses data motion, process 
1504
 
                orchestration, lifecycle management, data discovery, etc. among 
1505
 
                other concerns that are beyond ETL. Falcon is a new data processing 
1506
 
                and management platform for Hadoop that solves this problem and 
1507
 
                creates additional opportunities by building on existing components 
1508
 
                within the Hadoop ecosystem (ex. Apache Oozie, Apache Hadoop 
1509
 
                DistCp etc.) without reinventing the wheel.
1510
 
        </td>
1511
 
        <td width="20%">TODO</td>
1512
 
        </tr>
1513
 
 
1514
 
        <tr>
1515
 
        <td width="20%">Schedoscope</td>
1516
 
        <td>
1517
 
                Schedoscope is a new open-source project providing a scheduling 
1518
 
                framework for painfree agile development, testing, (re)loading, 
1519
 
                and monitoring of your datahub, lake, or whatever you choose to 
1520
 
                call your Hadoop data warehouse these days. Datasets (including 
1521
 
                dependencies) are defined using a scala DSL, which can embed 
1522
 
                MapReduce jobs, Pig scripts, Hive queries or Oozie workflows to 
1523
 
                build the dataset. The tool includes a test framework to verify 
1524
 
                logic and a command line utility to load and reload data.
1525
 
        </td>
1526
 
        <td width="20%"><a href="https://github.com/ottogroup/schedoscope">GitHub source code</a>
1527
 
        </td>
1528
 
        </tr>
1529
 
 
1530
 
<!--                        -->
1531
 
<!-- Machine Learning tools -->
1532
 
<!--                        -->
1533
 
<tr>
1534
 
<th colspan="3">Machine Learning</th>
1535
 
</tr>
1536
 
 
1537
 
        <tr>
1538
 
        <td width="20%">Apache Mahout</td>
1539
 
        <td>
1540
 
                Machine learning library and math library, on top of MapReduce.
1541
 
        </td>
1542
 
        <td width="20%">TODO</td>
1543
 
        </tr>
1544
 
 
1545
 
        <tr>
1546
 
        <td width="20%">WEKA</td>
1547
 
        <td>
1548
 
                Weka (Waikato Environment for Knowledge Analysis) is a popular suite 
1549
 
                of machine learning software written in Java, developed at the 
1550
 
                University of Waikato, New Zealand. Weka is free software available 
1551
 
                under the GNU General Public License.
1552
 
        </td>
1553
 
        <td width="20%">TODO</td>
1554
 
        </tr>
1555
 
 
1556
 
        <tr>
1557
 
        <td width="20%">Cloudera Oryx</td>
1558
 
        <td>
1559
 
                The Oryx open source project provides simple, real-time large-scale 
1560
 
                machine learning / predictive analytics infrastructure. It implements 
1561
 
                a few classes of algorithm commonly used in business applications: 
1562
 
                collaborative filtering / recommendation, classification / regression, 
1563
 
                and clustering.
1564
 
        </td>
1565
 
        <td width="20%"><a href="https://github.com/cloudera/oryx">1. Oryx at GitHub</a> 
1566
 
                <br> <a href="https://community.cloudera.com/t5/Data-Science-and-Machine/bd-p/Mahout">2. Cloudera forum for Machine Learning</a>
1567
 
        </td>
1568
 
        </tr>
1569
 
        
1570
 
        <tr>
1571
 
        <td width="20%">Deeplearning4j</td>
1572
 
        <td>
1573
 
                The Deeplearning4j open-source project is the most widely used deep-learning framework for the JVM. DL4J includes deep neural nets such as recurrent neural networks, Long Short Term Memory Networks (LSTMs), convolutional neural networks, various autoencoders and feedforward neural networks such as restricted Boltzmann machines and deep-belief networks. It also has natural language-processing algorithms such as word2vec, doc2vec, GloVe and TF-IDF. All Deeplearning4j networks run distributed on multiple CPUs and GPUs. They work as Hadoop jobs, and integrate with Spark on the slace level for host-thread orchestration. Deeplearning4j's neural networks are applied to use cases such as fraud and anomaly detection, recommender systems, and predictive maintenance.
1574
 
                
1575
 
        </td>
1576
 
        <td width="20%"><a href="http://deeplearning4j.org/">1. Deeplearning4j Website</a> 
1577
 
                <br> <a href="https://gitter.im/deeplearning4j/deeplearning4j">2. Gitter Community for Deeplearning4j</a>
1578
 
        </td>
1579
 
        </tr>
1580
 
 
1581
 
        <tr>
1582
 
        <td width="20%">MADlib</td>
1583
 
        <td>
1584
 
                The MADlib project leverages the data-processing capabilities of an RDBMS to analyze data.
1585
 
                The aim of this project is the integration of statistical data analysis into databases.
1586
 
                The MADlib project is self-described as the Big Data Machine Learning in SQL for Data Scientists.
1587
 
                The MADlib software project began the following year as a collaboration between researchers 
1588
 
                at UC Berkeley and engineers and data scientists at EMC/Greenplum (now Pivotal)
1589
 
        </td>
1590
 
        <td width="20%"><a href="http://madlib.net/community/">1. MADlib Community</a>
1591
 
        </td>
1592
 
        </tr>
1593
 
 
1594
 
        <tr>
1595
 
        <td width="20%">H2O</td>
1596
 
        <td>
1597
 
                <p>H2O is a statistical, machine learning and math runtime tool for bigdata analysis.
1598
 
                Developed by the predictive analytics company H2O.ai, H2O has established a leadership
1599
 
                in the ML scene together with R and Databricks’ Spark. According to the team, 
1600
 
                H2O is the world’s fastest in-memory platform for machine learning and predictive analytics
1601
 
                on big data. It is designed to help users scale machine learning, math, and statistics over large datasets.</p>
1602
 
                <p>In addition to H2O’s point and click Web-UI, its REST API allows easy integration into various
1603
 
                clients. This means explorative analysis of data can be done in a typical fashion in R, Python, and Scala;
1604
 
                and entire workflows can be written up as automated scripts.</p>
1605
 
        </td>
1606
 
        <td width="20%"><a href="https://github.com/h2oai/h2o-dev">1. H2O at GitHub</a>
1607
 
                <br/><a href="http://h2o.ai/blog">2. H2O Blog</a>
1608
 
        </td>
1609
 
        </tr>
1610
 
 
1611
 
        <tr>
1612
 
        <td width="20%">Sparkling Water</td>
1613
 
        <td>
1614
 
                <p>Sparkling Water combines two open source technologies: Apache Spark and H2O - a machine learning engine. 
1615
 
                It makes H2O’s library of Advanced Algorithms including Deep Learning, GLM, GBM, KMeans, PCA, and Random Forest 
1616
 
                accessible from Spark workflows. 
1617
 
                Spark users are provided with the options to select the best features from either platforms to meet their Machine Learning needs. 
1618
 
                Users can combine Sparks’ RDD API and Spark MLLib with H2O’s machine learning algorithms, 
1619
 
                or use H2O independent of Spark in the model building process and post-process the results in Spark. </p> 
1620
 
                <p>Sparkling Water provides a transparent integration of H2O’s framework and data structures into Spark’s 
1621
 
                RDD-based environment by sharing the same execution space as well as providing a RDD-like API for H2O data structures. </p>
1622
 
        </td>
1623
 
        <td width="20%"><a href="https://github.com/h2oai/sparkling-water">1. Sparkling Water at GitHub</a>
1624
 
                <br/><a href="https://github.com/h2oai/sparkling-water/tree/master/examples">2. Sparkling Water Examples</a>
1625
 
        </td>
1626
 
        </tr>
1627
 
 
1628
 
        <tr>
1629
 
        <td width="20%">Apache SystemML</td>
1630
 
        <td>
1631
 
                <p>Apache SystemML was open sourced by IBM and it's pretty
1632
 
                related with Apache Spark. If you thinking in Apache Spark as 
1633
 
                the analytics operating system for any application that taps 
1634
 
                into huge volumes of streaming data. MLLib, the machine 
1635
 
                learning library for Spark, provides developers with a rich set 
1636
 
                of machine learning algorithms. And SystemML enables developers 
1637
 
                to translate those algorithms so they can easily digest different 
1638
 
                kinds of data and to run on different kinds of computers.</p>
1639
 
                SystemML allows a developer to write a single machine learning 
1640
 
                algorithm and automatically scale it up using Spark or Hadoop.
1641
 
                <p>
1642
 
                SystemML scales for big data analytics with high performance 
1643
 
                optimizer technology, and empowers users to write customized 
1644
 
                machine learning algorithms using simple, domain-specific 
1645
 
                language (DSL) without learning complicated distributed 
1646
 
                programming. It is an extensible complement framework of Spark 
1647
 
                MLlib.</p>
1648
 
        </td>
1649
 
        <td width="20%"><a href="http://systemml.apache.org">1. Apache SystemML</a>
1650
 
                <br/><a href="https://wiki.apache.org/incubator/SystemML">2. Apache Proposal</a>
1651
 
        </td>
1652
 
        </tr>
1653
 
 
1654
 
<!--                        -->
1655
 
<!-- Benchmarking and QA tools     -->
1656
 
<!--                        -->
1657
 
<tr>
1658
 
<th colspan="3">Benchmarking and QA Tools</th>
1659
 
</tr>
1660
 
 
1661
 
        <tr>
1662
 
        <td width="20%">Apache Hadoop Benchmarking</td>
1663
 
        <td>
1664
 
                There are two main JAR files in Apache Hadoop for benchmarking. 
1665
 
                This JAR are micro-benchmarks for testing particular parts of the 
1666
 
                infrastructure, for instance TestDFSIO analyzes the disk system, 
1667
 
                TeraSort evaluates MapReduce tasks, WordCount measures cluster 
1668
 
                performance, etc. Micro-Benchmarks are packaged in the tests and 
1669
 
                exmaples JAR files, and you can get a list of them, with descriptions, 
1670
 
                by invoking the JAR file with no arguments. With regards Apache 
1671
 
                Hadoop 2.2.0 stable version we have available the following JAR 
1672
 
                files for test, examples and benchmarking. The Hadoop micro-benchmarks, 
1673
 
                are bundled in this JAR files: hadoop-mapreduce-examples-2.2.0.jar, 
1674
 
                hadoop-mapreduce-client-jobclient-2.2.0-tests.jar.
1675
 
        </td>
1676
 
        <td width="20%"><a href="https://issues.apache.org/jira/browse/MAPREDUCE-3561">1. MAPREDUCE-3561 umbrella ticket to track all the issues related to performance</a>
1677
 
        </td>
1678
 
        </tr>
1679
 
 
1680
 
        <tr>
1681
 
        <td width="20%">Yahoo Gridmix3</td>
1682
 
        <td>
1683
 
                Hadoop cluster benchmarking from Yahoo engineer team.
1684
 
        </td>
1685
 
        <td width="20%">TODO</td>
1686
 
        </tr>
1687
 
 
1688
 
        <tr>
1689
 
        <td width="20%">PUMA Benchmarking</td>
1690
 
        <td>
1691
 
                Benchmark suite which represents a broad range of MapReduce 
1692
 
                applications exhibiting application characteristics with 
1693
 
                high/low computation and high/low shuffle volumes. There are a 
1694
 
                total of 13 benchmarks, out of which Tera-Sort, Word-Count, 
1695
 
                and Grep are from Hadoop distribution. The rest of the benchmarks 
1696
 
                were developed in-house and are currently not part of the Hadoop 
1697
 
                distribution. The three benchmarks from Hadoop distribution are 
1698
 
                also slightly modified to take number of reduce tasks as input 
1699
 
                from the user and generate final time completion statistics of jobs.
1700
 
        </td>
1701
 
        <td width="20%"><a href="https://issues.apache.org/jira/browse/MAPREDUCE-5116">1. MAPREDUCE-5116</a> 
1702
 
                <br> <a href="https://sites.google.com/site/farazahmad/">2. Faraz Ahmad researcher</a>
1703
 
                <br> <a href="https://sites.google.com/site/farazahmad/pumabenchmarks">3. PUMA Docs</a>
1704
 
        </td>
1705
 
        </tr>
1706
 
 
1707
 
        <tr>
1708
 
        <td width="20%">Berkeley SWIM Benchmark</td>
1709
 
        <td>
1710
 
                The SWIM benchmark (Statistical Workload Injector for MapReduce), 
1711
 
                is a benchmark representing a real-world big data workload developed 
1712
 
                by University of California at Berkley in close cooperation with 
1713
 
                Facebook. This test provides rigorous measurements of the performance 
1714
 
                of MapReduce systems comprised of real industry workloads..
1715
 
        </td>
1716
 
        <td width="20%"><a href="https://github.com/SWIMProjectUCB/SWIM/wiki">1. GitHub SWIN</a>
1717
 
        </td>
1718
 
        </tr>
1719
 
 
1720
 
        <tr>
1721
 
        <td width="20%">Intel HiBench</td>
1722
 
        <td>
1723
 
                HiBench is a Hadoop benchmark suite.
1724
 
        </td>
1725
 
        <td width="20%">TODO</td>
1726
 
        </tr>
1727
 
 
1728
 
        <tr>
1729
 
        <td width="20%">Apache Yetus</td>
1730
 
        <td>
1731
 
                To help maintain consistency over a large and disconnected set 
1732
 
                of committers, automated patch testing was added to Hadoop’s development process.
1733
 
                This automated patch testing (now included as part of Apache Yetus) 
1734
 
                works as follows: when a patch is uploaded to the bug tracking 
1735
 
                system an automated process downloads the patch, performs some 
1736
 
                static analysis, and runs the unit tests. These results are posted 
1737
 
                back to the bug tracker and alerts notify interested parties about 
1738
 
                the state of the patch.<p>
1739
 
                However The Apache Yetus project addresses much more than the traditional
1740
 
                patch testing, it's a better approach including a massive rewrite of 
1741
 
                the patch testing facility used in Hadoop.
1742
 
        </td>
1743
 
        <td width="20%"><a href="https://www.altiscale.com/blog/apache-yetus-faster-more-reliable-software-development/">1. Altiscale Blog Entry</a> 
1744
 
                <br> <a href="https://wiki.apache.org/incubator/YetusProposal">2. Apache Yetus Proposal</a>
1745
 
                <br> <a href="https://yetus.apache.org/">3. Apache Yetus Project site</a>
1746
 
        </td>
1747
 
        </tr>
1748
 
 
1749
 
 
1750
 
<tr>
1751
 
<th colspan="3">Security</th>
1752
 
</tr>
1753
 
 
1754
 
        <tr>
1755
 
        <td width="20%">Apache Sentry</td>
1756
 
        <td>
1757
 
                Sentry is the next step in enterprise-grade big data security 
1758
 
                and delivers fine-grained authorization to data stored in Apache 
1759
 
                Hadoop. An independent security module that integrates with open 
1760
 
                source SQL query engines Apache Hive and Cloudera Impala, Sentry 
1761
 
                delivers advanced authorization controls to enable multi-user 
1762
 
                applications and cross-functional processes for enterprise data 
1763
 
                sets. Sentry was a Cloudera development.
1764
 
        </td>
1765
 
        <td width="20%">TODO</td>
1766
 
        </tr>
1767
 
 
1768
 
        <tr>
1769
 
        <td width="20%">Apache Knox Gateway</td>
1770
 
        <td>
1771
 
                System that provides a single point of secure access for Apache 
1772
 
                Hadoop clusters. The goal is to simplify Hadoop security for both 
1773
 
                users (i.e. who access the cluster data and execute jobs) and 
1774
 
                operators (i.e. who control access and manage the cluster). The 
1775
 
                Gateway runs as a server (or cluster of servers) that serve one 
1776
 
                or more Hadoop clusters.
1777
 
        </td>
1778
 
        <td width="20%"><a href="http://knox.apache.org/">1. Apache Knox</a>
1779
 
                <br><a href="http://hortonworks.com/hadoop/knox-gateway/">2. Apache Knox Gateway Hortonworks web</a>
1780
 
        </td>
1781
 
        </tr>
1782
 
 
1783
 
        <tr>
1784
 
        <td width="20%">Apache Ranger</td>
1785
 
        <td>
1786
 
                Apache Argus  Ranger (formerly called Apache Argus or HDP Advanced 
1787
 
                Security) delivers comprehensive approach to central security policy 
1788
 
                administration across the core enterprise security requirements 
1789
 
                of authentication, authorization, accounting and data protection. 
1790
 
                It extends baseline features for coordinated enforcement across 
1791
 
                Hadoop workloads from batch, interactive SQL and real–time and 
1792
 
                leverages the extensible architecture to apply policies consistently 
1793
 
                against additional Hadoop ecosystem components (beyond HDFS, Hive, 
1794
 
                and HBase) including Storm, Solr, Spark, and more.
1795
 
        </td>
1796
 
        <td width="20%"><a href="http://ranger.apache.org/">1. Apache Ranger</a>
1797
 
                <br><a href="http://hortonworks.com/hadoop/ranger/">2. Apache Ranger Hortonworks web</a>
1798
 
        </td>
1799
 
        </tr>
1800
 
 
1801
 
<tr>
1802
 
<th colspan="3">Metadata Management</th>
1803
 
</tr>
1804
 
 
1805
 
        <tr>
1806
 
        <td width="20%">Metascope</td>
1807
 
        <td>
1808
 
                Metascope is a metadata management and data discovery tool which 
1809
 
                serves as an add-on to Schedoscope. Metascope is able to collect technical, 
1810
 
                operational and business metadata from your Hadoop Datahub and provides 
1811
 
                them easy to search and navigate via a portal.
1812
 
        </td>
1813
 
        <td width="20%"><a href="https://github.com/ottogroup/metascope">GitHub source code</a>
1814
 
        </td>
1815
 
        </tr>
1816
 
 
1817
 
<tr>
1818
 
<th colspan="3">System Deployment</th>
1819
 
</tr>
1820
 
 
1821
 
        <tr>
1822
 
        <td width="20%">Apache Ambari</td>
1823
 
        <td>
1824
 
                Intuitive, easy-to-use Hadoop management web UI backed by its RESTful APIs. 
1825
 
                Apache Ambari was donated by Hortonworks team to the ASF. It's a powerful and 
1826
 
                nice interface for Hadoop and other typical applications from the Hadoop 
1827
 
                ecosystem. Apache Ambari is under a heavy development, and it will incorporate 
1828
 
                new features in a near future. For example Ambari is able to deploy a complete 
1829
 
                Hadoop system from scratch, however is not possible use this GUI in a Hadoop 
1830
 
                system that is already running. The ability to provisioning the operating 
1831
 
                system could be a good addition, however probably is not in the roadmap..
1832
 
        </td>
1833
 
        <td width="20%"><a href="http://ambari.apache.org/">1. Apache Ambari</a>
1834
 
        </td>
1835
 
        </tr>
1836
 
 
1837
 
        <tr>
1838
 
        <td width="20%">Cloudera HUE</td>
1839
 
        <td>
1840
 
                Web application for interacting with Apache Hadoop. It's not a deploment tool,
1841
 
                is an open-source Web interface that supports Apache Hadoop and its ecosystem, 
1842
 
                licensed under the Apache v2 license. HUE is used for Hadoop and its ecosystem
1843
 
                user operations. For example HUE offers editors for Hive, Impala, Oozie, Pig,
1844
 
                notebooks for Spark, Solr Search dashboards, HDFS, YARN, HBase browsers..
1845
 
        </td>
1846
 
        <td width="20%"><a href="http://gethue.com/">1. HUE home page</a>
1847
 
        </td>
1848
 
        </tr>
1849
 
 
1850
 
        <tr>
1851
 
        <td width="20%">Apache Mesos</td>
1852
 
        <td>
1853
 
                Mesos is a cluster manager that provides resource sharing and isolation across 
1854
 
                cluster applications. Like HTCondor, SGE or Troque can do it. However Mesos 
1855
 
                is hadoop centred design
1856
 
        </td>
1857
 
        <td width="20%">TODO</td>
1858
 
        </tr>
1859
 
 
1860
 
        <tr>
1861
 
        <td width="20%">Myriad</td>
1862
 
        <td>
1863
 
                Myriad is a mesos framework designed for scaling YARN clusters on Mesos. Myriad 
1864
 
                can expand or shrink one or more YARN clusters in response to events as per 
1865
 
                configured rules and policies.
1866
 
        </td>
1867
 
        <td width="20%"><a href="https://github.com/mesos/myriad">1. Myriad Github</a>
1868
 
        </td>
1869
 
        </tr>
1870
 
 
1871
 
        <tr>
1872
 
        <td width="20%">Marathon</td>
1873
 
        <td>
1874
 
                Marathon is a Mesos framework for long-running services. Given that you have 
1875
 
                Mesos running as the kernel for your datacenter, Marathon is the init or upstart daemon.
1876
 
        </td>
1877
 
        <td width="20%">TODO</td>
1878
 
        </tr>
1879
 
 
1880
 
        <tr>
1881
 
        <td width="20%">Brooklyn</td>
1882
 
        <td>
1883
 
                Brooklyn is a library that simplifies application deployment and management.
1884
 
                For deployment, it is designed to tie in with other tools, giving single-click 
1885
 
                deploy and adding the concepts of manageable clusters and fabrics:
1886
 
                Many common software entities available out-of-the-box.
1887
 
                Integrates with Apache Whirr -- and thereby Chef and Puppet -- to deploy well-known 
1888
 
                services such as Hadoop and elasticsearch (or use POBS, plain-old-bash-scripts)
1889
 
                Use PaaS's such as OpenShift, alongside self-built clusters, for maximum flexibility
1890
 
        </td>
1891
 
        <td width="20%">TODO</td>
1892
 
        </tr>
1893
 
 
1894
 
        <tr>
1895
 
        <td width="20%">Hortonworks HOYA</td>
1896
 
        <td>
1897
 
                HOYA is defined as “running HBase On YARN”. The Hoya tool is a Java tool, 
1898
 
                and is currently CLI driven. It takes in a cluster specification – in terms 
1899
 
                of the number of regionservers, the location of HBASE_HOME, the ZooKeeper 
1900
 
                quorum hosts, the configuration that the new HBase cluster instance should 
1901
 
                use and so on.<br>
1902
 
                So HOYA is for HBase deployment using a tool developed on top of YARN. Once the 
1903
 
                cluster has been started, the cluster can be made to grow or shrink using the 
1904
 
                Hoya commands. The cluster can also be stopped and later resumed. Hoya implements 
1905
 
                the functionality through YARN APIs and HBase’s shell scripts. The goal of 
1906
 
                the prototype was to have minimal code changes and as of this writing, it has 
1907
 
                required zero code changes in HBase.
1908
 
        </td>
1909
 
        <td width="20%"><a href="http://hortonworks.com/blog/introducing-hoya-hbase-on-yarn/">1. Hortonworks Blog</a>
1910
 
        </td>
1911
 
        </tr>
1912
 
 
1913
 
        <tr>
1914
 
        <td width="20%">Apache Helix</td>
1915
 
        <td>
1916
 
                Apache Helix is a generic cluster management framework used for the automatic 
1917
 
                management of partitioned, replicated and distributed resources hosted on a 
1918
 
                cluster of nodes. Originally developed by Linkedin, now is in an incubator 
1919
 
                project at Apache. Helix is developed on top of Zookeeper for coordination tasks.
1920
 
        </td>
1921
 
        <td width="20%"><a href="http://helix.apache.org/">1. Apache Helix</a>
1922
 
        </td>
1923
 
        </tr>
1924
 
 
1925
 
        <tr>
1926
 
        <td width="20%">Apache Bigtop</td>
1927
 
        <td>
1928
 
                Bigtop was originally developed and released as an open source packaging 
1929
 
                infrastructure by Cloudera. BigTop is used for some vendors to build their 
1930
 
                own distributions based on Apache Hadoop (CDH, Pivotal HD, Intel's distribution), 
1931
 
                however Apache Bigtop does many more tasks, like continuous integration testing 
1932
 
                (with Jenkins, maven, ...) and is useful for packaging (RPM and DEB), deployment 
1933
 
                with Puppet, and so on.  BigTop also features vagrant recipes for spinning up "n-node" 
1934
 
                hadoop clusters, and the bigpetstore blueprint application which demonstrates 
1935
 
                construction of a full stack hadoop app with ETL, machine learning,
1936
 
                and dataset generation.  Apache Bigtop could be considered as a community effort 
1937
 
                with a main focus: put all bits of the Hadoop ecosystem as a whole, rather 
1938
 
                than individual projects.
1939
 
        </td>
1940
 
        <td width="20%"><a href="http://bigtop.apache.org//">1. Apache Bigtop.</a>
1941
 
        </td>
1942
 
        </tr>
1943
 
 
1944
 
        <tr>
1945
 
        <td width="20%">Buildoop</td>
1946
 
        <td>
1947
 
                Buildoop is an open source project licensed under Apache License 2.0, based on Apache BigTop idea.
1948
 
                Buildoop is a collaboration project that provides templates and tools to help you create custom 
1949
 
                Linux-based systems based on Hadoop ecosystem. The project is built from scrach using Groovy language,
1950
 
                and is not based on a mixture of tools like BigTop does (Makefile, Gradle, Groovy, Maven), probably
1951
 
                is easier to programming than BigTop, and the desing is focused in the basic ideas behind the buildroot
1952
 
                Yocto Project. The project is in early stages of development right now.
1953
 
        </td>
1954
 
        <td width="20%"><a href="http://buildoop.github.io/">1. Hadoop Ecosystem Builder.</a>
1955
 
        </td>
1956
 
        </tr>
1957
 
 
1958
 
        <tr>
1959
 
        <td width="20%">Deploop</td>
1960
 
        <td>
1961
 
                Deploop is a tool for provisioning, managing and monitoring Apache Hadoop 
1962
 
                clusters focused in the Lambda Architecture. LA is a generic design based on 
1963
 
                the concepts of Twitter engineer Nathan Marz. This generic architecture was 
1964
 
                designed addressing common requirements for big data. The Deploop system is 
1965
 
                in ongoing development, in alpha phases of maturity. The system is setup
1966
 
                on top of highly scalable techologies like Puppet and MCollective.
1967
 
        </td>
1968
 
        <td width="20%"><a href="http://deploop.github.io/">1. The Hadoop Deploy System.</a>
1969
 
        </td>
1970
 
        </tr>
1971
 
 
1972
 
        <tr>
1973
 
        <td width="20%">SequenceIQ Cloudbreak</td>
1974
 
        <td>
1975
 
                Cloudbreak is an effective way to start and run multiple instances and 
1976
 
                versions of Hadoop clusters in the cloud, Docker containers or bare metal. 
1977
 
                It is a cloud and infrastructure agnostic and cost effictive Hadoop As-a-Service 
1978
 
                platform API. Provides automatic scaling, secure multi tenancy and full cloud lifecycle management.
1979
 
                <p>Cloudbreak leverages the cloud infrastructure platforms to create host instances, 
1980
 
                uses Docker technology to deploy the requisite containers cloud-agnostically, 
1981
 
                and uses Apache Ambari (via Ambari Blueprints) to install and manage a Hortonworks cluster.
1982
 
                This is a tool within the HDP ecosystem.
1983
 
        </td>
1984
 
        <td width="20%"><a href="https://github.com/sequenceiq/cloudbreak">1. GitHub project.</a>
1985
 
                <br><a href="http://sequenceiq.com/cloudbreak-docs/latest/#introduction">2. Cloudbreak introduction.</a>
1986
 
                <br><a href="http://hortonworks.com/hadoop/cloudbreak/">3. Cloudbreak in Hortonworks.</a>
1987
 
        </td>
1988
 
        </tr>
1989
 
        <tr>
1990
 
        <td width="20%">Apache Eagle</td>
1991
 
        <td>
1992
 
                Apache Eagle is an open source analytics solution for identifying security and performance issues instantly on big data platforms, e.g. Hadoop, Spark etc. It analyzes data activities, yarn applications, jmx metrics, and daemon logs etc., provides state-of-the-art alert engine to identify security breach, performance issues and shows insights.
1993
 
                Big data platform normally generates huge amount of operational logs and metrics in realtime. Apache Eagle is founded to solve hard problems in securing and tuning performance for big data platforms by ensuring metrics, logs always available and alerting immediately even under huge traffic.
1994
 
        </td>
1995
 
        <td width="20%"><a href="https://github.com/apache/incubator-eagle">1. Apache Eagle Github Project.</a>
1996
 
                <br><a href="http://eagle.incubator.apache.org/">2. Apache Eagle Web Site.</a>
1997
 
        </td>
1998
 
        </tr>
1999
 
 
2000
 
<tr>
2001
 
<th colspan="3">Applications</th>
2002
 
</tr>
2003
 
<tr>
2004
 
 
2005
 
        <td width="20%">Apache Nutch</td>
2006
 
        <td>
2007
 
                Highly extensible and scalable open source web crawler software 
2008
 
                project. A search engine based on Lucene: A Web crawler is an 
2009
 
                Internet bot that systematically browses the World Wide Web, 
2010
 
                typically for the purpose of Web indexing. Web crawlers can copy 
2011
 
                all the pages they visit for later processing by a search engine 
2012
 
                that indexes the downloaded pages so that users can search them 
2013
 
                much more quickly.
2014
 
        </td>
2015
 
        <td width="20%">TODO</td>
2016
 
        </tr>
2017
 
 
2018
 
        <tr>
2019
 
        <td width="20%">Sphnix Search Server</td>
2020
 
        <td>
2021
 
                Sphinx lets you either batch index and search data stored in an 
2022
 
                SQL database, NoSQL storage, or just files quickly and easily — 
2023
 
                or index and search data on the fly, working with Sphinx pretty 
2024
 
                much as with a database server.
2025
 
        </td>
2026
 
        <td width="20%">TODO</td>
2027
 
        </tr>
2028
 
 
2029
 
        <tr>
2030
 
        <td width="20%">Apache OODT</td>
2031
 
        <td>
2032
 
                OODT was originally developed at NASA Jet Propulsion Laboratory 
2033
 
                to support capturing, processing and sharing of data for NASA's 
2034
 
                scientific archives
2035
 
        </td>
2036
 
        <td width="20%">TODO</td>
2037
 
        </tr>
2038
 
 
2039
 
        <tr>
2040
 
        <td width="20%">HIPI Library</td>
2041
 
        <td>
2042
 
                HIPI is a library for Hadoop's MapReduce framework that provides 
2043
 
                an API for performing image processing tasks in a distributed 
2044
 
                computing environment.
2045
 
        </td>
2046
 
        <td width="20%">TODO</td>
2047
 
        </tr>
2048
 
 
2049
 
        <tr>
2050
 
        <td width="20%">PivotalR</td>
2051
 
        <td>
2052
 
                PivotalR is a package that enables users of R, the most popular open source statistical 
2053
 
                programming language and environment to interact with the Pivotal (Greenplum) Database 
2054
 
                as well as Pivotal HD / HAWQ and the open-source database PostgreSQL for Big Data analytics.
2055
 
                R is a programming language and data analysis software: you do data analysis in R by writing 
2056
 
                scripts and functions in the R programming language. R is a complete, interactive, 
2057
 
                object-oriented language: designed by statisticians, for statisticians. The language 
2058
 
                provides objects, operators and functions that make the process of exploring, modeling, 
2059
 
                and visualizing data a natural one.
2060
 
        </td>
2061
 
        <td width="20%"><a href="https://github.com/gopivotal/PivotalR">1. PivotalR on GitHub</a>
2062
 
        </td>
2063
 
        </tr>
2064
 
 
2065
 
<!--                        -->
2066
 
<!-- Development Framework  -->
2067
 
<!--                        -->
2068
 
<tr>
2069
 
<th colspan="3">Development Frameworks</th>
2070
 
</tr>
2071
 
 
2072
 
        <tr>
2073
 
        <td width="20%">Jumbune</td>
2074
 
        <td>
2075
 
                Jumbune is an open source product that sits on top of any Hadoop 
2076
 
                distribution and assists in development and administration of 
2077
 
                MapReduce solutions. The objective of the product is to assist 
2078
 
                analytical solution providers to port fault free applications on 
2079
 
                production Hadoop environments.<br> Jumbune supports all active 
2080
 
                major branches of Apache Hadoop namely 1.x, 2.x, 0.23.x and commercial 
2081
 
                MapR, HDP 2.x and CDH 5.x distributions of Hadoop. It has the 
2082
 
                ability to work well with both Yarn and non-Yarn versions of Hadoop.<br>
2083
 
                It has four major modules MapReduce Debugger, HDFS Data Validator, 
2084
 
                On-demand cluster monitor and MapReduce job profiler. Jumbune can 
2085
 
                be deployed on any remote user machine and uses a lightweight 
2086
 
                agent on the NameNode of the cluster to relay relevant information to and fro.<br>
2087
 
        </td>
2088
 
        <td width="20%"><a href="https://jumbune.org">1. Jumbune</a>
2089
 
                <br><a href="https://github.com/impetus-opensource/jumbune">2. Jumbune GitHub Project</a>
2090
 
                <br><a href="http://jumbune.org/jira/secure/Dashboard.jspa">3. Jumbune JIRA page</a>
2091
 
        </td>
2092
 
        </tr>
2093
 
 
2094
 
        <tr>
2095
 
        <td width="20%">Spring XD</td>
2096
 
        <td>
2097
 
                Spring XD (Xtreme Data) is a evolution of Spring Java application 
2098
 
                development framework to help Big Data Applications by Pivotal.
2099
 
                SpringSource was the company created by the founders of the 
2100
 
                Spring Framework. SpringSource was purchased by VMware where it was 
2101
 
                maintained for some time as a separate division within VMware. 
2102
 
                Later VMware, and its parent company EMC Corporation, formally created 
2103
 
                a joint venture called Pivotal. Spring XD is more than development 
2104
 
                framework library, is a distributed, and extensible system for 
2105
 
                data ingestion, real time analytics, batch processing, and data 
2106
 
                export. It could be considered as alternative to Apache 
2107
 
                Flume/Sqoop/Oozie in some scenarios. Spring XD is part of Pivotal 
2108
 
                Spring for Apache Hadoop (SHDP). SHDP, integrated with Spring, 
2109
 
                Spring Batch and Spring Data are part of the Spring IO Platform 
2110
 
                as foundational libraries. Building on top of, and extending this 
2111
 
                foundation, the Spring IO platform provides Spring XD as big data 
2112
 
                runtime. Spring for Apache Hadoop (SHDP) aims to help simplify the 
2113
 
                development of Hadoop based applications by providing a consistent 
2114
 
                configuration and API across a wide range of Hadoop ecosystem 
2115
 
                projects such as Pig, Hive, and Cascading in addition to providing 
2116
 
                extensions to Spring Batch for orchestrating Hadoop based workflows.
2117
 
        </td>
2118
 
        <td width="20%"><a href="https://github.com/spring-projects/spring-xd">1. Spring XD on GitHub</a>
2119
 
        </td>
2120
 
        </tr>
2121
 
 
2122
 
        <tr>
2123
 
        <td width="20%">Cask Data Application Platform</td>
2124
 
        <td>
2125
 
                Cask Data Application Platform is an open source application 
2126
 
                development platform for the Hadoop ecosystem that provides 
2127
 
                developers with data and application virtualization to accelerate 
2128
 
                application development, address a range of real-time and batch 
2129
 
                use cases, and deploy applications into production. The deployment 
2130
 
                is made by Cask Coopr, an open source template-based cluster 
2131
 
                management solution that provisions, manages, and scales clusters 
2132
 
                for multi-tiered application stacks on public and private clouds.
2133
 
                Another component is Tigon, a distributed framework built on Apache 
2134
 
                Hadoop and Apache HBase for real-time, high-throughput, low-latency 
2135
 
                data processing and analytics applications.
2136
 
        </td>
2137
 
        <td width="20%"><a href="http://cask.co/">1. Cask Site</a>
2138
 
        </td>
2139
 
        </tr>
2140
 
 
2141
 
<tr>
2142
 
<th colspan="3">Categorize Pending ... </th>
2143
 
</tr>
2144
 
 
2145
 
        <tr>
2146
 
        <td width="20%">Twitter Summingbird</td>
2147
 
        <td>
2148
 
                A system that aims to mitigate the tradeoffs between batch 
2149
 
                processing and stream processing by combining them into a 
2150
 
                hybrid system. In the case of Twitter, Hadoop handles batch 
2151
 
                processing, Storm handles stream processing, and the hybrid 
2152
 
                system is called Summingbird.
2153
 
        </td>
2154
 
        <td width="20%">TODO</td>
2155
 
        </tr>
2156
 
 
2157
 
        <tr>
2158
 
        <td width="20%">Apache Kiji</td>
2159
 
        <td>
2160
 
                Build Real-time Big Data Applications on Apache HBase.
2161
 
        </td>
2162
 
        <td width="20%">TODO</td>
2163
 
        </tr>
2164
 
 
2165
 
        <tr>
2166
 
        <td width="20%">S4 Yahoo</td>
2167
 
        <td>
2168
 
                S4 is a general-purpose, distributed, scalable, fault-tolerant, 
2169
 
                pluggable platform that allows programmers to easily develop 
2170
 
                applications for processing continuous unbounded streams of data.
2171
 
        </td>
2172
 
        <td width="20%">TODO</td>
2173
 
        </tr>
2174
 
 
2175
 
        <tr>
2176
 
        <td width="20%">Metamarkers Druid</td>
2177
 
        <td>
2178
 
                Realtime analytical data store.
2179
 
        </td>
2180
 
        <td width="20%">TODO</td>
2181
 
        </tr>
2182
 
 
2183
 
        <tr>
2184
 
        <td width="20%">Concurrent Cascading</td>
2185
 
        <td>
2186
 
                Application framework for Java developers to simply develop 
2187
 
                robust Data Analytics and Data Management applications on Apache Hadoop.
2188
 
        </td>
2189
 
        <td width="20%">TODO</td>
2190
 
        </tr>
2191
 
 
2192
 
        <tr>
2193
 
        <td width="20%">Concurrent Lingual</td>
2194
 
        <td>
2195
 
                Open source project enabling fast and simple Big Data application 
2196
 
                development on Apache Hadoop.  project that delivers ANSI-standard 
2197
 
                SQL technology to easily build new and integrate existing 
2198
 
                applications onto Hadoop
2199
 
        </td>
2200
 
        <td width="20%">TODO</td>
2201
 
        </tr>
2202
 
 
2203
 
        <tr>
2204
 
        <td width="20%">Concurrent Pattern</td>
2205
 
        <td>
2206
 
                Machine Learning for Cascading on Apache Hadoop through an API, 
2207
 
                and standards based PMML
2208
 
        </td>
2209
 
        <td width="20%">TODO</td>
2210
 
        </tr>
2211
 
 
2212
 
        <tr>
2213
 
        <td width="20%">Apache Giraph</td>
2214
 
        <td>
2215
 
                Apache Giraph is an iterative graph processing system built for 
2216
 
                high scalability. For example, it is currently used at Facebook 
2217
 
                to analyze the social graph formed by users and their connections. 
2218
 
                Giraph originated as the open-source counterpart to Pregel, the 
2219
 
                graph processing architecture developed at Google
2220
 
        </td>
2221
 
        <td width="20%">TODO</td>
2222
 
        </tr>
2223
 
 
2224
 
        <tr>
2225
 
        <td width="20%">Talend</td>
2226
 
        <td>
2227
 
                Talend is an open source software vendor that provides data 
2228
 
                integration, data management, enterprise application integration 
2229
 
                and big data software and solutions.
2230
 
        </td>
2231
 
        <td width="20%">TODO</td>
2232
 
        </tr>
2233
 
 
2234
 
        <tr>
2235
 
        <td width="20%">Akka Toolkit</td>
2236
 
        <td>
2237
 
                Akka is an open-source toolkit and runtime simplifying the 
2238
 
                construction of concurrent applications on the Java platform.
2239
 
        </td>
2240
 
        <td width="20%">TODO</td>
2241
 
        </tr>
2242
 
 
2243
 
        <tr>
2244
 
        <td width="20%">Eclipse BIRT</td>
2245
 
        <td>
2246
 
                BIRT is an open source Eclipse-based reporting system that 
2247
 
                integrates with your Java/Java EE application to produce 
2248
 
                compelling reports.
2249
 
        </td>
2250
 
        <td width="20%">TODO</td>
2251
 
        </tr>
2252
 
 
2253
 
        <tr>
2254
 
        <td width="20%">Spango BI</td>
2255
 
        <td>
2256
 
                SpagoBI is an Open Source Business Intelligence suite, 
2257
 
                belonging to the free/open source SpagoWorld initiative, 
2258
 
                founded and supported by Engineering Group. It offers a large 
2259
 
                range of analytical functions, a highly functional semantic layer 
2260
 
                often absent in other open source platforms and projects, and a 
2261
 
                respectable set of advanced data visualization features including 
2262
 
                geospatial analytics
2263
 
        </td>
2264
 
        <td width="20%">TODO</td>
2265
 
        </tr>
2266
 
 
2267
 
        <tr>
2268
 
        <td width="20%">Jedox Palo</td>
2269
 
        <td>
2270
 
                Palo Suite combines all core applications — OLAP Server, Palo 
2271
 
                Web, Palo ETL Server and Palo for Excel — into one comprehensive 
2272
 
                and customisable Business Intelligence platform. The platform is 
2273
 
                completely based on Open Source products representing a high-end 
2274
 
                Business Intelligence solution which is available entirely free 
2275
 
                of any license fees.
2276
 
        </td>
2277
 
        <td width="20%">TODO</td>
2278
 
        </tr>
2279
 
 
2280
 
        <tr>
2281
 
        <td width="20%">Twitter Finagle</td>
2282
 
        <td>
2283
 
                Finagle is an asynchronous network stack for the JVM that you 
2284
 
                can use to build asynchronous Remote Procedure Call (RPC) 
2285
 
                clients and servers in Java, Scala, or any JVM-hosted language.
2286
 
        </td>
2287
 
        <td width="20%">TODO</td>
2288
 
        </tr>
2289
 
 
2290
 
        <tr>
2291
 
        <td width="20%">Intel GraphBuilder</td>
2292
 
        <td>
2293
 
                Library which provides tools to construct large-scale graphs on 
2294
 
                top of Apache Hadoop
2295
 
        </td>
2296
 
        <td width="20%">TODO</td>
2297
 
        </tr>
2298
 
 
2299
 
        <tr>
2300
 
        <td width="20%">Apache Tika</td>
2301
 
        <td>
2302
 
                Toolkit detects and extracts metadata and structured text content 
2303
 
                from various documents using existing parser libraries.
2304
 
        </td>
2305
 
        <td width="20%">TODO</td>
2306
 
        </tr>
2307
 
 
2308
 
        <tr>
2309
 
        <td width="20%">Apache Zeppelin</td>
2310
 
        <td>
2311
 
                Zeppelin is a modern web-based tool for the data scientists to 
2312
 
                collaborate over large-scale data exploration and visualization 
2313
 
                projects. It is a notebook style interpreter that enable 
2314
 
                collaborative analysis sessions sharing between users. Zeppelin 
2315
 
                is independent of the execution framework itself. Current version 
2316
 
                runs on top of Apache Spark but it has pluggable interpreter APIs 
2317
 
                to support other data processing systems. More execution frameworks 
2318
 
                could be added at a later date i.e Apache Flink, Crunch as well 
2319
 
                as SQL-like backends such as Hive, Tajo, MRQL.
2320
 
        </td>
2321
 
        <td width="20%"><a href="https://zeppelin.incubator.apache.org/">1. Apache Zeppelin site</a>
2322
 
        </td>
2323
 
        </tr>
2324
 
 
2325
 
</table>
2326
 
 
2327
 
</section>
2328
 
    
2329
 
    </div>
2330
 
    <!-- FOOTER  -->
2331
 
    <div id="footer_wrap" class="outer">
2332
 
      <footer class="inner">
2333
 
        <p>Published with <a href="http://pages.github.com">GitHub Pages</a>
2334
 
           by <a href="http://es.linkedin.com/in/javiroman/">Javi Roman</a>, and
2335
 
           <a href="https://github.com/hadoopecosystemtable/hadoopecosystemtable.github.io/graphs/contributors">contributors</a>
2336
 
        </p>
2337
 
      </footer>
2338
 
    </div>
2339
 
 
2340
 
  </body>
2341
 
</html>