/docs/MyDocs

To get this branch, use:
bzr branch http://darksoft.org/webbzr/docs/MyDocs

« back to all changes in this revision

Viewing changes to Administration/Server/Orchestration/apache/apache.txt

  • Committer: Suren A. Chilingaryan
  • Date: 2017-04-03 02:45:17 UTC
  • Revision ID: csa@suren.me-20170403024517-dwzj0z0k1cmhxm7u
Restructuring, OpenShift, Ansible, Git

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
Toolset
 
2
=======
 
3
 - Apache Yarn: Resource manager. Part of Hadoop. Optionally can be used by Apache Spark as well.
 
4
 - Kafka: Distributed messenger
 
5
 - Storm: UFO for clusters. Works on tuples proceessed by acycling graph of filters which define spout (input) 
 
6
 and bolts (processing + output).  It offers a strong guarantee that every tuple will be processed. Storm 
 
7
 defaults to an “at least once” guarantee for messages, but offers the ability to implement “exactly once” 
 
8
 processing as well. The filters can be written in any language.
 
9
 - Spark: Generalized solution which can be configured for Hadoop and Storm workloads. Runs on top of the Apache
 
10
 Yarn or Mesos. Provides adapters for working data stored in numerous disparate sources, including HDFS files, 
 
11
 Cassandra, HBase, and S3. Architecture is centered around RRD (Resilient Distributed Dataset) - a read-only 
 
12
 multiset of data items distributed over a cluster of machines. In contrast to Hadoop/MapReduce can use kind
 
13
 of shared memory to store/read results effectively significantly speeding up various iterative workloads 
 
14
 accessing the data multiple times. Supports Java, Scala, Python, and R only. The simple app would look like:
 
15
  1. read file
 
16
  2. Split each file into a list of tokens
 
17
  3. Execute map/reduce operations on tokens, execute other operations
 
18
 - Ignite: Advanced in-memory database with map-reduce, sql, etc...
 
19
 - Hama: Iterative computations.
 
20
 - Beam: Google Cloud dataflow model which cna be executed later on Google Cloud or with Spark
 
21
 - Zeppelin: Online notebooks like Jupiter
 
22
 
 
23
 Databases
 
24
 =========
 
25
  Types: Key-value database (Redis), document database (MongoDb/RethinkDB), column data model (Cassandra), graph data model, sql data model, sql-style on top of nosql (Hive)