nghoanglongde
diff --git a/‎Dockerfile
Lines changed: 14 additions & 10 deletions b/‎Dockerfile
Lines changed: 14 additions & 10 deletions
diff --git a/‎build-image.sh
Lines changed: 0 additions & 3 deletions b/‎build-image.sh
Lines changed: 0 additions & 3 deletions
diff --git a/‎config/core-site.xml
Lines changed: 0 additions & 6 deletions b/‎config/core-site.xml
Lines changed: 0 additions & 6 deletions
diff --git a/‎config/hdfs-site.xml
Lines changed: 0 additions & 14 deletions b/‎config/hdfs-site.xml
Lines changed: 0 additions & 14 deletions
diff --git a/‎config/slaves
Lines changed: 0 additions & 2 deletions b/‎config/slaves
Lines changed: 0 additions & 2 deletions
diff --git a/‎config/spark-default.conf
Lines changed: 0 additions & 12 deletions b/‎config/spark-default.conf
Lines changed: 0 additions & 12 deletions
diff --git a/‎config/workers
Lines changed: 0 additions & 2 deletions b/‎config/workers
Lines changed: 0 additions & 2 deletions
diff --git a/‎docker-compose.yaml
Lines changed: 30 additions & 14 deletions b/‎docker-compose.yaml
Lines changed: 30 additions & 14 deletions
diff --git a/‎host_configs/hosts
Lines changed: 10 additions & 0 deletions b/‎host_configs/hosts
Lines changed: 10 additions & 0 deletions
diff --git a/‎spark_configs/core-site.xml
Lines changed: 10 additions & 0 deletions b/‎spark_configs/core-site.xml
Lines changed: 10 additions & 0 deletions
diff --git a/‎config/hadoop-env.sh renamed to ‎spark_configs/hadoop-env.sh b/‎config/hadoop-env.sh renamed to ‎spark_configs/hadoop-env.sh
diff --git a/‎spark_configs/hdfs-site.xml
Lines changed: 10 additions & 0 deletions b/‎spark_configs/hdfs-site.xml
Lines changed: 10 additions & 0 deletions
diff --git a/‎config/mapred-site.xml renamed to ‎spark_configs/mapred-site.xml b/‎config/mapred-site.xml renamed to ‎spark_configs/mapred-site.xml
diff --git a/‎spark_configs/slaves
Lines changed: 2 additions & 0 deletions b/‎spark_configs/slaves
Lines changed: 2 additions & 0 deletions
diff --git a/‎spark_configs/spark-default.conf
Lines changed: 12 additions & 0 deletions b/‎spark_configs/spark-default.conf
Lines changed: 12 additions & 0 deletions
diff --git a/‎config/spark-env.sh renamed to ‎spark_configs/spark-env.sh
Lines changed: 1 addition & 3 deletions b/‎config/spark-env.sh renamed to ‎spark_configs/spark-env.sh
Lines changed: 1 addition & 3 deletions
diff --git a/‎config/ssh_config renamed to ‎spark_configs/ssh_config
Lines changed: 1 addition & 1 deletion b/‎config/ssh_config renamed to ‎spark_configs/ssh_config
Lines changed: 1 addition & 1 deletion
diff --git a/‎config/start-cluster.sh renamed to ‎spark_configs/start-cluster.sh b/‎config/start-cluster.sh renamed to ‎spark_configs/start-cluster.sh
diff --git a/‎spark_configs/workers
Lines changed: 2 additions & 0 deletions b/‎spark_configs/workers
Lines changed: 2 additions & 0 deletions
diff --git a/‎config/yarn-site.xml renamed to ‎spark_configs/yarn-site.xml
Lines changed: 1 addition & 1 deletion b/‎config/yarn-site.xml renamed to ‎spark_configs/yarn-site.xml
Lines changed: 1 addition & 1 deletion
@@ -3,14 +3,18 @@ FROM ubuntu:18.04
 WORKDIR /root
 
 RUN apt-get update && apt-get install -y \
-    python3-pip \
     openssh-server \
     nano \
-    openjdk-8-jdk \
-    python3.7
+    openjdk-8-jdk
 
-RUN pip3 install jupyter && \
-    pip3 install pyspark
+RUN apt-get install -y python3 && \ 
+    apt-get install -y python3-pip && \
+    ln -s /usr/bin/python3 /usr/bin/python && \
+    rm -rf /var/lib/apt/lists/*
+
+RUN pip3 install --upgrade setuptools && \
+    pip3 install pyspark && \
+    pip3 install jupyter
 
 # download hadoop
 RUN wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz && \
@@ -19,10 +23,10 @@ RUN wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7
     rm hadoop-2.7.7.tar.gz
 
 # download spark
-RUN wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop2.7.tgz && \
-    tar -xzf spark-3.2.1-bin-hadoop2.7.tgz && \
-    mv spark-3.2.1-bin-hadoop2.7 /usr/local/spark && \
-    rm spark-3.2.1-bin-hadoop2.7.tgz
+RUN wget https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop2.7.tgz && \
+    tar -xzf spark-3.2.4-bin-hadoop2.7.tgz && \
+    mv spark-3.2.4-bin-hadoop2.7 /usr/local/spark && \
+    rm spark-3.2.4-bin-hadoop2.7.tgz
 
 # set environment vars
 ENV HADOOP_HOME=/usr/local/hadoop
@@ -40,7 +44,7 @@ RUN ssh-keygen -t rsa -f ~/.ssh/id_rsa -P '' && \
     chmod 0600 ~/.ssh/authorized_keys
 
 # copy hadoop configs
-COPY config/* /tmp/
+COPY /spark_configs/* /tmp/
 
 RUN mv /tmp/ssh_config ~/.ssh/config && \
     mv /tmp/hadoop-env.sh $HADOOP_HOME/etc/hadoop/hadoop-env.sh && \
 
@@ -1,37 +1,53 @@
 version: '3'
 
 services:
-  hadoop-spark-master:
-    container_name: hadoop-spark-master
-    image: ghcr.io/nghoanglong/spark-cluster-with-docker/spark-cluster:1.0
+  hadoop-namenode:
+    container_name: hadoop-namenode
+    build:
+      context: .
+      dockerfile: Dockerfile
     networks:
       - hadoop-spark
+    mem_limit: 2g
+    cpus: 1
     ports:
       - "50070:50070"
       - "8088:8088"
       - "8080:8080"
       - "7077:7077"
       - "8888:8888"
       - "18080:18080"
-    hostname: hadoop-spark-master
+      - "4040:4040"
+      - "10000:10000"
+    hostname: hadoop-namenode
     command: ["sh", "-c", "service ssh start; ./start-cluster.sh; tail -f /dev/null"]
-  hadoop-spark-slave1:
-    container_name: hadoop-spark-slave1
-    image: ghcr.io/nghoanglong/spark-cluster-with-docker/spark-cluster:1.0
+  hadoop-datanode1:
+    container_name: hadoop-datanode1
+    build:
+      context: .
+      dockerfile: Dockerfile
+    mem_limit: 1.5g
+    cpus: 2
+    ports:
+      - "8081:8081"
     networks:
       - hadoop-spark
-    hostname: hadoop-spark-slave1
+    hostname: hadoop-datanode1
     depends_on:
-      - hadoop-spark-master
+      - hadoop-namenode
     command: ["sh", "-c", "service ssh start; tail -f /dev/null"]
-  hadoop-spark-slave2:
-    container_name: hadoop-spark-slave2
-    image: ghcr.io/nghoanglong/spark-cluster-with-docker/spark-cluster:1.0
+  hadoop-datanode2:
+    container_name: hadoop-datanode2
+    build:
+      context: .
+      dockerfile: Dockerfile
     networks:
       - hadoop-spark
-    hostname: hadoop-spark-slave2
+    mem_limit: 1.5g
+    cpus: 2
+    hostname: hadoop-datanode2
     depends_on:
-      - hadoop-spark-master
+      - hadoop-namenode
     command: ["sh", "-c", "service ssh start; tail -f /dev/null"]
 
 networks:
 
@@ -0,0 +1,10 @@
+127.0.0.1	localhost
+172.18.0.2  hadoop-namenode
+172.18.0.3  hadoop-datanode2
+172.18.0.4  hadoop-datanode1
+
+::1	localhost ip6-localhost ip6-loopback
+fe00::0	ip6-localnet
+ff00::0	ip6-mcastprefix
+ff02::1	ip6-allnodes
+ff02::2	ip6-allrouters
@@ -0,0 +1,10 @@
+<configuration>
+    <property>
+        <name>fs.defaultFS</name>
+        <value>hdfs://hadoop-namenode:9000/</value>
+    </property>
+    <property>
+        <name>hadoop.tmp.dir</name>
+        <value>/home/${user.name}/hadoop</value>
+    </property>
+</configuration>
@@ -0,0 +1,10 @@
+<configuration>
+    <property>
+        <name>dfs.namenode.heartbeat.recheck-interval</name>
+        <value>3000</value>
+    </property>
+    <property>
+        <name>dfs.replication</name>
+        <value>2</value>
+    </property>
+</configuration>
@@ -0,0 +1,2 @@
+hadoop-datanode1
+hadoop-datanode2
@@ -0,0 +1,12 @@
+spark.master    yarn
+spark.driver.memory     2G
+spark.yarn.am.memory    1G
+spark.executor.memory	1G
+spark.executor.cores	1
+spark.history.ui.port 18080
+
+spark.ui.enabled true
+spark.ui.port 4040
+spark.eventLog.enabled true
+spark.eventLog.dir file:///tmp/spark-events
+spark.history.fs.logDirectory file:///tmp/spark-events
@@ -40,8 +40,6 @@
 # - SPARK_EXECUTOR_CORES, Number of cores for the executors (Default: 1).
 # - SPARK_EXECUTOR_MEMORY, Memory per Executor (e.g. 1000M, 2G) (Default: 1G)
 # - SPARK_DRIVER_MEMORY, Memory for Driver (e.g. 1000M, 2G) (Default: 1G)
-export SPARK_DRIVER_MEMORY=2G
-export SPARK_EXECUTOR_MEMORY=1G
 
 # Options for the daemons used in the standalone deploy mode
 # - SPARK_MASTER_HOST, to bind the master to a different IP address or hostname
@@ -68,6 +66,6 @@ export SPARK_EXECUTOR_MEMORY=1G
 # - SPARK_NO_DAEMONIZE  Run the proposed command in the foreground. It will not output a PID file.
 
 export SPARK_HOME=/usr/local/spark
-export PYSPARK_PYTHON=python3.7
+export PYSPARK_PYTHON=python3
 export PYSPARK_DRIVER_PYTHON=jupyter
 export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
@@ -4,6 +4,6 @@ Host localhost
 Host 0.0.0.0
   StrictHostKeyChecking no
 
-Host hadoop-spark-*
+Host hadoop-*
    StrictHostKeyChecking no
    UserKnownHostsFile=/dev/null
@@ -0,0 +1,2 @@
+hadoop-datanode1
+hadoop-datanode2
@@ -5,6 +5,6 @@
     </property>
     <property>
         <name>yarn.resourcemanager.hostname</name>
-        <value>hadoop-spark-master</value>
+        <value>hadoop-namenode</value>
     </property>
 </configuration>
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+hadoop-datanode1`
	`2`	`+hadoop-datanode2`