rsennrich
diff --git a/‎.gitignore
+2 b/‎.gitignore
+2
diff --git a/‎src/Activation_function.h
+65-64 b/‎src/Activation_function.h
+65-64
diff --git a/‎src/Makefile
+2-2 b/‎src/Makefile
+2-2
diff --git a/‎src/SoftmaxLoss.h
+79-80 b/‎src/SoftmaxLoss.h
+79-80
@@ -8,3 +8,5 @@ src/prepareNeuralTM
 src/testNeuralLM
 src/testNeuralNetwork
 src/trainNeuralNetwork
+.history
+src/make.sh
@@ -3,7 +3,6 @@
 
 #include <cmath>
 #include <string>
-//#include <../3rdparty/Eigen/Dense>
 #include <Eigen/Dense>
 
 #include "util.h"
@@ -19,28 +18,28 @@ enum activation_function_type { Tanh, HardTanh, Rectifier, Identity, InvalidFunc
 
 inline activation_function_type string_to_activation_function (const std::string &s)
 {
-    if (s == "identity")
-        return Identity;
-    else if (s == "rectifier")
-        return Rectifier;
-    else if (s == "tanh")
-        return Tanh;
-    else if (s == "hardtanh")
-        return HardTanh;
-    else
-        return InvalidFunction;
+  if (s == "identity")
+    return Identity;
+  else if (s == "rectifier")
+    return Rectifier;
+  else if (s == "tanh")
+    return Tanh;
+  else if (s == "hardtanh")
+    return HardTanh;
+  else
+    return InvalidFunction;
 }
 
 inline std::string activation_function_to_string (activation_function_type f)
 {
-    if (f == Identity)
-        return "identity";
-    else if (f == Rectifier)
-        return "rectifier";
-    else if (f == Tanh)
-        return "tanh";
-    else if (f == HardTanh)
-        return "hardtanh";
+  if (f == Identity)
+    return "identity";
+  else if (f == Rectifier)
+    return "rectifier";
+  else if (f == Tanh)
+    return "tanh";
+  else if (f == HardTanh)
+    return "hardtanh";
 }
 
 struct hardtanh_functor {
@@ -69,51 +68,53 @@ struct drectifier_functor {
 
 class Activation_function
 {
-        int size;
-	activation_function_type f;
-
-    public:
-        Activation_function() : size(0), f(Rectifier) { }
-
-	void resize(int size) { this->size = size; }
-	void set_activation_function(activation_function_type f) { this->f = f; }
-
-	template <typename Engine>
-	void initialize(Engine &engine, bool init_normal, double init_range) { }
-
-	int n_inputs () const { return size; }
-	int n_outputs () const { return size; }
-
-        template <typename DerivedIn, typename DerivedOut>
-	void fProp(const MatrixBase<DerivedIn> &input, const MatrixBase<DerivedOut> &output) const
-        {
-	    UNCONST(DerivedOut, output, my_output);
-
-	    switch (f)
-	    {
-	    case Identity: my_output = input; break;
-	    case Rectifier: my_output = input.unaryExpr(rectifier_functor()); break;
-	    case Tanh: my_output = input.unaryExpr(tanh_functor()); break;
-	    case HardTanh: my_output = input.unaryExpr(hardtanh_functor()); break;
-	    }
-        }
-
-        template <typename DerivedGOut, typename DerivedGIn, typename DerivedIn, typename DerivedOut>
-	void bProp(const MatrixBase<DerivedGOut> &input, 
-      MatrixBase<DerivedGIn> &output,
-		   const MatrixBase<DerivedIn> &finput,
-       const MatrixBase<DerivedOut> &foutput) const
-        {
-	    UNCONST(DerivedGIn, output, my_output);
-
-	    switch (f)
-	    {
-	    case Identity: my_output = input; break;
-	    case Rectifier: my_output = finput.array().unaryExpr(drectifier_functor()) * input.array(); break;
-	    case Tanh: my_output = foutput.array().unaryExpr(tanh_functor()) * input.array(); break;
-	    case HardTanh: my_output = finput.array().unaryExpr(hardtanh_functor()) * input.array(); break;
-	    }
-        }
+  int size;
+  activation_function_type f;
+
+ public:
+  Activation_function() : size(0), f(Rectifier) { }
+
+  void resize(int size) { this->size = size; }
+  void set_activation_function(activation_function_type f) { this->f = f; }
+
+  template <typename Engine>
+  void initialize(Engine &engine, bool init_normal, double init_range) { }
+
+  int n_inputs () const { return size; }
+  int n_outputs () const { return size; }
+
+  template <typename DerivedIn, typename DerivedOut>
+  void fProp(const MatrixBase<DerivedIn> &input, const MatrixBase<DerivedOut> &output) const
+  {
+    UNCONST(DerivedOut, output, my_output);
+
+    switch (f)
+    {
+      case Identity: my_output = input; break;
+      case Rectifier: my_output = input.unaryExpr(rectifier_functor()); break;
+      case Tanh: my_output = input.unaryExpr(tanh_functor()); break;
+      case HardTanh: my_output = input.unaryExpr(hardtanh_functor()); break;
+      case InvalidFunction: std::abort();
+    }
+  }
+
+  template <typename DerivedGOut, typename DerivedGIn, typename DerivedIn, typename DerivedOut>
+  void bProp(const MatrixBase<DerivedGOut> &input,
+             MatrixBase<DerivedGIn> &output,
+             const MatrixBase<DerivedIn> &finput,
+             const MatrixBase<DerivedOut> &foutput) const
+  {
+    UNCONST(DerivedGIn, output, my_output);
+
+    switch (f)
+    {
+      case Identity: my_output = input; break;
+      case Rectifier: my_output = finput.array().unaryExpr(drectifier_functor()) * input.array(); break;
+      case Tanh: my_output = foutput.array().unaryExpr(tanh_functor()) * input.array(); break;
+      case HardTanh: my_output = finput.array().unaryExpr(hardtanh_functor()) * input.array(); break;
+      case InvalidFunction: std::abort();
+    }
+  }
 };
 
 } // namespace nplm
 
@@ -1,12 +1,12 @@
 ### Compilation options.
 
 # C++ compiler. Tested with g++ and Intel icpc.
-CXX=/usr/bin/g++
+CXX=g++
 #CXX=icpc
 
 # Compiler options. Note that -DEIGEN_NO_DEBUG is essential for good performance!
 #CFLAGS=-g
-CFLAGS=-O3 -DEIGEN_NO_DEBUG -DNDEBUG 
+CFLAGS=-O3 -DEIGEN_NO_DEBUG -DNDEBUG  $(CXXFLAGS)
 
 # Architecture. Set to x86_64 or i686 to override.
 ARCH:=$(shell uname -m)
 
@@ -1,7 +1,6 @@
-	#ifndef SOFTMAXLOSS_H
+#ifndef SOFTMAXLOSS_H
 #define SOFTMAXLOSS_H
 
-//#include <../3rdparty/Eigen/Dense>
 #include <Eigen/Dense>
 #include "multinomial.h"
 #include "util.h"
@@ -20,55 +19,55 @@ enum loss_function_type { LogLoss, NCELoss, InvalidLoss };
 
 inline loss_function_type string_to_loss_function (const std::string &s)
 {
-    if (s == "log")
-        return LogLoss;
-    else if (s == "nce")
-        return NCELoss;
-    else
-        return InvalidLoss;
+  if (s == "log")
+    return LogLoss;
+  else if (s == "nce")
+    return NCELoss;
+  else
+    return InvalidLoss;
 }
 
 inline std::string loss_function_to_string (loss_function_type f)
 {
-    if (f == LogLoss)
-        return "log";
-    else if (f == NCELoss)
-        return "nce";
+  if (f == LogLoss)
+    return "log";
+  else if (f == NCELoss)
+    return "nce";
 }
 
 /// Note: Outputs log-probabilities.
 
 struct SoftmaxLogLoss
 {
-    template <typename DerivedI, typename DerivedW, typename DerivedO>
-    void fProp(const MatrixBase<DerivedI> &input, const MatrixBase<DerivedW> &output_words, const MatrixBase<DerivedO> &output_const, double &loss)
+  template <typename DerivedI, typename DerivedW, typename DerivedO>
+  void fProp(const MatrixBase<DerivedI> &input, const MatrixBase<DerivedW> &output_words, const MatrixBase<DerivedO> &output_const, double &loss)
+  {
+    UNCONST(DerivedO, output_const, output);
+
+    double log_likelihood = 0.0;
+
+#pragma omp parallel for reduction(+:log_likelihood)
+    for (int train_id = 0; train_id < input.cols(); train_id++)
     {
-        UNCONST(DerivedO, output_const, output);
-
-	double log_likelihood = 0.0;
-
-        #pragma omp parallel for reduction(+:log_likelihood)
-	for (int train_id = 0; train_id < input.cols(); train_id++)
-	{
-	    double normalization = logsum(input.col(train_id));
-	    output.col(train_id).array() = input.col(train_id).array() - normalization;
-	    log_likelihood += output(output_words(train_id), train_id);
-	}
-	loss = log_likelihood;
+      double normalization = logsum(input.col(train_id));
+      output.col(train_id).array() = input.col(train_id).array() - normalization;
+      log_likelihood += output(output_words(train_id), train_id);
     }
-
-    template <typename DerivedW, typename DerivedO, typename DerivedI>
-    void bProp(const MatrixBase<DerivedW> &output_words, const MatrixBase<DerivedO> &output, const MatrixBase<DerivedI> &grad_input_const)
+    loss = log_likelihood;
+  }
+
+  template <typename DerivedW, typename DerivedO, typename DerivedI>
+  void bProp(const MatrixBase<DerivedW> &output_words, const MatrixBase<DerivedO> &output, const MatrixBase<DerivedI> &grad_input_const)
+  {
+    UNCONST(DerivedI, grad_input_const, grad_input);
+    grad_input.setZero();
+#pragma omp parallel for
+    for (int train_id = 0; train_id < output.cols(); train_id++)
     {
-        UNCONST(DerivedI, grad_input_const, grad_input);
-        grad_input.setZero();
-        #pragma omp parallel for
-	for (int train_id = 0; train_id < output.cols(); train_id++)
-	{
-	    grad_input(output_words(train_id), train_id) += 1.;
-	    grad_input.col(train_id) -= output.col(train_id).array().exp().matrix();
-	}
+      grad_input(output_words(train_id), train_id) += 1.;
+      grad_input.col(train_id) -= output.col(train_id).array().exp().matrix();
     }
+  }
 };
 
 ///// Softmax layer plus NCE loss function.
@@ -81,55 +80,55 @@ struct SoftmaxLogLoss
 template <typename Multinomial>
 class SoftmaxNCELoss
 {
-    const Multinomial &unigram;
+  const Multinomial &unigram;
 
-public:
-    SoftmaxNCELoss(const Multinomial &unigram) 
+ public:
+  SoftmaxNCELoss(const Multinomial &unigram)
       : unigram(unigram)
+  {
+  }
+
+  template <typename DerivedI, typename DerivedW, typename DerivedO>
+  void fProp(const MatrixBase<DerivedI> &scores,
+             const MatrixBase<DerivedW> &minibatch_samples,
+             const MatrixBase<DerivedO> &output_const, double &loss)
+  {
+    UNCONST(DerivedO, output_const, output);
+    double log_likelihood = 0.0;
+    int num_noise_samples = minibatch_samples.rows()-1;
+    double log_num_noise_samples = std::log(num_noise_samples);
+#pragma omp parallel for reduction(+:log_likelihood) schedule(static)
+    for (int train_id = 0; train_id < scores.cols(); train_id++)
     {
+      for (int sample_id = 0;sample_id < minibatch_samples.rows(); sample_id++)
+      {
+        int sample = minibatch_samples(sample_id, train_id);
+        // To avoid zero or infinite probabilities,
+        // never take exp of score without normalizing first,
+        // even if it's a little slower...
+        double score = scores(sample_id, train_id);
+        double score_noise = log_num_noise_samples + unigram.logprob(sample);
+        double z = logadd(score, score_noise);
+        double logprob = score - z;
+        double logprob_noise = score_noise - z;
+        output(sample_id, train_id) = std::exp(logprob);
+        log_likelihood += sample_id == 0 ? logprob : logprob_noise;
+      }
     }
-
-    template <typename DerivedI, typename DerivedW, typename DerivedO>
-    void fProp(const MatrixBase<DerivedI> &scores, 
-	       const MatrixBase<DerivedW> &minibatch_samples,
-	       const MatrixBase<DerivedO> &output_const, double &loss)
-    {
-        UNCONST(DerivedO, output_const, output);
-	double log_likelihood = 0.0;
-	int num_noise_samples = minibatch_samples.rows()-1;
-	double log_num_noise_samples = std::log(num_noise_samples);
-        #pragma omp parallel for reduction(+:log_likelihood) schedule(static)
-	for (int train_id = 0; train_id < scores.cols(); train_id++)
-	{
-	    for (int sample_id = 0;sample_id < minibatch_samples.rows(); sample_id++)
-	    {
-	        int sample = minibatch_samples(sample_id, train_id);
-		// To avoid zero or infinite probabilities,
-		// never take exp of score without normalizing first,
-		// even if it's a little slower...
-		double score = scores(sample_id, train_id);
-		double score_noise = log_num_noise_samples + unigram.logprob(sample);
-		double z = logadd(score, score_noise);
-		double logprob = score - z;
-		double logprob_noise = score_noise - z;
-		output(sample_id, train_id) = std::exp(logprob);
-		log_likelihood += sample_id == 0 ? logprob : logprob_noise;
-	    }
-	}
-	loss = log_likelihood;
-    }
-
-    template <typename DerivedO, typename DerivedI>
-    void bProp(const MatrixBase<DerivedO> &probs, const MatrixBase<DerivedI> &output_const)
+    loss = log_likelihood;
+  }
+
+  template <typename DerivedO, typename DerivedI>
+  void bProp(const MatrixBase<DerivedO> &probs, const MatrixBase<DerivedI> &output_const)
+  {
+    UNCONST(DerivedI, output_const, output);
+#pragma omp parallel for schedule(static)
+    for (int train_id = 0; train_id < probs.cols(); train_id++)
     {
-        UNCONST(DerivedI, output_const, output);
-        #pragma omp parallel for schedule(static)
-	for (int train_id = 0; train_id < probs.cols(); train_id++)
-	{
-	    output.col(train_id) = -probs.col(train_id);
-	    output(0, train_id) += 1.0;
-	}
+      output.col(train_id) = -probs.col(train_id);
+      output(0, train_id) += 1.0;
     }
+  }
 };
 
 } // namespace nplm