Replace messy neighbor search with Affinity class

pavlin-policar · pavlin-policar · commit f83f387cb047 · 2018-06-24T16:41:55.000+02:00
diff --git a/README.md b/README.md
@@ -55,7 +55,7 @@ If we want finer control of the optimization process, we can run individual opti
 
 ```python
 tsne = TSNE()
-embedding = tsne.get_initial_embedding_for(x)
+embedding = tsne.prepare_initial(x)
 embedding.optimize(n_iter=250, exaggeration=12, momentum=0.5)
 embedding.optimize(n_iter=750, momentum=0.8)
 ```
diff --git a/tests/test_correctness.py b/tests/test_correctness.py
@@ -15,7 +15,7 @@ def setUpClass(cls):
         cls.x = np.random.randn(100, 4)
 
     def test_error_exaggeration_correction(self):
-        embedding = self.tsne.get_initial_embedding_for(self.x)
+        embedding = self.tsne.prepare_initial(self.x)
 
         # The callback raises if the KL divergence does not match the true one
         embedding.optimize(
diff --git a/tests/test_tsne.py b/tests/test_tsne.py
@@ -132,7 +132,7 @@ def test_embedding_optimize(self, param_name, param_value, gradient_descent):
         params = {'n_iter': 50, param_name: param_value}
 
         tsne = TSNE()
-        embedding = tsne.get_initial_embedding_for(self.x)
+        embedding = tsne.prepare_initial(self.x)
         embedding.optimize(**params, inplace=True)
 
         self.assertEqual(1, gradient_descent.call_count)
@@ -204,7 +204,7 @@ def test_partial_embedding_optimize(self, param_name, param_value, gradient_desc
         # `optimize` requires us to specify the `n_iter`
         params = {'n_iter': 50, param_name: param_value}
 
-        partial_embedding = embedding.get_partial_embedding_for(self.x_test)
+        partial_embedding = embedding.prepare_partial(self.x_test)
         partial_embedding.optimize(**params, inplace=True)
 
         self.assertEqual(1, gradient_descent.call_count)
@@ -219,7 +219,7 @@ def setUpClass(cls):
         cls.x_test = np.random.randn(25, 4)
 
     def test_embedding_inplace_optimization(self):
-        embedding1 = self.tsne.get_initial_embedding_for(self.x)
+        embedding1 = self.tsne.prepare_initial(self.x)
 
         embedding2 = embedding1.optimize(n_iter=5, inplace=True)
         embedding3 = embedding2.optimize(n_iter=5, inplace=True)
@@ -228,7 +228,7 @@ def test_embedding_inplace_optimization(self):
         self.assertIs(embedding2.base, embedding3.base)
 
     def test_embedding_not_inplace_optimization(self):
-        embedding1 = self.tsne.get_initial_embedding_for(self.x)
+        embedding1 = self.tsne.prepare_initial(self.x)
 
         embedding2 = embedding1.optimize(n_iter=5, inplace=False)
         embedding3 = embedding2.optimize(n_iter=5, inplace=False)
@@ -239,10 +239,10 @@ def test_embedding_not_inplace_optimization(self):
 
     def test_partial_embedding_inplace_optimization(self):
         # Prepare reference embedding
-        embedding = self.tsne.get_initial_embedding_for(self.x)
+        embedding = self.tsne.prepare_initial(self.x)
         embedding.optimize(10, inplace=True)
 
-        partial_embedding1 = embedding.get_partial_embedding_for(self.x_test)
+        partial_embedding1 = embedding.prepare_partial(self.x_test)
         partial_embedding2 = partial_embedding1.optimize(5, inplace=True)
         partial_embedding3 = partial_embedding2.optimize(5, inplace=True)
 
@@ -251,10 +251,10 @@ def test_partial_embedding_inplace_optimization(self):
 
     def test_partial_embedding_not_inplace_optimization(self):
         # Prepare reference embedding
-        embedding = self.tsne.get_initial_embedding_for(self.x)
+        embedding = self.tsne.prepare_initial(self.x)
         embedding.optimize(10, inplace=True)
 
-        partial_embedding1 = embedding.get_partial_embedding_for(self.x_test)
+        partial_embedding1 = embedding.prepare_partial(self.x_test)
         partial_embedding2 = partial_embedding1.optimize(5, inplace=False)
         partial_embedding3 = partial_embedding2.optimize(5, inplace=False)
 
@@ -298,7 +298,7 @@ def test_can_pass_callbacks_to_tsne_object(self):
         callback2.assert_called_once()
 
     def test_can_pass_callbacks_to_embedding_optimize(self):
-        embedding = self.tsne.get_initial_embedding_for(self.x)
+        embedding = self.tsne.prepare_initial(self.x)
 
         # We don't the callback to be iterable
         callback = MagicMock()
@@ -314,7 +314,7 @@ def test_can_pass_callbacks_to_embedding_optimize(self):
         callback.assert_called_once()
 
     def test_can_pass_callbacks_to_embedding_transform(self):
-        embedding = self.tsne.get_initial_embedding_for(self.x)
+        embedding = self.tsne.prepare_initial(self.x)
 
         # We don't the callback to be iterable
         callback = MagicMock()
@@ -332,14 +332,14 @@ def test_can_pass_callbacks_to_embedding_transform(self):
         callback.assert_called_once()
 
     def test_can_pass_callbacks_to_partial_embedding_optimize(self):
-        embedding = self.tsne.get_initial_embedding_for(self.x)
+        embedding = self.tsne.prepare_initial(self.x)
 
         # We don't the callback to be iterable
         callback = MagicMock()
         del callback.__iter__
 
         # Should be able to pass a single callback
-        partial_embedding = embedding.get_partial_embedding_for(self.x_test)
+        partial_embedding = embedding.prepare_partial(self.x_test)
         partial_embedding.optimize(1, callbacks=callback, callbacks_every_iters=1)
         callback.assert_called_once()
 
diff --git a/tsne/affinity.py b/tsne/affinity.py
@@ -0,0 +1,159 @@
+import logging
+
+import numpy as np
+from scipy.sparse import csr_matrix
+
+from tsne import _tsne
+from tsne.nearest_neighbors import KDTree, NNDescent, KNNIndex
+
+log = logging.getLogger(__name__)
+
+
+class Affinities:
+    """Compute the affinities among some initial data and new data.
+
+    tSNE takes as input an affinity matrix P, and does not really care about
+    the space in which the original data points lie. This means we are not
+    limited to problems with numeric matrices (although that is the most common
+    use-case) but can also optimize graph layouts.
+
+    We use perplexity, as defined by Van der Maaten in the original paper as a
+    continuous analogue to the number of neighbor affinities we want to
+    preserve during optimization.
+
+    """
+    def __init__(self, perplexity=30):
+        self.perplexity = perplexity
+        self.P = None
+
+    def to_new(self, data, perplexity=None, return_distances=False):
+        """Compute the affinities of new data points to the existing ones.
+
+        This is especially useful for `transform` where we need the conditional
+        probabilities from the existing to the new data.
+
+        """
+
+
+class NearestNeighborAffinities(Affinities):
+    """Compute affinities using the nearest neighbors defined by perplexity."""
+    def __init__(self, data, perplexity=30, method='approx', metric='euclidean',
+                 symmetrize=True, n_jobs=1):
+        self.n_samples = data.shape[0]
+
+        perplexity = self.check_perplexity(perplexity)
+        k_neighbors = min(self.n_samples - 1, int(3 * perplexity))
+
+        # Support shortcuts for built-in nearest neighbor methods
+        methods = {'exact': KDTree, 'approx': NNDescent}
+        if isinstance(method, KNNIndex):
+            knn_index = method
+
+        elif method not in methods:
+            raise ValueError('Unrecognized nearest neighbor algorithm `%s`. '
+                             'Please choose one of the supported methods or '
+                             'provide a valid `KNNIndex` instance.')
+        else:
+            knn_index = methods[method](metric=metric, n_jobs=n_jobs)
+
+        knn_index.build(data)
+        neighbors, distances = knn_index.query_train(data, k=k_neighbors)
+
+        # Store the results on the object
+        self.perplexity = perplexity
+        self.knn_index = knn_index
+        self.P = joint_probabilities_nn(
+            neighbors, distances, perplexity, symmetrize=symmetrize, n_jobs=n_jobs)
+
+        self.n_jobs = n_jobs
+
+    def to_new(self, data, perplexity=None, return_distances=False):
+        perplexity = perplexity or self.perplexity
+        perplexity = self.check_perplexity(perplexity)
+        k_neighbors = min(self.n_samples - 1, int(3 * perplexity))
+
+        neighbors, distances = self.knn_index.query(data, k_neighbors)
+
+        P = joint_probabilities_nn(
+            neighbors, distances, perplexity, symmetrize=False,
+            n_reference_samples=self.n_samples, n_jobs=self.n_jobs,
+        )
+
+        if return_distances:
+            return P, neighbors, distances
+
+        return P
+
+    def check_perplexity(self, perplexity):
+        """Check for valid perplexity value."""
+        if self.n_samples - 1 < 3 * perplexity:
+            old_perplexity, perplexity = perplexity, (self.n_samples - 1) / 3
+            log.warning('Perplexity value %d is too high. Using perplexity %.2f' %
+                        (old_perplexity, perplexity))
+
+        return perplexity
+
+
+class GraphAffinities(Affinities):
+    def __init__(self, data, use_directed=True, use_weights=True):
+        super().__init__()
+
+    def to_new(self, data):
+        pass
+
+
+def joint_probabilities_nn(neighbors, distances, perplexity, symmetrize=True,
+                           n_reference_samples=None, n_jobs=1):
+    """Compute the conditional probability matrix P_{j|i}.
+
+    This method computes an approximation to P using the nearest neighbors.
+
+    Parameters
+    ----------
+    neighbors : np.ndarray
+        A `n_samples * k_neighbors` matrix containing the indices to each
+        points' nearest neighbors in descending order.
+    distances : np.ndarray
+        A `n_samples * k_neighbors` matrix containing the distances to the
+        neighbors at indices defined in the neighbors parameter.
+    perplexity : double
+        The desired perplexity of the probability distribution.
+    symmetrize : bool
+        Whether to symmetrize the probability matrix or not. Symmetrizing is
+        used for typical t-SNE, but does not make sense when embedding new data
+        into an existing embedding.
+    n_reference_samples : int
+        The number of samples in the existing (reference) embedding. Needed to
+        properly construct the sparse P matrix.
+    n_jobs : int
+        Number of threads.
+
+    Returns
+    -------
+    csr_matrix
+        A `n_samples * n_reference_samples` matrix containing the probabilities
+        that a new sample would appear as a neighbor of a reference point.
+
+    """
+    n_samples, k_neighbors = distances.shape
+
+    if n_reference_samples is None:
+        n_reference_samples = n_samples
+
+    # Compute asymmetric pairwise input similarities
+    conditional_P = _tsne.compute_gaussian_perplexity(
+        distances, perplexity, num_threads=n_jobs)
+    conditional_P = np.asarray(conditional_P)
+
+    P = csr_matrix((conditional_P.ravel(), neighbors.ravel(),
+                    range(0, n_samples * k_neighbors + 1, k_neighbors)),
+                   shape=(n_samples, n_reference_samples))
+
+    # Symmetrize the probability matrix
+    if symmetrize:
+        P = (P + P.T) / 2
+
+    # Convert weights to probabilities using pair-wise normalization scheme
+    P /= np.sum(P)
+
+    return P
diff --git a/tsne/callbacks.py b/tsne/callbacks.py
@@ -39,13 +39,13 @@ class VerifyExaggerationError:
     def __init__(self, embedding: TSNEEmbedding) -> None:
         self.embedding = embedding
         # Keep a copy of the unexaggerated affinity matrix
-        self.P = self.embedding.P.copy()
+        self.P = self.embedding.affinities.P.copy()
 
     def __call__(self, iteration: int, corrected_error: float, embedding: TSNEEmbedding):
         params = self.embedding.gradient_descent_params
         method = params['negative_gradient_method']
 
-        if np.sum(embedding.P) <= 1:
+        if np.sum(embedding.affinities.P) <= 1:
             log.warning('Are you sure you are testing an exaggerated P matrix?')
 
         if method == 'fft':
diff --git a/tsne/metrics.py b/tsne/metrics.py
@@ -7,4 +7,4 @@ def pBIC(embedding: TSNEEmbedding) -> float:
     n_samples = embedding.shape[0]
 
     return 2 * embedding.kl_divergence + np.log(n_samples) * \
-        embedding.perplexity / n_samples
+        embedding.affinities.perplexity / n_samples
diff --git a/tsne/tsne.py b/tsne/tsne.py