cleanup

EleutherAI · Lewington-pitsos · Jul 18, 2024 · Jul 18, 2024 · Jul 18, 2024 · 9e43ce3e39dcba003df96af8c9449bc5b5937b83
commit 9e43ce3e39dcba003df96af8c9449bc5b5937b83
diff --git a/sae/data.py b/sae/data.py
@@ -1,6 +1,5 @@
 """Tools for tokenizing and manipulating text datasets."""
 
-import os
 import math
 from multiprocessing import cpu_count
 from typing import TypeVar, Union
@@ -93,7 +92,6 @@ def _tokenize_fn(x: dict[str, list], leftovers: list=[]):
             output = {k: v[:len(output['input_ids'])] for k, v in output.items()}
 
 
-
         output_batch_size = len(output["input_ids"])
 
         if output_batch_size == 0:

diff --git a/tests/test_chunk_and_tokenize.py b/tests/test_chunk_and_tokenize.py
@@ -1,7 +1,7 @@
 import pytest
 from transformers import GPT2TokenizerFast
 from datasets import Dataset
-from sae.data import chunk_and_tokenize  # Replace 'mymodule' with the actual module name
+from sae.data import chunk_and_tokenize
 
 @pytest.fixture
 def setup_data():