File Shuffler (Rust)

Высокопроизводительная утилита командной строки, написанная на Rust, для эффективного перемешивания строк в очень больших текстовых файлах.

Этот инструмент разработан для работы с файлами, которые не помещаются в оперативную память, используя систему чанков (частей) для обработки данных с минимальным потреблением RAM.

✨ Особенности

Эффективность по памяти: Обрабатывает гигантские файлы (многогигабайтные) с низким потреблением памяти благодаря разделению на чанки.
Высокая производительность: Оптимизирован для скорости с использованием буферизованного ввода-вывода и многопоточной обработки.
Удобство использования: Интерактивное меню для выбора файла в текущей директории.
Качественное перемешивание: Реализует двухэтапное перемешивание: сначала строки перемешиваются внутри каждого чанка, а затем чанки случайным образом объединяются в итоговый файл.

🚀 Начало работы

Предварительные требования

Для сборки и запуска проекта вам понадобится установленный Rust toolchain.

Установка и запуск

Клонируйте репозиторий:

git clone https://github.com/lonesomestranger/file-shuffler-rust.git
cd file-shuffler-rust

Поместите ваш файл в директорию проекта: Скопируйте большой текстовый файл, который вы хотите перемешать, в ту же папку, где находится проект.
Запустите приложение: Для максимальной производительности рекомендуется запускать в release-режиме.
```
cargo run --release
```
Выберите файл: В терминале появится меню со списком файлов в текущей директории. Используйте стрелки для выбора нужного файла и нажмите Enter.
```
? Select input file
❯ my_large_dataset.txt
  another_file.log
```
Дождитесь завершения: Программа начнет обработку. В консоли будет отображаться прогресс перемешивания каждого чанка и общее время выполнения.
Найдите результат: Перемешанный файл будет сохранен в той же директории с именем shuffled_ИМЯ_ВАШЕГО_ФАЙЛА.txt.

⚙️ Как это работает

Процесс перемешивания разделен на несколько этапов для обеспечения высокой производительности и низкого потребления памяти:

Разделение на чанки: Входной файл читается и делится на чанки заданного размера (по умолчанию 512 МБ).
Перемешивание чанков: Строки внутри каждого чанка перемешиваются в памяти и записываются во временный файл в папке temp_chunks.
Слияние: Временные файлы-чанки объединяются в один итоговый файл. Процесс слияния также рандомизирован: утилита случайным образом выбирает, из какого чанка взять следующую строку.
Очистка: Временная директория temp_chunks удаляется после успешного завершения.

Конфигурация

Вы можете настроить производительность, изменив константы в верхней части файла src/main.rs:

CHUNK_SIZE: Размер каждого чанка в байтах. Увеличение может ускорить процесс на системах с большим количеством RAM.
BUF_CAPACITY: Размер буфера для операций чтения/записи.

🤝 Вклад

Вклад в проект приветствуется! Не стесняйтесь открывать issue или отправлять pull request.
Также доступен на Codeberg.

📄 Лицензия

Этот проект распространяется под лицензией MIT. Подробности смотрите в файле LICENSE.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
src		src
.gitignore		.gitignore
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

File Shuffler (Rust)

✨ Особенности

🚀 Начало работы

Предварительные требования

Установка и запуск

⚙️ Как это работает

Конфигурация

🤝 Вклад

📄 Лицензия

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

lonesomestranger/file-shuffler-rust

Folders and files

Latest commit

History

Repository files navigation

File Shuffler (Rust)

✨ Особенности

🚀 Начало работы

Предварительные требования

Установка и запуск

⚙️ Как это работает

Конфигурация

🤝 Вклад

📄 Лицензия

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages