Improvement of automatic text detection #903

andreygetmanov · 2022-09-21T13:58:36Z

Automatic text detection now is more effective, accurate and robust.

Every column which possibly contains text now is checked on the tf-idf vocabulary size. If this size is more than threshold, this column really contains useful text information.
Columns with links (they don't contain useful information and sometimes lead to a FEDOT fail) are removed automatically.
Additional unit tests and extended tests (based on AutoML benchmark) will be added too.

codecov · 2022-09-21T14:14:38Z

Codecov Report

Merging #903 (86ae96f) into master (c5f050d) will decrease coverage by 0.08%.
The diff coverage is 86.95%.

@@            Coverage Diff             @@
##           master     #903      +/-   ##
==========================================
- Coverage   87.86%   87.77%   -0.09%     
==========================================
  Files         206      206              
  Lines       13786    13726      -60     
==========================================
- Hits        12113    12048      -65     
- Misses       1673     1678       +5

Impacted Files	Coverage Δ
fedot/core/pipelines/tuning/search_space.py	`100.00% <ø> (ø)`
...implementations/data_operations/text_pretrained.py	`56.14% <42.85%> (-4.73%)`	⬇️
fedot/core/data/data_detection.py	`96.70% <97.22%> (+1.31%)`	⬆️
fedot/core/composer/metrics.py	`97.22% <100.00%> (-0.04%)`	⬇️
fedot/core/constants.py	`100.00% <100.00%> (ø)`
fedot/core/data/data.py	`86.77% <100.00%> (-0.11%)`	⬇️
fedot/core/data/multi_modal.py	`87.62% <100.00%> (+2.05%)`	⬆️
fedot/preprocessing/data_types.py	`94.25% <100.00%> (+0.03%)`	⬆️
...edot/core/repository/graph_operation_repository.py	`66.66% <0.00%> (-8.34%)`	⬇️
fedot/explainability/explainer_template.py	`75.00% <0.00%> (-5.00%)`	⬇️
... and 59 more

Help us with your feedback. Take ten seconds to tell us how you rate us. Have a feature suggestion? Share it here.

fedot/core/constants.py

fedot/core/data/data_detection.py

fedot/core/data/multi_modal.py

MorrisNein · 2022-09-30T12:15:21Z

fedot/core/data/data_detection.py

+                tfidf_vectorizer.fit(np.where(pd.isna(column), '', column))
+                if len(tfidf_vectorizer.vocabulary_) > MIN_VOCABULARY_SIZE:
+                    return True
+            except ValueError:


Можем ли вынести из-под try лишние действия и сделать

# Полезные действия try: # Полезные действия, где ловим ошибки except: # Обработка else: # Полезные действия

Можем ли вынести из-под try лишние действия и сделать

Вот так, например?

Dreamlone · 2022-10-01T18:51:46Z

fedot/core/data/data_detection.py

    @staticmethod
    def is_full_of_nans(text_data: np.array) -> bool:
        if np.sum(pd.isna(text_data)) / len(text_data) > ALLOWED_NAN_PERCENT:
            return True
        return False

+    @staticmethod
+    def is_link(text_data: np.array) -> bool:


Во первых, стоит написать тесты, покрывающие эту функциональность, но как я понял из описания PR - они и так в процессе

Во вторых, в описании к PR сказано, что "Columns with links (they don't contain useful information and sometimes lead to a FEDOT fail) are removed automatically". Отсюда возникает вопрос, а стоит ли привязываться именно к ссылкам и заносить их все в категорию "столбцов для удаления" (кстати, а не сбивается ли индексация столбцов после их удаления в supplementary data?)? То есть вполне себе могу представить кейс, когда количество уникальных значений в текстовом столбце будет равно двум и оба варианта будут ссылками например. Тогда после One Hot Encoding'а информация из этого столбца вполне может пригодиться. Поэтому имеет смысл выделить свойства столбца с гиперссылками, которые мешают ML алгоритмам и избавляться от всех столбцов с такими свойствами.

Например, если проблема в том, что ссылка всегда одинаковая, то тогда стоит просто удалять все столбцы с неизменным набором символов в ячейках безотносительно их содержания. Если же ссылки для кажого объекта уникальные, то может имеет смысл удалять все столбцы, в которых текст уникален и при этом не представляет собой сырье для NLP алгоритмов (например, нет осмысленных фраз в ячейках или пробелов). Или проблема именно с тем, что встречается набор символов http в ячейке?

С уже оставленными к этому PR комментариями согласен

- reduced fraction of unique values - added min vocabulary size param - added class labels property to multimodal

- tests adapted for new functionality

- minor changes

andreygetmanov requested a review from nicl-nno September 21, 2022 13:58