Найти повторяющиеся фразы - любой инструмент или регулярное выражение

У меня длинный документ, и я подозреваю, что некоторые фразы (одно или несколько предложений) идентичны или, по крайней мере, похожи. Есть ли способ найти эти повторяющиеся фразы? Какой-то инструмент или регулярное выражение?

1 ответ

Найти одинаковые предложения можно легко в Notepad++:

  1. Используйте регулярное выражение, чтобы каждое предложение было в новой строке. Это можно сделать (например), ища все . и заменить их .\n
  2. Удалите все пробелы в начале строки.
  3. Теперь идем дальше и сортируем строки (TextFX -> Инструменты TextFX)
  4. Преобразуйте символ EOL в UNIX, потому что ot упрощает работу (Правка -> Преобразование EOL)
  5. Теперь ищите дублированные строки, ища ^([^\n]+)\n\1

Чтобы найти похожие предложения, вам понадобится что-то вроде словесной программы или нечеткого поиска.

Другие вопросы по тегам