Инструмент для определения языка текста?
Есть ли инструмент, который может определить язык текста из нескольких абзацев?
2 ответа
Решение
Есть много инструментов, чтобы сделать это, первый из которых я думаю, это собственные Google: http://code.google.com/apis/ajax/playground/
- В Java есть http://textcat.sourceforge.net/
- В Ruby https://github.com/peterc/whatlanguage
- В Perl http://search.cpan.org/~ambs/Lingua-Identify-0.29/lib/Lingua/Identify.pm и т. Д.
Надеюсь, поможет
file
У инструмента есть куча эвристик для угадывания типов файлов, в том числе тот, который сообщает "английский текст". Я не знаю, знает ли он о других человеческих языках, но он определенно может быть улучшен, чтобы догадываться между ними.