Есть ли программное обеспечение, которое выполняет анализ текста в блогах?
Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.
В идеале, он будет иметь все эти функции:
- Черный список слов (игнорировать)
- Слово stemming
- Пользовательский синоним слияния
- Подсчет всех использований
- Подсчет количества постов, в которых появляется слово.
Я бы подумал, что такого рода текстовый анализ был бы чрезвычайно распространенным, но я не смог найти ни одного программного обеспечения, которое бы делало подобные вещи во всех блогах. Есть ли программное обеспечение для этого?
6 ответов
Программное обеспечение, которое вы ищете, может иметь много названий, таких как "Анализ содержимого", "Облако тегов" или "Мета-теги" и многие другие, такие как "Анализ текста" и "Анализ текста".
Для этих целей существует очень много программных инструментов, как бесплатных, так и коммерческих.
У меня нет личного опыта работы с такими инструментами, но хорошее место для начала - инструменты анализа текста, в которых перечислены десятки таких инструментов, как бесплатных, так и коммерческих.
Другим таким списком является программное обеспечение для анализа текста, интеллектуального анализа текста и поиска информации.
Взгляните на Rapidminer или Weka
Видя, что это блог клиента, у вас, вероятно, есть доступ к базе данных. Загрузите все статьи в виде открытого текста и используйте одну из вышеперечисленных программ для решения вопросов обработки естественного языка (1,2,3 и 5).
Количество применений трудно по-настоящему автоматизировать, поскольку оно связано с автоматическим определением значения слов с использованием контекста.
one of the most content analysis software is WordStat designed by Provalis Research
WordStat is a text analysis module for QDA Miner or SimStat. WordStat combines content analysis method by using dictionary approach and many algorithms exploration or various text mining methods. WordStat can apply existing categorization dictionaries to a new text corpus. It also may be used in the development and validation of new categorization dictionaries. When used in conjunction with manual coding, this module can provide assistance for a more systematic application of coding rules, help uncover differences in word usage between subgroups of individuals and assist in the revision of existing coding using KWIC (Keyword In Context) tables. WordStat is specifically designed to study textual information such as responses to open-ended questions, interviews, titles, journal articles, public speeches, electronic communications, etc.
http://provalisresearch.com/products/content-analysis-software/
Вы можете попробовать Mathematica Вольфрама попробовать. Вам придется немного программировать, но все необходимые инструменты есть:
- Подключение к базе данных, так что вы можете получить сообщения в блоге
- Функции манипулирования данными, такие как: Tally, GatherBy
- Лингвистический анализ (только на английском языке): WordData
Земанта проводит анализ и может предложить теги и ссылки. Это плагин WordPress тоже.
Единственная проблема: в настоящее время она требует ручного открытия, выбора и сохранения каждого сообщения.
Однако для WordPress существует огромное количество плагинов для автоматической пометки. Вы должны искать плагин поиска и дать несколько попыток.
На некоторые из этих вопросов можно быстро и грязно ответить, воспользовавшись поиском Google в своем блоге (проще всего, если у него есть собственный домен).