Анализ ключевых слов в Microsoft Office

Существует ли какое-либо программное обеспечение, которое будет выполнять анализ ключевых слов для пакета файлов Microsoft Word? Другими словами, я просто хотел бы, чтобы слова учитывались во всех используемых словах. Цель состоит в том, чтобы определить ключевые слова в качестве основы для создания таксономии.

2 ответа

Я использую скрипт Python, который использует docx.py модуль (см. здесь) для чтения файлов Word и обработки отдельных слов для связанной задачи. Ключевые биты находятся в следующем коде (который читает только один файл.docx, заданный в качестве первого аргумента командной строки, но может быть легко расширен для подсчета слов во многих файлах:

from docx import *
import sys

try:
    document = opendocx(sys.argv[1])
except:
    print('Could not open '+sys.argv[1])
    exit()

## Fetch all the text out of the document       
paratextlist = getdocumenttext(document)    

count = {}
for line in paratextlist:
    for word in line.rstrip().split():
        count{word} = count.get(word,0) + 1

Как насчет WordStat?

Другие вопросы по тегам