Анализ ключевых слов в Microsoft Office
Существует ли какое-либо программное обеспечение, которое будет выполнять анализ ключевых слов для пакета файлов Microsoft Word? Другими словами, я просто хотел бы, чтобы слова учитывались во всех используемых словах. Цель состоит в том, чтобы определить ключевые слова в качестве основы для создания таксономии.
2 ответа
Я использую скрипт Python, который использует docx.py
модуль (см. здесь) для чтения файлов Word и обработки отдельных слов для связанной задачи. Ключевые биты находятся в следующем коде (который читает только один файл.docx, заданный в качестве первого аргумента командной строки, но может быть легко расширен для подсчета слов во многих файлах:
from docx import *
import sys
try:
document = opendocx(sys.argv[1])
except:
print('Could not open '+sys.argv[1])
exit()
## Fetch all the text out of the document
paratextlist = getdocumenttext(document)
count = {}
for line in paratextlist:
for word in line.rstrip().split():
count{word} = count.get(word,0) + 1