Странная проблема с ивритскими гласными в Microsoft Word

У меня есть документ Microsoft Word с ивритом, и некоторые из гласных знаков, кажется, отделены от букв, под которыми они должны быть.

Пример:

введите описание здесь

Используя анализатор строк, я определил, что буквы, с которыми это происходило, интерпретировались как "алфавитные формы представления", а не как обычные буквы на иврите. (В приведенном выше примере пунктирная диммель имела значение Unicode U+FB32, а не U+05D2 с U+05BC.)

Есть ли способ конвертировать все в стандартные ивритские символы Юникода, чтобы гласные отображались правильно?

Спасибо!

3 ответа

Попробуйте это дополнение к niqqud, возможно, что-то не так с тем, как вы добавили niqqud.

Я не мог добавить это в качестве комментария, поэтому я отправлю это как ответ. Основываясь на предложении @Jukka K. Korpela, я составил макрос Word, который преобразует предварительно составленные символы в "нормальные". Его можно скачать здесь.

Ваш тестовый документ выглядит нормально в Word 2007, но когда я копирую и вставляю текст из него в редактор BabelPad, он отображается неправильно так же, как на вашей картинке. Когда я использую команду BabelPad Преобразовать → Форма нормализации → В NFC, отображение становится фиксированным.

Кажется, что проблема не в заранее составленных символах, таких как U+FB32, еврейском письме GIMEL с DAGESH как таковом, а в сочетании с дополнительным знаком объединения, таким как U+05B7 HEATREW POINT PATAH после него. Некоторые программы не могут иметь дело с такими комбинациями, даже если они могут обрабатывать полностью разложенную форму (базовая буква, за которой следуют две комбинирующие метки).

Невозможно (и, вероятно, не имеет значения) узнать, как комбинации символов попали в файл. Они являются действительными данными Unicode, но ненормализованы, и нормализация, вероятно, решит проблему. Кажется, что вы могли бы действительно использовать любую из форм нормализации Unicode здесь, но NFC часто предпочитают по общим причинам.

Насколько я знаю, в Word нет инструментов для нормализации, поэтому вам придется использовать для этого внешние инструменты. BabelPad подойдет для простого текста, но я не знаю, насколько хорошо он обрабатывает большие файлы, и у вас, вероятно, есть какое-то форматирование, которое вам нужно сохранить. Поэтому, возможно, вы можете сохранить файл в формате HTML, нормализовать данные в NFC в BabelPad, а затем открыть измененный файл HTML в Word. (Сначала я подумал об использовании RTF вместо HTML, но Word, кажется, генерирует RTF, который не содержит настоящие ивритские символы, но некоторые экранирующие нотации.)

Другие вопросы по тегам