Конвертировать между UTF-8 и 1255 онлайн и локально?

У меня есть этот HTML-файл

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML DIR="RTL" LANG="HE">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Windows-1255">
</HEAD>
<BODY>
  <H1>úåøä</H1>
<H1>úåøä ðáéàéí åëúåáéí</H1>
</BODY>
</HTML>

Это сохранено как ANSI в блокноте. И когда он открывается в браузере, он отлично отображает некоторые еврейские символы.

Обратите внимание, что Chrome также может работать с UTF-8 и может быть скопирован в Ms Word 2010.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML DIR="RTL" LANG="HE">
<HEAD>
<meta http-equiv="content-type" content="text/html;charset=UTF-8">
</HEAD>
<BODY>
<H1>תורה נביאים וכתובים</H1>
</BODY>
</HTML>

Но последующее обсуждение включает копирование / вставку из Windows-1255.

Копировать в буфер обмена в Chrome
введите описание изображения здесь

Вставка в мс слово 2010
сохранить исходное форматирование рис

Я могу использовать свой веб-браузер, чтобы конвертировать эту Windows-1255 в Unicode(например, как UTF-8).

Например, с этим HTML. Хром преобразует

úåøä ---> תורה
úåøä ðáéàéí åëúåáéí -> תורה נביאים וכתובים

Но как я могу конвертировать в другую сторону?

Например, предположим, у меня есть файл, который я пишу в блокноте

Она имеет

תורה  
תורה נביאים וכתובים

Я мог бы сохранить его как UTF-8 или нет вообще. Я мог бы оставить это в файле без названия.

Как я могу преобразовать это в

úåøä   
úåøä ðáéàéí åëúåáéí  

Если я нахожу веб-страницу с надписью на иврите и вижу исходный текст в chrome, я вижу его на иврите и сохраняю его, и он появляется в Windows-1255. Как это происходит с http://www.mechon-mamre.org/i/t/t0.htm Это потому, что сам файл хранится в Windows-1255, и если его сохранить и открыть в блокноте, он увидит это.

Если бы я скопировал ивритские символы в файл и сохранил его как utf-8, он отобразился бы в Chrome, но я не вижу, как преобразовать его в windows-1255.

Я не вижу, как даже получить блокнот для сохранения еврейских символов в Windows-1255

2 ответа

Решение

Для онлайн я не знаю. Я знаю только латинский-> иврит, делая HTML-страницу!

Локально в хорошем текстовом редакторе можно легко пойти обоими путями.

Для локального дампа блокнот для этой задачи, поскольку он поддерживает UTF-8 и символы Юникода, включая ивритские, он не кодирует в Windows-1255(иврит), поэтому при попытке сохранить Юникод как "ascii" он не использует windows +1255 (Hebrew). просто 1252 или ISO 8859-1, и он не будет делать это должным образом, так как еврейские символы не существуют в 1252 году.

Забавные латинские иероглифы, как вы видите, это 1255 (иврит), неправильно прочитанный как 1252 - вы можете сделать это, но вы не можете сохранить иврит, так как 1252, потому что блокнот не знает или не рассчитывает, какие латинские символы использовать. Он просто говорит, что вы потеряете некоторые символы, и если вы попытаетесь сохранить их, это не произойдет, и когда вы прочитаете их после того, как не сохранили правильно, вы получите вопросительные знаки или квадраты. Поэтому забудьте блокнот для сохранения ивритских символов

Используйте текстовый редактор, который поддерживает Windows-1255(иврит ASCII). Это работает в редакторе Pro (не бесплатно). Но notepad++ или babelpad, вероятно, делают это так же легко (хотя на данный момент ни одна из этих программ не настолько хороша для вставки из них в ms word. Epp вы копируете на иврите, вставляет латинские символы, notepad++ и babelpad вы вставляете в word и не делаете не получить опцию "сохранить исходное форматирование"), но вы можете поместить иврит в html-страницу (как в вопросе utf-8), а затем скопировать его из chrome в ms word.

откройте editpad pro, нажмите конвертировать..текстовое кодирование.. windows 1255

скопируйте / вставьте ивритские символы из блокнота в editpad pro.

сохраните файл

И вы можете пойти в обе стороны.

úåøä ---- конвертировать в windows 1255(должен также открываться как 1255) получить иврит. И преобразовать обратно в 1252 (должен также открыться как 1252) (западноевропейский)

Вы можете использовать iconv:iconv -f utf8 -t windows-1255.

Другие вопросы по тегам