Как я могу найти не-ASCII символы в текстовых файлах?
Существует ли инструмент, который может сканировать небольшой текстовый файл и искать любой символ, не входящий в простой набор символов ASCII?
Простой Java или Groovy-скрипт также подойдет.
5 ответов
Ну, это все еще здесь через час, так что я могу ответить на него. Вот простой фильтр, который печатает только входные символы, не входящие в ASCII, и дает код выхода 0, если их не было, и 1, если они были. Читает только со стандартного ввода.
#include <stdio.h>
#include <ctype.h>
int main(void)
{
int c, flag = 0;
while ((c = getchar()) != EOF)
if (!isascii(c)) {
putchar(c);
flag = 1;
}
return flag;
}
Просто запустите $JDK_HOME/bin/native2ascii в текстовом файле и найдите "\u" в выходном файле. Я предполагаю, что вы хотите найти это, чтобы вы могли избежать этого в любом случае, и это спасет вас на шаг.;)
В Java (при условии, что строка указана в качестве первого аргумента командной строки:
public class Main
{
public static void main(String[] args)
{
String stringToSearch = args[0];
int len = stringToSearch.length();
for (int i = 0; i < len; i++)
{
char ch = stringToSearch.charAt(i);
if (ch >= 128) // non-ascii
{
System.out.print(ch + " ");
}
}
System.out.println();
}
}
Чтобы сделать это самостоятельно, замените stringToSearch
с тем, что вам нужно.
Я понятия не имею, допустимо ли это, приводя каждый символ к типу int и используя улов для определения неудачных вещей. Мне тоже лень писать это в Java, так что есть немного Groovy
def chars = ['Ã', 'a', 'Â', 'ç', 'x', 'o', 'Ð'];
chars.each{
try{ def asciiInt = (int) it }
catch(Exception e){ print it + " "}
}
==> Ã Â ç Ð
Простой отличный пример:
def str = [ "this doesn't have any unicode", "this one does ±ÁΘ·€ÔÅ" ]
str.each {
if( it ==~ /[\x00-\x7F]*/ ) {
println "all ascii: $it"
} else {
println "NOT ASCII: $it"
}
}
Это так просто, как этот бит здесь: it ==~ /[\x00-\x7F]*/
Изменить: я забыл включить версию для файлов. К сожалению:
def text = new File(args[0]).text
if( text ==~ /[\x00-\x7F]*/ ) {
println "${args[0]} is only ASCII"
System.exit(0)
} else {
println "${args[0]} contains non-ASCII characters"
System.exit(-1)
}
Эта версия может использоваться в качестве сценария командной строки и включает состояние выхода, поэтому она может быть объединена в цепочку.