Смысл гонятся за меньшим размером? У вас диски по 100 мб, скорость интернета 32 кб в секунду? С использованием UTF-8 не будет проблем с MySQL, http-запросами... -=lebed=-, читай статью внимательнее:
В UTF-8 один знак занимает от одного до четырёх байт, в зависимости от языка. для русского - два, для латиницы - 1, а во всех остальных CP-1251, KOI-8r, Cyrillic Mac, DOS всего один и соответственно размер файла меньше)) я за CP-1251, да и в привычку уже вошло))
По мне: меньше код-удобней кодировка. С html - согласен - пример не очень удачный, вот работа с удалённой базой в UTF-8, где данные в кирилице будет ощутима разница в объёме по сравнению с латиницей.
Даже стандартный блокнот работает с утф8. Никаких. На некоторых текстах занимет больше места. Но может и меньше занимать за счет отсутствия &xxxx; в HTML. Интересно посмотреть, как китайцы и т.д. пишут в cp1251. Расскажешь? ) Да и UTF16 там какой-то. UTF8 не 2хбайтовый. Ты тоже матчасть учи. UTF8 не 2хбайтовый.
Вот маленький пример - Сейчас идут споры, чтобы в России заменить "и" на "i", подсчитали примерно сколько бы было денег сэкономлено (печать и т.д.), так вот, вышли миллионы $... Вот и смотрим разницу между cp1251 и utf-8. И не говорите, что вес не имеет значения.
2nerezus ты китаец? 1251 - национальная кодировка для России, речь шла про неё. Кто говорил что UTF8 двухбайтовый? от 1 до 4 байт! на кирилический символ уходит 2 байта и это верно! Вот тебе два сообщения: Code: Пример текста Code: Пример текста имхо тут сразу всё видно... P.S. "Про какой-то UTF16" можно тут почитать: http://ru.wikipedia.org/wiki/UTF-16
СМС есть не только в России. В какой кодировке должна отправляться СМС из Украины в Россию? Подумай над этим вопросом. Поймешь. Естественно. Аналогично можно привести примеры, где в cp1251 текст занимает больше. Но смысл? Общий обънм же (для веба) будет отличаться незначительно.
Дело не только в Вебе, пример с буквой i тоже наглядный, по сравнению с И в масштабе страны будет неплохая экономия на тонере, электроэнергии, краске... вот о чём идёт речь, так же и кодировкой... там экономия будет ещё больше... По поводу кодировки SMS: Максимальный размер сообщения в стандарте GSM — 140 байт и всё, как хочешь так и кодируй, хоть в BinHEX! Даже они экономят! Чё же говорить про нас?
На чем экономия? Допустим, внутри страны была бы cp1251. Ну тогда просто операторы подняли бы цены на смс. И все стало бы на свои места. Тебе не кажется, что цены за смс-трафик(в прямом смысле слова трафик, т.е. за мегабайт, к примеру) немного неадекватны? ))
Ну подняли или нет, это не нам судить, цены идут не за трафик в байтах а за 1 смс размером в 140 байт! Пользуясь латиницей я могу передать больше информации за те же деньги, чем используя кирилицу, и я знаю почему это так, и поэтому я этим пользуюсь (как и многие другие). Кстати 1251 содержит и многие украинские символы, так что можно было бы передавать и в 1251. Просто те, кто херачат СМС в национальных кодировках более чем 70 символов, попросту теряют бабло на этом и это факт неоспоримый, почему? Из-за кодировки, потому как 71 символ - это уже ДВА СМС, т.е. двойной тариф!
совмещаю обе. вот послушал вас и теперь загрузился на тему. наверное я совсем не рационально их юзал =(
Есть, я юзаю и на своём сайте и в базах и сейчас получая странички Античата в кодировке 1251 и в СМС, используя коды символов до 128 (всё равно ведь коды для латиницы для основных кодировок ASCII, CP1251, UTF8 совпадают Так что выбор есть! Надо просто пользоваться, а не тупо идти на поводу тех, кто зарабатывает бабло на этом, ну скажите нахрена мне редко-используемые символы кириллицы? Посмотрите сколько там символов http://ru.wikipedia.org/wiki/Кириллица_в_Юникоде и как они выглядят! По мне хватит и 33 (а лучше 32 - так в полубайт укладываемся) Азбука морзе - тоже весчь не плохая, можно было и ей кодировать точка - 0, тире - 1 красота! (http://ru.wikipedia.org/wiki/Азбука_Морзе) UTF-8 избыточнена для одного национального алфавита, это видно невооружённым глазом, неспорю, что удобна в мировом масштабе для разных алфавитов, различных наций... P.S. Ну с SMS всех обламали - это же очевидно, заложив многонациональную кодировку (в конкретном случае UTF16) а использующие латиницу нации остались в плюсе...ну и я юзаю, потому как 70 символов мне часто мало, а два СМС - жирно...
Это лишь наглядный пример, доказываю что выбор есть... а чем хороши UTF я тут не увидел аргументов, кроме как то, что туда можно впихнуть всё нужное и не нужное... P.S. И вообще сравнение если честно некорректное, если уж сравнивать то KOI-8R и 1251 или UTF8 и UTF16, потому как это всё равно что говорить что лучше 8 битный проц или 16-ти битный, что лучше 32 битная винда или 64 битная, что лучше 128 битный хэш или 256 битный (он не чем не лучше просто более стойкий к коллизиям, но опять же минус - больше места занимает) для каждых задач нужен свой размер, сейчас например хэш от 100 бит считается стойким, завтра от 128, после завтра от 160 и т.д. скорости, мощности растут Для кодирования кириллицы 1251 хватает "за глаза" (есть конечно проблемы, не спорю, но выгод сейчас пока больше). Юникод победит, но и другие нац. кодировки ещё жить долго будут... есть кстати ещё минусы UTF, в частности при передаче данных с потерями и восстановлении данных с помощью контрольных сумм, но не буду в это углублятся, подумайте сами... P.S. Приведёт ли кто-нибудь плюсы UTF?