cp1251 VS utf-8

Chaak · 6 Nov 2008

Смысл гонятся за меньшим размером? У вас диски по 100 мб, скорость интернета 32 кб в секунду? С использованием UTF-8 не будет проблем с MySQL, http-запросами...

-=lebed=-, читай статью внимательнее:

Во-вторых, хочется оспорить то, что страницы на utf8 имеют гораздо больший размер, чем на cp1251. Символы ASCII(латиница, арабские цифры, знаки препинания и т.д.) занимают в utf8 всего один байт, так же как и в cp1251. Таким образом при создании страниц на латинице никаких увеличений в размере страниц не наблюдается. С кириллицей — согласен. Если документ содержит только буквы русского алфавита и никаких других символов (что, согласитесь, бывает достаточно редко, ибо без html-тегов не сильно обойдешься ) — то в UTF‑8 он действительно станет в два раза больше. А если в нём, например, поровну русских и арабских букв — в UTF‑8 он будет в два раза меньше, чем, например, в cp1251. Чаще всего — основной вес страницы составляет не html-код, а всякого рода javascript, flash, картинки, css и т.д. Тем, кто заботится о «весе», следовало бы в первую очередь выкинуть из кода подстановки для тех символов, которым они не нужны, например, — для длинного тире или для неразрывного пробела (ой, как часто я вижу это в страницах новичков). Видим, что вместо 1 знака длинного тире мы пишем 6, вместо 1 знака неразрывного пробела мы пишем 5 знаков. И где же экономия? Действительно, иногда доходит до маразма — некто упирается: «Не буду делать страницы в UTF‑8, потому что они от этого увеличиваются» — а сам при этом ваяет код с жуткими атрибутами и подстановками, который без них мог бы быть в пять раз короче.
Click to expand...

Ru}{eeZ · 6 Nov 2008

Я за cp1251 т.к. привычнее, с utf-8 очень мало работал.

heretic1990 · 6 Nov 2008

В UTF-8 один знак занимает от одного до четырёх байт, в зависимости от языка. для русского - два, для латиницы - 1, а во всех остальных CP-1251, KOI-8r, Cyrillic Mac, DOS всего один и соответственно размер файла меньше)) я за CP-1251, да и в привычку уже вошло))

GreenBear · 6 Nov 2008

привычка дело такое... тем более никаких сложностей перевести на утф8 нету.

-=lebed=- · 6 Nov 2008

По мне: меньше код-удобней кодировка. С html - согласен - пример не очень удачный, вот работа с удалённой базой в UTF-8, где данные в кирилице будет ощутима разница в объёме по сравнению с латиницей.

GreenBear · 6 Nov 2008

пиздец

heretic1990 · 6 Nov 2008

Смысл гонятся за меньшим размером? У вас диски по 100 мб, скорость интернета 32 кб в секунду? С использованием UTF-8 не будет проблем с MySQL, http-запросами...
Click to expand...

что правда - то правда!!!

nerezus · 6 Nov 2008

Хотя у себя на компе предпочитаю cp1251 т.к. из под винды.
Click to expand...

Даже стандартный блокнот работает с утф8.

а какие минусы у утф8, кроме ее плюсов?
Click to expand...

Никаких.
На некоторых текстах занимет больше места. Но может и меньше занимать за счет отсутствия &xxxx; в HTML.

см. пост выше, отредактил, как это выливается в "реальные" деньги...
Click to expand...

Интересно посмотреть, как китайцы и т.д. пишут в cp1251. Расскажешь? )
Да и UTF16 там какой-то. UTF8 не 2хбайтовый.

причем в 2 раза
Click to expand...

Ты тоже матчасть учи. UTF8 не 2хбайтовый.

Ru}{eeZ · 6 Nov 2008

Вот маленький пример -
Сейчас идут споры, чтобы в России заменить "и" на "i", подсчитали примерно сколько бы было денег сэкономлено (печать и т.д.), так вот, вышли миллионы $... Вот и смотрим разницу между cp1251 и utf-8. И не говорите, что вес не имеет значения.

-=lebed=- · 6 Nov 2008

nerezus said:

Даже стандартный блокнот работает с утф8.

Никаких.
На некоторых текстах занимет больше места. Но может и меньше занимать за счет отсутствия &xxxx; в HTML.

Интересно посмотреть, как китайцы и т.д. пишут в cp1251. Расскажешь? )
Да и UTF16 там какой-то. UTF8 не 2хбайтовый.

Ты тоже матчасть учи. UTF8 не 2хбайтовый.
Click to expand...

2nerezus ты китаец? 1251 - национальная кодировка для России, речь шла про неё.

Кто говорил что UTF8 двухбайтовый? от 1 до 4 байт!
на кирилический символ уходит 2 байта и это верно!

Вот тебе два сообщения:
Code:
Пример текста
Code:
РџСЂРёРјРµСЂ С‚РµРєСЃС‚Р°
имхо тут сразу всё видно...
P.S. "Про какой-то UTF16" можно тут почитать: http://ru.wikipedia.org/wiki/UTF-16

nerezus · 6 Nov 2008

1251 - национальная кодировка для России, речь шла про неё.
Click to expand...

СМС есть не только в России.
В какой кодировке должна отправляться СМС из Украины в Россию?
Подумай над этим вопросом.
Поймешь.

имхо тут сразу всё видно...
Click to expand...

Естественно. Аналогично можно привести примеры, где в cp1251 текст занимает больше. Но смысл? Общий обънм же (для веба) будет отличаться незначительно.

-=lebed=- · 6 Nov 2008

nerezus said:

СМС есть не только в России.
В какой кодировке должна отправляться СМС из Украины в Россию?
Подумай над этим вопросом.
Поймешь.

Естественно. Аналогично можно привести примеры, где в cp1251 текст занимает больше. Но смысл? Общий обънм же (для веба) будет отличаться незначительно.
Click to expand...

Дело не только в Вебе, пример с буквой i тоже наглядный, по сравнению с И в масштабе страны будет неплохая экономия на тонере, электроэнергии, краске... вот о чём идёт речь, так же и кодировкой... там экономия будет ещё больше...

По поводу кодировки SMS: Максимальный размер сообщения в стандарте GSM — 140 байт и всё, как хочешь так и кодируй, хоть в BinHEX!

В России некоторые абоненты сотовых сетей предпочитают писать SMS на родном языке, используя латинские буквы (см. транслит), что первоначально было обусловлено отсутствием поддержки кириллицы телефонными аппаратами. А с широким распространением русифицированных телефонов — привычкой, а также тем, что на латинице можно писать более длинные SMS (160 вместо 70 символов на кириллице). Например: Ura! Ya napisal pro SMS v wikipediu.

В англоязычных странах для экономии символов в SMS часто используют аббревиатуры, пропуски гласных, а также обозначают слова и слоги схожими по звучанию цифрами и буквами. Например, «C u l8r» с успехом заменяет «See you later». По данным Ассоциации GSM, первое сообщение SMS было отправлено с персонального компьютера на телефон Vodafone в Великобритании в декабре 1992 года.
Click to expand...

Даже они экономят! Чё же говорить про нас?

nerezus · 6 Nov 2008

И в масштабе страны будет неплохая экономия на тонере, электроэнергии, краске... вот о чём идёт речь, так же и кодировкой... там экономия будет ещё больше...
Click to expand...

На чем экономия?
Допустим, внутри страны была бы cp1251. Ну тогда просто операторы подняли бы цены на смс.
И все стало бы на свои места.

Тебе не кажется, что цены за смс-трафик(в прямом смысле слова трафик, т.е. за мегабайт, к примеру) немного неадекватны? ))

-=lebed=- · 6 Nov 2008

nerezus said:

На чем экономия?
Допустим, внутри страны была бы cp1251. Ну тогда просто операторы подняли бы цены на смс.
И все стало бы на свои места.

Тебе не кажется, что цены за смс-трафик(в прямом смысле слова трафик, т.е. за мегабайт, к примеру) немного неадекватны? ))
Click to expand...

Ну подняли или нет, это не нам судить, цены идут не за трафик в байтах а за 1 смс размером в 140 байт!

Пользуясь латиницей я могу передать больше информации за те же деньги, чем используя кирилицу, и я знаю почему это так, и поэтому я этим пользуюсь (как и многие другие). Кстати 1251 содержит и многие украинские символы, так что можно было бы передавать и в 1251.
Просто те, кто херачат СМС в национальных кодировках более чем 70 символов, попросту теряют бабло на этом и это факт неоспоримый, почему? Из-за кодировки, потому как 71 символ - это уже ДВА СМС, т.е. двойной тариф!

P3L3NG · 6 Nov 2008

совмещаю обе.
вот послушал вас и теперь загрузился на тему. наверное я совсем не рационально их юзал =(

nerezus · 6 Nov 2008

-=lebed=-, сейчас у тебя нет выбора. cp1251 ты все равно не можешь юзать %)

PandoraBox · 6 Nov 2008

проголосовал за Unicode UTF-8

-=lebed=- · 6 Nov 2008

nerezus said:

-=lebed=-, сейчас у тебя нет выбора. cp1251 ты все равно не можешь юзать %)
Click to expand...

Есть, я юзаю и на своём сайте и в базах и сейчас получая странички Античата в кодировке 1251 и в СМС, используя коды символов до 128 (всё равно ведь коды для латиницы для основных кодировок ASCII, CP1251, UTF8 совпадают
Так что выбор есть! Надо просто пользоваться, а не тупо идти на поводу тех, кто зарабатывает бабло на этом, ну скажите нахрена мне редко-используемые символы кириллицы? Посмотрите сколько там символов http://ru.wikipedia.org/wiki/Кириллица_в_Юникоде и как они выглядят!
По мне хватит и 33 (а лучше 32 - так в полубайт укладываемся) Азбука морзе - тоже весчь не плохая, можно было и ей кодировать точка - 0, тире - 1 красота! (http://ru.wikipedia.org/wiki/Азбука_Морзе)
UTF-8 избыточнена для одного национального алфавита, это видно невооружённым глазом, неспорю, что удобна в мировом масштабе для разных алфавитов, различных наций...
P.S. Ну с SMS всех обламали - это же очевидно, заложив многонациональную кодировку (в конкретном случае UTF16) а использующие латиницу нации остались в плюсе...ну и я юзаю, потому как 70 символов мне часто мало, а два СМС - жирно...

GreenBear · 6 Nov 2008

чего ты приелся к этим смс?

-=lebed=- · 6 Nov 2008

GreenBear said:

чего ты приелся к этим смс?
Click to expand...

Это лишь наглядный пример, доказываю что выбор есть... а чем хороши UTF я тут не увидел аргументов, кроме как то, что туда можно впихнуть всё нужное и не нужное...
P.S. И вообще сравнение если честно некорректное, если уж сравнивать то KOI-8R и 1251 или UTF8 и UTF16, потому как это всё равно что говорить что лучше 8 битный проц или 16-ти битный, что лучше 32 битная винда или 64 битная, что лучше 128 битный хэш или 256 битный (он не чем не лучше просто более стойкий к коллизиям, но опять же минус - больше места занимает) для каждых задач нужен свой размер, сейчас например хэш от 100 бит считается стойким, завтра от 128, после завтра от 160 и т.д. скорости, мощности растут
Для кодирования кириллицы 1251 хватает "за глаза" (есть конечно проблемы, не спорю, но выгод сейчас пока больше). Юникод победит, но и другие нац. кодировки ещё жить долго будут... есть кстати ещё минусы UTF, в частности при передаче данных с потерями и восстановлении данных с помощью контрольных сумм, но не буду в это углублятся, подумайте сами...
P.S. Приведёт ли кто-нибудь плюсы UTF?

cp1251 VS utf-8

Какую кодировку предпочитаешь ты?

cp1251

utf-8

Chaak Elder - Старейшина

Ru}{eeZ Elder - Старейшина

heretic1990 Elder - Старейшина

GreenBear наркоман с медалью

-=lebed=- хэшкрякер

GreenBear наркоман с медалью

heretic1990 Elder - Старейшина

nerezus Banned

Ru}{eeZ Elder - Старейшина

-=lebed=- хэшкрякер

nerezus Banned

-=lebed=- хэшкрякер

nerezus Banned

-=lebed=- хэшкрякер

P3L3NG Banned

nerezus Banned

PandoraBox Elder - Старейшина

-=lebed=- хэшкрякер

GreenBear наркоман с медалью

-=lebed=- хэшкрякер

Useful Searches

cp1251 VS utf-8

Какую кодировку предпочитаешь ты?

cp1251

utf-8

Chaak Elder - Старейшина

Ru}{eeZ Elder - Старейшина

heretic1990 Elder - Старейшина

GreenBear наркоман с медалью

-=lebed=- хэшкрякер

GreenBear наркоман с медалью

heretic1990 Elder - Старейшина

nerezus Banned

Ru}{eeZ Elder - Старейшина

-=lebed=- хэшкрякер

nerezus Banned

-=lebed=- хэшкрякер

nerezus Banned

-=lebed=- хэшкрякер

P3L3NG Banned

nerezus Banned

PandoraBox Elder - Старейшина

-=lebed=- хэшкрякер

GreenBear наркоман с медалью

-=lebed=- хэшкрякер