cp1251 VS utf-8

Discussion in 'PHP' started by .:EnoT:., 6 Nov 2008.

?
  1. cp1251

    17 vote(s)
    29.3%
  2. utf-8

    41 vote(s)
    70.7%
  1. Chaak

    Chaak Elder - Старейшина

    Joined:
    1 Jun 2008
    Messages:
    1,059
    Likes Received:
    1,067
    Reputations:
    80
    Смысл гонятся за меньшим размером? У вас диски по 100 мб, скорость интернета 32 кб в секунду? С использованием UTF-8 не будет проблем с MySQL, http-запросами...

    -=lebed=-, читай статью внимательнее:
     
    #21 Chaak, 6 Nov 2008
    Last edited: 6 Nov 2008
  2. Ru}{eeZ

    Ru}{eeZ Elder - Старейшина

    Joined:
    19 Feb 2008
    Messages:
    454
    Likes Received:
    73
    Reputations:
    -5
    Я за cp1251 т.к. привычнее, с utf-8 очень мало работал.
     
  3. heretic1990

    heretic1990 Elder - Старейшина

    Joined:
    2 Jul 2008
    Messages:
    487
    Likes Received:
    182
    Reputations:
    5
    В UTF-8 один знак занимает от одного до четырёх байт, в зависимости от языка. для русского - два, для латиницы - 1, а во всех остальных CP-1251, KOI-8r, Cyrillic Mac, DOS всего один и соответственно размер файла меньше)) я за CP-1251, да и в привычку уже вошло))
     
  4. GreenBear

    GreenBear наркоман с медалью

    Joined:
    7 May 2005
    Messages:
    2,548
    Likes Received:
    1,397
    Reputations:
    612
    привычка дело такое... тем более никаких сложностей перевести на утф8 нету.
     
  5. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,803
    Likes Received:
    1,957
    Reputations:
    594
    По мне: меньше код-удобней кодировка. С html - согласен - пример не очень удачный, вот работа с удалённой базой в UTF-8, где данные в кирилице будет ощутима разница в объёме по сравнению с латиницей.
     
  6. GreenBear

    GreenBear наркоман с медалью

    Joined:
    7 May 2005
    Messages:
    2,548
    Likes Received:
    1,397
    Reputations:
    612
    пиздец
     
  7. heretic1990

    heretic1990 Elder - Старейшина

    Joined:
    2 Jul 2008
    Messages:
    487
    Likes Received:
    182
    Reputations:
    5
    что правда - то правда!!!
     
  8. nerezus

    nerezus Banned

    Joined:
    12 Aug 2004
    Messages:
    3,191
    Likes Received:
    727
    Reputations:
    266
    Даже стандартный блокнот работает с утф8.

    Никаких.
    На некоторых текстах занимет больше места. Но может и меньше занимать за счет отсутствия &xxxx; в HTML.

    Интересно посмотреть, как китайцы и т.д. пишут в cp1251. Расскажешь? )
    Да и UTF16 там какой-то. UTF8 не 2хбайтовый.

    Ты тоже матчасть учи. UTF8 не 2хбайтовый.
     
    1 person likes this.
  9. Ru}{eeZ

    Ru}{eeZ Elder - Старейшина

    Joined:
    19 Feb 2008
    Messages:
    454
    Likes Received:
    73
    Reputations:
    -5
    Вот маленький пример -
    Сейчас идут споры, чтобы в России заменить "и" на "i", подсчитали примерно сколько бы было денег сэкономлено (печать и т.д.), так вот, вышли миллионы $... Вот и смотрим разницу между cp1251 и utf-8. И не говорите, что вес не имеет значения.
     
  10. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,803
    Likes Received:
    1,957
    Reputations:
    594
    2nerezus ты китаец? 1251 - национальная кодировка для России, речь шла про неё.

    Кто говорил что UTF8 двухбайтовый? от 1 до 4 байт!
    на кирилический символ уходит 2 байта и это верно!

    Вот тебе два сообщения:
    Code:
    Пример текста
    
    Code:
    Пример текста
    
    имхо тут сразу всё видно...
    P.S. "Про какой-то UTF16" можно тут почитать: http://ru.wikipedia.org/wiki/UTF-16
     
    #30 -=lebed=-, 6 Nov 2008
    Last edited: 6 Nov 2008
  11. nerezus

    nerezus Banned

    Joined:
    12 Aug 2004
    Messages:
    3,191
    Likes Received:
    727
    Reputations:
    266
    СМС есть не только в России.
    В какой кодировке должна отправляться СМС из Украины в Россию?
    Подумай над этим вопросом.
    Поймешь.


    Естественно. Аналогично можно привести примеры, где в cp1251 текст занимает больше. Но смысл? Общий обънм же (для веба) будет отличаться незначительно.
     
  12. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,803
    Likes Received:
    1,957
    Reputations:
    594
    Дело не только в Вебе, пример с буквой i тоже наглядный, по сравнению с И в масштабе страны будет неплохая экономия на тонере, электроэнергии, краске... вот о чём идёт речь, так же и кодировкой... там экономия будет ещё больше...

    По поводу кодировки SMS: Максимальный размер сообщения в стандарте GSM — 140 байт и всё, как хочешь так и кодируй, хоть в BinHEX!

    Даже они экономят! Чё же говорить про нас?
     
  13. nerezus

    nerezus Banned

    Joined:
    12 Aug 2004
    Messages:
    3,191
    Likes Received:
    727
    Reputations:
    266
    На чем экономия?
    Допустим, внутри страны была бы cp1251. Ну тогда просто операторы подняли бы цены на смс.
    И все стало бы на свои места.

    Тебе не кажется, что цены за смс-трафик(в прямом смысле слова трафик, т.е. за мегабайт, к примеру) немного неадекватны? ))
     
  14. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,803
    Likes Received:
    1,957
    Reputations:
    594
    Ну подняли или нет, это не нам судить, цены идут не за трафик в байтах а за 1 смс размером в 140 байт!

    Пользуясь латиницей я могу передать больше информации за те же деньги, чем используя кирилицу, и я знаю почему это так, и поэтому я этим пользуюсь (как и многие другие). Кстати 1251 содержит и многие украинские символы, так что можно было бы передавать и в 1251.
    Просто те, кто херачат СМС в национальных кодировках более чем 70 символов, попросту теряют бабло на этом и это факт неоспоримый, почему? Из-за кодировки, потому как 71 символ - это уже ДВА СМС, т.е. двойной тариф!
     
  15. P3L3NG

    P3L3NG Banned

    Joined:
    4 Jun 2008
    Messages:
    175
    Likes Received:
    204
    Reputations:
    11
    совмещаю обе.
    вот послушал вас и теперь загрузился на тему. наверное я совсем не рационально их юзал =(
     
  16. nerezus

    nerezus Banned

    Joined:
    12 Aug 2004
    Messages:
    3,191
    Likes Received:
    727
    Reputations:
    266
    -=lebed=-, сейчас у тебя нет выбора. cp1251 ты все равно не можешь юзать %)
     
  17. PandoraBox

    PandoraBox Elder - Старейшина

    Joined:
    6 May 2007
    Messages:
    262
    Likes Received:
    176
    Reputations:
    7
    проголосовал за Unicode UTF-8
     
  18. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,803
    Likes Received:
    1,957
    Reputations:
    594
    Есть, я юзаю и на своём сайте и в базах и сейчас получая странички Античата в кодировке 1251 и в СМС, используя коды символов до 128 ;) (всё равно ведь коды для латиницы для основных кодировок ASCII, CP1251, UTF8 совпадают ;)
    Так что выбор есть! Надо просто пользоваться, а не тупо идти на поводу тех, кто зарабатывает бабло на этом, ну скажите нахрена мне редко-используемые символы кириллицы? Посмотрите сколько там символов http://ru.wikipedia.org/wiki/Кириллица_в_Юникоде и как они выглядят!
    По мне хватит и 33 (а лучше 32 - так в полубайт укладываемся) Азбука морзе - тоже весчь не плохая, можно было и ей кодировать точка - 0, тире - 1 красота! (http://ru.wikipedia.org/wiki/Азбука_Морзе)
    UTF-8 избыточнена для одного национального алфавита, это видно невооружённым глазом, неспорю, что удобна в мировом масштабе для разных алфавитов, различных наций...
    P.S. Ну с SMS всех обламали - это же очевидно, заложив многонациональную кодировку (в конкретном случае UTF16) а использующие латиницу нации остались в плюсе...ну и я юзаю, потому как 70 символов мне часто мало, а два СМС - жирно... ;)
     
  19. GreenBear

    GreenBear наркоман с медалью

    Joined:
    7 May 2005
    Messages:
    2,548
    Likes Received:
    1,397
    Reputations:
    612
    чего ты приелся к этим смс?
     
  20. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,803
    Likes Received:
    1,957
    Reputations:
    594
    Это лишь наглядный пример, доказываю что выбор есть... а чем хороши UTF я тут не увидел аргументов, кроме как то, что туда можно впихнуть всё нужное и не нужное...
    P.S. И вообще сравнение если честно некорректное, если уж сравнивать то KOI-8R и 1251 или UTF8 и UTF16, потому как это всё равно что говорить что лучше 8 битный проц или 16-ти битный, что лучше 32 битная винда или 64 битная, что лучше 128 битный хэш или 256 битный (он не чем не лучше просто более стойкий к коллизиям, но опять же минус - больше места занимает) для каждых задач нужен свой размер, сейчас например хэш от 100 бит считается стойким, завтра от 128, после завтра от 160 и т.д. скорости, мощности растут ;)
    Для кодирования кириллицы 1251 хватает "за глаза" (есть конечно проблемы, не спорю, но выгод сейчас пока больше). Юникод победит, но и другие нац. кодировки ещё жить долго будут... есть кстати ещё минусы UTF, в частности при передаче данных с потерями и восстановлении данных с помощью контрольных сумм, но не буду в это углублятся, подумайте сами...
    P.S. Приведёт ли кто-нибудь плюсы UTF?