Как проверить строку?

Сионист · 13 дек 2015, 13:35

Есть строка std::u32string. Требуется проверить на одновременную истинность следующие утверждения:
1. Строка начинается и заканчивается символами, содержащими и фон, и хоть что то ещё, кроме фона.
2. Из остальных символов строка содержит только пробелы (те, что на клавише "пробел").
3. Ни какие два пробела не следуют подряд.
Если хотябы одно из трёх ложно, то надо получить false, иначе true.

Romeo · 14 дек 2015, 09:43

А зачем столько тем плодить? Я удалил тему про символ, так как вопрос о символе включён сюда.

Насколько я понимаю, символ на отображаемость проверить нельзя никак, иначе, чем перечислив все коды неотображаемых символов. При этом, нет никакой гарантии, что когда-нибудь в будущем, в зарезервированной части уникод таблицы не появится какой-нибудь хитрый пробел или символ сдвига для какого-нибудь нового хитрого алфавита.

Предлагаю написать простейшую лобовую проверку и чекать только символы '\n', '\r', '\t', ' '. И в будущем, если понадобиться, расширить этот список.

Ещё раз подчёркиваю, что официального честного и максимального правильного решения (например специальной WIN API функции или чего-то подобного) не существует.

Сионист · 14 дек 2015, 12:48

Romeo писал(а):Предлагаю написать простейшую лобовую проверку и чекать только символы '\n', '\r', '\t'. И в будущем, если понадобиться, расширить этот список.

Эйси. Это полный текущий список? Какого нибудь длинного, или неразрывного пробела в UTF32 нет?

Romeo · 14 дек 2015, 13:43

Вроде не существует. Но я не уверен. Нужно гуглить.

Сионист · 14 дек 2015, 13:47

Сразу нашёл вот это:

Друзья, ладно еще то, что пробел в UTF-8 это chr(194).chr(160) а не chr(32), но почему не работает вот это?

. Не поможете разобраться?

В викепедии перечислены 16 разных пробелов. Не знаете, что там за коды приведены? UTF16? Или ещё какие?

WinMain · 14 дек 2015, 15:39

Проверять посимвольно строку UTF-8 вообще не имеет смысла. Сначала её нужно сконвертировать в UTF-16 и потом уже сканировать.

Romeo · 14 дек 2015, 15:45

Да, WinMain прав - нужно перекодировать в UTF16.

И, судя по вики, пробельных символов действительно может быть много, так что придётся проверять с десяток значений. Хотя, если честно, я очень сомневаюсь, что твоя программа будет работать с такими экзотическими алфавитами.

Absurd · 14 дек 2015, 15:51

Сначала её нужно сконвертировать в UTF-16 и потом уже сканировать.

UTF-16 тоже имеет чары переменной длины к сожалению. Лучше не заниматься велосипедостроением, а пользоваться библиотекой ICU от людей которые занимаются стандартизацией уникода. Там есть функция u_isspace.

Сионист · 14 дек 2015, 17:16

WinMain писал(а):Проверять посимвольно строку UTF-8 вообще не имеет смысла. Сначала её нужно сконвертировать в UTF-16 и потом уже сканировать.

Вообще то она у меня в UTF32, этот код гарантированно равномерный. В отличие от. Зато и выбран.

Там есть функция u_isspace.

Что это за функция? И где про неё можно прочитать?

Romeo · 14 дек 2015, 17:58

Библиотека есть такая ICU.