| Absolute File Name: | /home/qt/qt5_coco/qt5/qtbase/src/corelib/tools/qunicodetools.cpp |
| Source code | Switch to Preprocessed file |
| Line | Source | Count | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | /**************************************************************************** | - | ||||||||||||
| 2 | ** | - | ||||||||||||
| 3 | ** Copyright (C) 2016 The Qt Company Ltd. | - | ||||||||||||
| 4 | ** Contact: https://www.qt.io/licensing/ | - | ||||||||||||
| 5 | ** | - | ||||||||||||
| 6 | ** This file is part of the QtCore module of the Qt Toolkit. | - | ||||||||||||
| 7 | ** | - | ||||||||||||
| 8 | ** $QT_BEGIN_LICENSE:LGPL$ | - | ||||||||||||
| 9 | ** Commercial License Usage | - | ||||||||||||
| 10 | ** Licensees holding valid commercial Qt licenses may use this file in | - | ||||||||||||
| 11 | ** accordance with the commercial license agreement provided with the | - | ||||||||||||
| 12 | ** Software or, alternatively, in accordance with the terms contained in | - | ||||||||||||
| 13 | ** a written agreement between you and The Qt Company. For licensing terms | - | ||||||||||||
| 14 | ** and conditions see https://www.qt.io/terms-conditions. For further | - | ||||||||||||
| 15 | ** information use the contact form at https://www.qt.io/contact-us. | - | ||||||||||||
| 16 | ** | - | ||||||||||||
| 17 | ** GNU Lesser General Public License Usage | - | ||||||||||||
| 18 | ** Alternatively, this file may be used under the terms of the GNU Lesser | - | ||||||||||||
| 19 | ** General Public License version 3 as published by the Free Software | - | ||||||||||||
| 20 | ** Foundation and appearing in the file LICENSE.LGPL3 included in the | - | ||||||||||||
| 21 | ** packaging of this file. Please review the following information to | - | ||||||||||||
| 22 | ** ensure the GNU Lesser General Public License version 3 requirements | - | ||||||||||||
| 23 | ** will be met: https://www.gnu.org/licenses/lgpl-3.0.html. | - | ||||||||||||
| 24 | ** | - | ||||||||||||
| 25 | ** GNU General Public License Usage | - | ||||||||||||
| 26 | ** Alternatively, this file may be used under the terms of the GNU | - | ||||||||||||
| 27 | ** General Public License version 2.0 or (at your option) the GNU General | - | ||||||||||||
| 28 | ** Public license version 3 or any later version approved by the KDE Free | - | ||||||||||||
| 29 | ** Qt Foundation. The licenses are as published by the Free Software | - | ||||||||||||
| 30 | ** Foundation and appearing in the file LICENSE.GPL2 and LICENSE.GPL3 | - | ||||||||||||
| 31 | ** included in the packaging of this file. Please review the following | - | ||||||||||||
| 32 | ** information to ensure the GNU General Public License requirements will | - | ||||||||||||
| 33 | ** be met: https://www.gnu.org/licenses/gpl-2.0.html and | - | ||||||||||||
| 34 | ** https://www.gnu.org/licenses/gpl-3.0.html. | - | ||||||||||||
| 35 | ** | - | ||||||||||||
| 36 | ** $QT_END_LICENSE$ | - | ||||||||||||
| 37 | ** | - | ||||||||||||
| 38 | ****************************************************************************/ | - | ||||||||||||
| 39 | - | |||||||||||||
| 40 | #include "qunicodetools_p.h" | - | ||||||||||||
| 41 | - | |||||||||||||
| 42 | #include "qunicodetables_p.h" | - | ||||||||||||
| 43 | #include "qvarlengtharray.h" | - | ||||||||||||
| 44 | - | |||||||||||||
| 45 | #include "qharfbuzz_p.h" | - | ||||||||||||
| 46 | - | |||||||||||||
| 47 | #define FLAG(x) (1 << (x)) | - | ||||||||||||
| 48 | - | |||||||||||||
| 49 | QT_BEGIN_NAMESPACE | - | ||||||||||||
| 50 | - | |||||||||||||
| 51 | Q_AUTOTEST_EXPORT int qt_initcharattributes_default_algorithm_only = 0; | - | ||||||||||||
| 52 | - | |||||||||||||
| 53 | namespace QUnicodeTools { | - | ||||||||||||
| 54 | - | |||||||||||||
| 55 | // ----------------------------------------------------------------------------------------------------- | - | ||||||||||||
| 56 | // | - | ||||||||||||
| 57 | // The text boundaries determination algorithm. | - | ||||||||||||
| 58 | // See http://www.unicode.org/reports/tr29/tr29-27.html | - | ||||||||||||
| 59 | // | - | ||||||||||||
| 60 | // ----------------------------------------------------------------------------------------------------- | - | ||||||||||||
| 61 | - | |||||||||||||
| 62 | namespace GB { | - | ||||||||||||
| 63 | - | |||||||||||||
| 64 | static const uchar breakTable[QUnicodeTables::GraphemeBreak_LVT + 1][QUnicodeTables::GraphemeBreak_LVT + 1] = { | - | ||||||||||||
| 65 | // Other CR LF Control Extend RI Prepend S-Mark L V T LV LVT | - | ||||||||||||
| 66 | { true , true , true , true , false, true , true , false, true , true , true , true , true }, // Other | - | ||||||||||||
| 67 | { true , true , false, true , true , true , true , true , true , true , true , true , true }, // CR | - | ||||||||||||
| 68 | { true , true , true , true , true , true , true , true , true , true , true , true , true }, // LF | - | ||||||||||||
| 69 | { true , true , true , true , true , true , true , true , true , true , true , true , true }, // Control | - | ||||||||||||
| 70 | { true , true , true , true , false, true , true , false, true , true , true , true , true }, // Extend | - | ||||||||||||
| 71 | { true , true , true , true , false, false, true , false, true , true , true , true , true }, // RegionalIndicator | - | ||||||||||||
| 72 | { false, true , true , true , false, false, false, false, false, false, false, false, false }, // Prepend | - | ||||||||||||
| 73 | { true , true , true , true , false, true , true , false, true , true , true , true , true }, // SpacingMark | - | ||||||||||||
| 74 | { true , true , true , true , false, true , true , false, false, false, true , false, false }, // L | - | ||||||||||||
| 75 | { true , true , true , true , false, true , true , false, true , false, false, true , true }, // V | - | ||||||||||||
| 76 | { true , true , true , true , false, true , true , false, true , true , false, true , true }, // T | - | ||||||||||||
| 77 | { true , true , true , true , false, true , true , false, true , false, false, true , true }, // LV | - | ||||||||||||
| 78 | { true , true , true , true , false, true , true , false, true , true , false, true , true }, // LVT | - | ||||||||||||
| 79 | }; | - | ||||||||||||
| 80 | - | |||||||||||||
| 81 | } // namespace GB | - | ||||||||||||
| 82 | - | |||||||||||||
| 83 | static void getGraphemeBreaks(const ushort *string, quint32 len, QCharAttributes *attributes) | - | ||||||||||||
| 84 | { | - | ||||||||||||
| 85 | QUnicodeTables::GraphemeBreakClass lcls = QUnicodeTables::GraphemeBreak_LF; // to meet GB1 | - | ||||||||||||
| 86 | for (quint32 i = 0; i != len; ++i) { | - | ||||||||||||
| 87 | quint32 pos = i; | - | ||||||||||||
| 88 | uint ucs4 = string[i]; | - | ||||||||||||
| 89 | if (QChar::isHighSurrogate(ucs4) && i + 1 != len) { | - | ||||||||||||
| 90 | ushort low = string[i + 1]; | - | ||||||||||||
| 91 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 92 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 93 | ++i; | - | ||||||||||||
| 94 | } | - | ||||||||||||
| 95 | } | - | ||||||||||||
| 96 | - | |||||||||||||
| 97 | const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 98 | QUnicodeTables::GraphemeBreakClass cls = (QUnicodeTables::GraphemeBreakClass) prop->graphemeBreakClass; | - | ||||||||||||
| 99 | - | |||||||||||||
| 100 | if (Q_LIKELY(GB::breakTable[lcls][cls])) | - | ||||||||||||
| 101 | attributes[pos].graphemeBoundary = true; | - | ||||||||||||
| 102 | - | |||||||||||||
| 103 | lcls = cls; | - | ||||||||||||
| 104 | } | - | ||||||||||||
| 105 | - | |||||||||||||
| 106 | attributes[len].graphemeBoundary = true; // GB2 | - | ||||||||||||
| 107 | } | - | ||||||||||||
| 108 | - | |||||||||||||
| 109 | - | |||||||||||||
| 110 | namespace WB { | - | ||||||||||||
| 111 | - | |||||||||||||
| 112 | enum Action { | - | ||||||||||||
| 113 | NoBreak, | - | ||||||||||||
| 114 | Break, | - | ||||||||||||
| 115 | Lookup, | - | ||||||||||||
| 116 | LookupW | - | ||||||||||||
| 117 | }; | - | ||||||||||||
| 118 | - | |||||||||||||
| 119 | static const uchar breakTable[QUnicodeTables::WordBreak_ExtendNumLet + 1][QUnicodeTables::WordBreak_ExtendNumLet + 1] = { | - | ||||||||||||
| 120 | // Other CR LF Newline Extend RI Katakana HLetter ALetter SQuote DQuote MidNumLet MidLetter MidNum Numeric ExtendNumLet | - | ||||||||||||
| 121 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // Other | - | ||||||||||||
| 122 | { Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // CR | - | ||||||||||||
| 123 | { Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // LF | - | ||||||||||||
| 124 | { Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // Newline | - | ||||||||||||
| 125 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // Extend | - | ||||||||||||
| 126 | { Break , Break , Break , Break , NoBreak, NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // RegionalIndicator | - | ||||||||||||
| 127 | { Break , Break , Break , Break , NoBreak, Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , NoBreak }, // Katakana | - | ||||||||||||
| 128 | { Break , Break , Break , Break , NoBreak, Break , Break , NoBreak, NoBreak, LookupW, Lookup , LookupW, LookupW, Break , NoBreak, NoBreak }, // HebrewLetter | - | ||||||||||||
| 129 | { Break , Break , Break , Break , NoBreak, Break , Break , NoBreak, NoBreak, LookupW, Break , LookupW, LookupW, Break , NoBreak, NoBreak }, // ALetter | - | ||||||||||||
| 130 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // SingleQuote | - | ||||||||||||
| 131 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // DoubleQuote | - | ||||||||||||
| 132 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // MidNumLet | - | ||||||||||||
| 133 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // MidLetter | - | ||||||||||||
| 134 | { Break , Break , Break , Break , NoBreak, Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // MidNum | - | ||||||||||||
| 135 | { Break , Break , Break , Break , NoBreak, Break , Break , NoBreak, NoBreak, Lookup , Break , Lookup , Break , Lookup , NoBreak, NoBreak }, // Numeric | - | ||||||||||||
| 136 | { Break , Break , Break , Break , NoBreak, Break , NoBreak, NoBreak, NoBreak, Break , Break , Break , Break , Break , NoBreak, NoBreak }, // ExtendNumLet | - | ||||||||||||
| 137 | }; | - | ||||||||||||
| 138 | - | |||||||||||||
| 139 | } // namespace WB | - | ||||||||||||
| 140 | - | |||||||||||||
| 141 | static void getWordBreaks(const ushort *string, quint32 len, QCharAttributes *attributes) | - | ||||||||||||
| 142 | { | - | ||||||||||||
| 143 | enum WordType { | - | ||||||||||||
| 144 | WordTypeNone, WordTypeAlphaNumeric, WordTypeHiraganaKatakana | - | ||||||||||||
| 145 | } currentWordType = WordTypeNone; | - | ||||||||||||
| 146 | - | |||||||||||||
| 147 | QUnicodeTables::WordBreakClass cls = QUnicodeTables::WordBreak_LF; // to meet WB1 | - | ||||||||||||
| 148 | for (quint32 i = 0; i != len; ++i) { | - | ||||||||||||
| 149 | quint32 pos = i; | - | ||||||||||||
| 150 | uint ucs4 = string[i]; | - | ||||||||||||
| 151 | if (QChar::isHighSurrogate(ucs4) && i + 1 != len) { | - | ||||||||||||
| 152 | ushort low = string[i + 1]; | - | ||||||||||||
| 153 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 154 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 155 | ++i; | - | ||||||||||||
| 156 | } | - | ||||||||||||
| 157 | } | - | ||||||||||||
| 158 | - | |||||||||||||
| 159 | const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 160 | QUnicodeTables::WordBreakClass ncls = (QUnicodeTables::WordBreakClass) prop->wordBreakClass; | - | ||||||||||||
| 161 | #ifdef QT_BUILD_INTERNAL | - | ||||||||||||
| 162 | if (qt_initcharattributes_default_algorithm_only) { | - | ||||||||||||
| 163 | // as of Unicode 5.1, some punctuation marks were mapped to MidLetter and MidNumLet | - | ||||||||||||
| 164 | // which caused "hi.there" to be treated like if it were just a single word; | - | ||||||||||||
| 165 | // we keep the pre-5.1 behavior by remapping these characters in the Unicode tables generator | - | ||||||||||||
| 166 | // and this code is needed to pass the coverage tests; remove once the issue is fixed. | - | ||||||||||||
| 167 | if (ucs4 == 0x002E) // FULL STOP | - | ||||||||||||
| 168 | ncls = QUnicodeTables::WordBreak_MidNumLet; | - | ||||||||||||
| 169 | else if (ucs4 == 0x003A) // COLON | - | ||||||||||||
| 170 | ncls = QUnicodeTables::WordBreak_MidLetter; | - | ||||||||||||
| 171 | } | - | ||||||||||||
| 172 | #endif | - | ||||||||||||
| 173 | - | |||||||||||||
| 174 | uchar action = WB::breakTable[cls][ncls]; | - | ||||||||||||
| 175 | switch (action) { | - | ||||||||||||
| 176 | case WB::Break: | - | ||||||||||||
| 177 | break; | - | ||||||||||||
| 178 | case WB::NoBreak: | - | ||||||||||||
| 179 | if (Q_UNLIKELY(ncls == QUnicodeTables::WordBreak_Extend)) { | - | ||||||||||||
| 180 | // WB4: X(Extend|Format)* -> X | - | ||||||||||||
| 181 | continue; | - | ||||||||||||
| 182 | } | - | ||||||||||||
| 183 | break; | - | ||||||||||||
| 184 | case WB::Lookup: | - | ||||||||||||
| 185 | case WB::LookupW: | - | ||||||||||||
| 186 | for (quint32 lookahead = i + 1; lookahead < len; ++lookahead) { | - | ||||||||||||
| 187 | ucs4 = string[lookahead]; | - | ||||||||||||
| 188 | if (QChar::isHighSurrogate(ucs4) && lookahead + 1 != len) { | - | ||||||||||||
| 189 | ushort low = string[lookahead + 1]; | - | ||||||||||||
| 190 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 191 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 192 | ++lookahead; | - | ||||||||||||
| 193 | } | - | ||||||||||||
| 194 | } | - | ||||||||||||
| 195 | - | |||||||||||||
| 196 | prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 197 | QUnicodeTables::WordBreakClass tcls = (QUnicodeTables::WordBreakClass) prop->wordBreakClass; | - | ||||||||||||
| 198 | - | |||||||||||||
| 199 | if (Q_UNLIKELY(tcls == QUnicodeTables::WordBreak_Extend)) { | - | ||||||||||||
| 200 | // WB4: X(Extend|Format)* -> X | - | ||||||||||||
| 201 | continue; | - | ||||||||||||
| 202 | } | - | ||||||||||||
| 203 | - | |||||||||||||
| 204 | if (Q_LIKELY(tcls == cls || (action == WB::LookupW && (tcls == QUnicodeTables::WordBreak_HebrewLetter | - | ||||||||||||
| 205 | || tcls == QUnicodeTables::WordBreak_ALetter)))) { | - | ||||||||||||
| 206 | i = lookahead; | - | ||||||||||||
| 207 | ncls = tcls; | - | ||||||||||||
| 208 | action = WB::NoBreak; | - | ||||||||||||
| 209 | } | - | ||||||||||||
| 210 | break; | - | ||||||||||||
| 211 | } | - | ||||||||||||
| 212 | if (action != WB::NoBreak) { | - | ||||||||||||
| 213 | action = WB::Break; | - | ||||||||||||
| 214 | if (Q_UNLIKELY(ncls == QUnicodeTables::WordBreak_SingleQuote && cls == QUnicodeTables::WordBreak_HebrewLetter)) | - | ||||||||||||
| 215 | action = WB::NoBreak; // WB7a | - | ||||||||||||
| 216 | } | - | ||||||||||||
| 217 | break; | - | ||||||||||||
| 218 | } | - | ||||||||||||
| 219 | - | |||||||||||||
| 220 | cls = ncls; | - | ||||||||||||
| 221 | if (action == WB::Break) { | - | ||||||||||||
| 222 | attributes[pos].wordBreak = true; | - | ||||||||||||
| 223 | if (currentWordType != WordTypeNone) | - | ||||||||||||
| 224 | attributes[pos].wordEnd = true; | - | ||||||||||||
| 225 | switch (cls) { | - | ||||||||||||
| 226 | case QUnicodeTables::WordBreak_Katakana: | - | ||||||||||||
| 227 | currentWordType = WordTypeHiraganaKatakana; | - | ||||||||||||
| 228 | attributes[pos].wordStart = true; | - | ||||||||||||
| 229 | break; | - | ||||||||||||
| 230 | case QUnicodeTables::WordBreak_HebrewLetter: | - | ||||||||||||
| 231 | case QUnicodeTables::WordBreak_ALetter: | - | ||||||||||||
| 232 | case QUnicodeTables::WordBreak_Numeric: | - | ||||||||||||
| 233 | currentWordType = WordTypeAlphaNumeric; | - | ||||||||||||
| 234 | attributes[pos].wordStart = true; | - | ||||||||||||
| 235 | break; | - | ||||||||||||
| 236 | default: | - | ||||||||||||
| 237 | currentWordType = WordTypeNone; | - | ||||||||||||
| 238 | break; | - | ||||||||||||
| 239 | } | - | ||||||||||||
| 240 | } | - | ||||||||||||
| 241 | } | - | ||||||||||||
| 242 | - | |||||||||||||
| 243 | if (currentWordType != WordTypeNone) | - | ||||||||||||
| 244 | attributes[len].wordEnd = true; | - | ||||||||||||
| 245 | attributes[len].wordBreak = true; // WB2 | - | ||||||||||||
| 246 | } | - | ||||||||||||
| 247 | - | |||||||||||||
| 248 | - | |||||||||||||
| 249 | namespace SB { | - | ||||||||||||
| 250 | - | |||||||||||||
| 251 | enum State { | - | ||||||||||||
| 252 | Initial, | - | ||||||||||||
| 253 | Lower, | - | ||||||||||||
| 254 | Upper, | - | ||||||||||||
| 255 | LUATerm, | - | ||||||||||||
| 256 | ATerm, | - | ||||||||||||
| 257 | ATermC, | - | ||||||||||||
| 258 | ACS, | - | ||||||||||||
| 259 | STerm, | - | ||||||||||||
| 260 | STermC, | - | ||||||||||||
| 261 | SCS, | - | ||||||||||||
| 262 | BAfterC, | - | ||||||||||||
| 263 | BAfter, | - | ||||||||||||
| 264 | Break, | - | ||||||||||||
| 265 | Lookup | - | ||||||||||||
| 266 | }; | - | ||||||||||||
| 267 | - | |||||||||||||
| 268 | static const uchar breakTable[BAfter + 1][QUnicodeTables::SentenceBreak_Close + 1] = { | - | ||||||||||||
| 269 | // Other CR LF Sep Extend Sp Lower Upper OLetter Numeric ATerm SContinue STerm Close | - | ||||||||||||
| 270 | { Initial, BAfterC, BAfter , BAfter , Initial, Initial, Lower , Upper , Initial, Initial, ATerm , Initial, STerm , Initial }, // Initial | - | ||||||||||||
| 271 | { Initial, BAfterC, BAfter , BAfter , Lower , Initial, Initial, Initial, Initial, Initial, LUATerm, Initial, STerm , Initial }, // Lower | - | ||||||||||||
| 272 | { Initial, BAfterC, BAfter , BAfter , Upper , Initial, Initial, Upper , Initial, Initial, LUATerm, STerm , STerm , Initial }, // Upper | - | ||||||||||||
| 273 | - | |||||||||||||
| 274 | { Lookup , BAfterC, BAfter , BAfter , LUATerm, ACS , Initial, Upper , Break , Initial, ATerm , STerm , STerm , ATermC }, // LUATerm | - | ||||||||||||
| 275 | { Lookup , BAfterC, BAfter , BAfter , ATerm , ACS , Initial, Break , Break , Initial, ATerm , STerm , STerm , ATermC }, // ATerm | - | ||||||||||||
| 276 | { Lookup , BAfterC, BAfter , BAfter , ATermC , ACS , Initial, Break , Break , Lookup , ATerm , STerm , STerm , ATermC }, // ATermC | - | ||||||||||||
| 277 | { Lookup , BAfterC, BAfter , BAfter , ACS , ACS , Initial, Break , Break , Lookup , ATerm , STerm , STerm , Lookup }, // ACS | - | ||||||||||||
| 278 | - | |||||||||||||
| 279 | { Break , BAfterC, BAfter , BAfter , STerm , SCS , Break , Break , Break , Break , ATerm , STerm , STerm , STermC }, // STerm, | - | ||||||||||||
| 280 | { Break , BAfterC, BAfter , BAfter , STermC , SCS , Break , Break , Break , Break , ATerm , STerm , STerm , STermC }, // STermC | - | ||||||||||||
| 281 | { Break , BAfterC, BAfter , BAfter , SCS , SCS , Break , Break , Break , Break , ATerm , STerm , STerm , Break }, // SCS | - | ||||||||||||
| 282 | { Break , Break , BAfter , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // BAfterC | - | ||||||||||||
| 283 | { Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break , Break }, // BAfter | - | ||||||||||||
| 284 | }; | - | ||||||||||||
| 285 | - | |||||||||||||
| 286 | } // namespace SB | - | ||||||||||||
| 287 | - | |||||||||||||
| 288 | static void getSentenceBreaks(const ushort *string, quint32 len, QCharAttributes *attributes) | - | ||||||||||||
| 289 | { | - | ||||||||||||
| 290 | uchar state = SB::BAfter; // to meet SB1 | - | ||||||||||||
| 291 | for (quint32 i = 0; i != len; ++i) { | - | ||||||||||||
| 292 | quint32 pos = i; | - | ||||||||||||
| 293 | uint ucs4 = string[i]; | - | ||||||||||||
| 294 | if (QChar::isHighSurrogate(ucs4) && i + 1 != len) { | - | ||||||||||||
| 295 | ushort low = string[i + 1]; | - | ||||||||||||
| 296 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 297 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 298 | ++i; | - | ||||||||||||
| 299 | } | - | ||||||||||||
| 300 | } | - | ||||||||||||
| 301 | - | |||||||||||||
| 302 | const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 303 | QUnicodeTables::SentenceBreakClass ncls = (QUnicodeTables::SentenceBreakClass) prop->sentenceBreakClass; | - | ||||||||||||
| 304 | - | |||||||||||||
| 305 | Q_ASSERT(state <= SB::BAfter); | - | ||||||||||||
| 306 | state = SB::breakTable[state][ncls]; | - | ||||||||||||
| 307 | if (Q_UNLIKELY(state == SB::Lookup)) { // SB8 | - | ||||||||||||
| 308 | state = SB::Break; | - | ||||||||||||
| 309 | for (quint32 lookahead = i + 1; lookahead < len; ++lookahead) { | - | ||||||||||||
| 310 | ucs4 = string[lookahead]; | - | ||||||||||||
| 311 | if (QChar::isHighSurrogate(ucs4) && lookahead + 1 != len) { | - | ||||||||||||
| 312 | ushort low = string[lookahead + 1]; | - | ||||||||||||
| 313 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 314 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 315 | ++lookahead; | - | ||||||||||||
| 316 | } | - | ||||||||||||
| 317 | } | - | ||||||||||||
| 318 | - | |||||||||||||
| 319 | prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 320 | QUnicodeTables::SentenceBreakClass tcls = (QUnicodeTables::SentenceBreakClass) prop->sentenceBreakClass; | - | ||||||||||||
| 321 | switch (tcls) { | - | ||||||||||||
| 322 | case QUnicodeTables::SentenceBreak_Other: | - | ||||||||||||
| 323 | case QUnicodeTables::SentenceBreak_Extend: | - | ||||||||||||
| 324 | case QUnicodeTables::SentenceBreak_Sp: | - | ||||||||||||
| 325 | case QUnicodeTables::SentenceBreak_Numeric: | - | ||||||||||||
| 326 | case QUnicodeTables::SentenceBreak_SContinue: | - | ||||||||||||
| 327 | case QUnicodeTables::SentenceBreak_Close: | - | ||||||||||||
| 328 | continue; | - | ||||||||||||
| 329 | case QUnicodeTables::SentenceBreak_Lower: | - | ||||||||||||
| 330 | i = lookahead; | - | ||||||||||||
| 331 | state = SB::Initial; | - | ||||||||||||
| 332 | break; | - | ||||||||||||
| 333 | default: | - | ||||||||||||
| 334 | break; | - | ||||||||||||
| 335 | } | - | ||||||||||||
| 336 | break; | - | ||||||||||||
| 337 | } | - | ||||||||||||
| 338 | } | - | ||||||||||||
| 339 | if (Q_UNLIKELY(state == SB::Break)) { | - | ||||||||||||
| 340 | attributes[pos].sentenceBoundary = true; | - | ||||||||||||
| 341 | state = SB::breakTable[SB::Initial][ncls]; | - | ||||||||||||
| 342 | } | - | ||||||||||||
| 343 | } | - | ||||||||||||
| 344 | - | |||||||||||||
| 345 | attributes[len].sentenceBoundary = true; // SB2 | - | ||||||||||||
| 346 | } | - | ||||||||||||
| 347 | - | |||||||||||||
| 348 | - | |||||||||||||
| 349 | // ----------------------------------------------------------------------------------------------------- | - | ||||||||||||
| 350 | // | - | ||||||||||||
| 351 | // The line breaking algorithm. | - | ||||||||||||
| 352 | // See http://www.unicode.org/reports/tr14/tr14-35.html | - | ||||||||||||
| 353 | // | - | ||||||||||||
| 354 | // ----------------------------------------------------------------------------------------------------- | - | ||||||||||||
| 355 | - | |||||||||||||
| 356 | namespace LB { | - | ||||||||||||
| 357 | - | |||||||||||||
| 358 | namespace NS { // Number Sequence | - | ||||||||||||
| 359 | - | |||||||||||||
| 360 | // LB25 recommends to not break lines inside numbers of the form | - | ||||||||||||
| 361 | // described by the following regular expression: | - | ||||||||||||
| 362 | // (PR|PO)?(OP|HY)?NU(NU|SY|IS)*(CL|CP)?(PR|PO)? | - | ||||||||||||
| 363 | - | |||||||||||||
| 364 | enum Action { | - | ||||||||||||
| 365 | None, | - | ||||||||||||
| 366 | Start, | - | ||||||||||||
| 367 | Continue, | - | ||||||||||||
| 368 | Break | - | ||||||||||||
| 369 | }; | - | ||||||||||||
| 370 | - | |||||||||||||
| 371 | enum Class { | - | ||||||||||||
| 372 | XX, | - | ||||||||||||
| 373 | PRPO, | - | ||||||||||||
| 374 | OPHY, | - | ||||||||||||
| 375 | NU, | - | ||||||||||||
| 376 | SYIS, | - | ||||||||||||
| 377 | CLCP | - | ||||||||||||
| 378 | }; | - | ||||||||||||
| 379 | - | |||||||||||||
| 380 | static const uchar actionTable[CLCP + 1][CLCP + 1] = { | - | ||||||||||||
| 381 | // XX PRPO OPHY NU SYIS CLCP | - | ||||||||||||
| 382 | { None , Start , Start , Start , None , None }, // XX | - | ||||||||||||
| 383 | { None , Start , Continue, Continue, None , None }, // PRPO | - | ||||||||||||
| 384 | { None , Start , Start , Continue, None , None }, // OPHY | - | ||||||||||||
| 385 | { Break , Break , Break , Continue, Continue, Continue }, // NU | - | ||||||||||||
| 386 | { Break , Break , Break , Continue, Continue, Continue }, // SYIS | - | ||||||||||||
| 387 | { Break , Continue, Break , Break , Break , Break }, // CLCP | - | ||||||||||||
| 388 | }; | - | ||||||||||||
| 389 | - | |||||||||||||
| 390 | inline Class toClass(QUnicodeTables::LineBreakClass lbc, QChar::Category category) | - | ||||||||||||
| 391 | { | - | ||||||||||||
| 392 | switch (lbc) { | - | ||||||||||||
| 393 | case QUnicodeTables::LineBreak_AL:// case QUnicodeTables::LineBreak_AI: | - | ||||||||||||
| 394 | // resolve AI math symbols in numerical context to IS | - | ||||||||||||
| 395 | if (category == QChar::Symbol_Math) | - | ||||||||||||
| 396 | return SYIS; | - | ||||||||||||
| 397 | break; | - | ||||||||||||
| 398 | case QUnicodeTables::LineBreak_PR: case QUnicodeTables::LineBreak_PO: | - | ||||||||||||
| 399 | return PRPO; | - | ||||||||||||
| 400 | case QUnicodeTables::LineBreak_OP: case QUnicodeTables::LineBreak_HY: | - | ||||||||||||
| 401 | return OPHY; | - | ||||||||||||
| 402 | case QUnicodeTables::LineBreak_NU: | - | ||||||||||||
| 403 | return NU; | - | ||||||||||||
| 404 | case QUnicodeTables::LineBreak_SY: case QUnicodeTables::LineBreak_IS: | - | ||||||||||||
| 405 | return SYIS; | - | ||||||||||||
| 406 | case QUnicodeTables::LineBreak_CL: case QUnicodeTables::LineBreak_CP: | - | ||||||||||||
| 407 | return CLCP; | - | ||||||||||||
| 408 | default: | - | ||||||||||||
| 409 | break; | - | ||||||||||||
| 410 | } | - | ||||||||||||
| 411 | return XX; | - | ||||||||||||
| 412 | } | - | ||||||||||||
| 413 | - | |||||||||||||
| 414 | } // namespace NS | - | ||||||||||||
| 415 | - | |||||||||||||
| 416 | /* In order to support the tailored implementation of LB25 properly | - | ||||||||||||
| 417 | the following changes were made in the pair table to allow breaks | - | ||||||||||||
| 418 | where the numeric expression doesn't match the template (i.e. [^NU](IS|SY)NU): | - | ||||||||||||
| 419 | (CL)(PO) from IB to DB | - | ||||||||||||
| 420 | (CP)(PO) from IB to DB | - | ||||||||||||
| 421 | (CL)(PR) from IB to DB | - | ||||||||||||
| 422 | (CP)(PR) from IB to DB | - | ||||||||||||
| 423 | (PO)(OP) from IB to DB | - | ||||||||||||
| 424 | (PR)(OP) from IB to DB | - | ||||||||||||
| 425 | (IS)(NU) from IB to DB | - | ||||||||||||
| 426 | (SY)(NU) from IB to DB | - | ||||||||||||
| 427 | */ | - | ||||||||||||
| 428 | - | |||||||||||||
| 429 | /* In order to implementat LB21a properly a special rule HH has been introduced and | - | ||||||||||||
| 430 | the following changes were made in the pair table to disallow breaks after Hebrew + Hyphen: | - | ||||||||||||
| 431 | (HL)(HY|BA) from IB to CI | - | ||||||||||||
| 432 | (HY|BA)(!CB) from DB to HH | - | ||||||||||||
| 433 | */ | - | ||||||||||||
| 434 | - | |||||||||||||
| 435 | enum Action { | - | ||||||||||||
| 436 | ProhibitedBreak, PB = ProhibitedBreak, | - | ||||||||||||
| 437 | DirectBreak, DB = DirectBreak, | - | ||||||||||||
| 438 | IndirectBreak, IB = IndirectBreak, | - | ||||||||||||
| 439 | CombiningIndirectBreak, CI = CombiningIndirectBreak, | - | ||||||||||||
| 440 | CombiningProhibitedBreak, CP = CombiningProhibitedBreak, | - | ||||||||||||
| 441 | ProhibitedBreakAfterHebrewPlusHyphen, HH = ProhibitedBreakAfterHebrewPlusHyphen | - | ||||||||||||
| 442 | }; | - | ||||||||||||
| 443 | - | |||||||||||||
| 444 | static const uchar breakTable[QUnicodeTables::LineBreak_CB + 1][QUnicodeTables::LineBreak_CB + 1] = { | - | ||||||||||||
| 445 | /* OP CL CP QU GL NS EX SY IS PR PO NU AL HL ID IN HY BA BB B2 ZW CM WJ H2 H3 JL JV JT RI CB */ | - | ||||||||||||
| 446 | /* OP */ { PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, CP, PB, PB, PB, PB, PB, PB, PB, PB }, | - | ||||||||||||
| 447 | /* CL */ { DB, PB, PB, IB, IB, PB, PB, PB, PB, DB, DB, DB, DB, DB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 448 | /* CP */ { DB, PB, PB, IB, IB, PB, PB, PB, PB, DB, DB, IB, IB, IB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 449 | /* QU */ { PB, PB, PB, IB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB }, | - | ||||||||||||
| 450 | /* GL */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB }, | - | ||||||||||||
| 451 | /* NS */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 452 | /* EX */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 453 | /* SY */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, DB, IB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 454 | /* IS */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, IB, IB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 455 | /* PR */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, IB, DB, IB, IB, DB, DB, PB, CI, PB, IB, IB, IB, IB, IB, DB, DB }, | - | ||||||||||||
| 456 | /* PO */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 457 | /* NU */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 458 | /* AL */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 459 | /* HL */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, DB, IB, CI, CI, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 460 | /* ID */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 461 | /* IN */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 462 | /* HY */ { HH, PB, PB, IB, HH, IB, PB, PB, PB, HH, HH, IB, HH, HH, HH, HH, IB, IB, HH, HH, PB, CI, PB, HH, HH, HH, HH, HH, HH, DB }, | - | ||||||||||||
| 463 | /* BA */ { HH, PB, PB, IB, HH, IB, PB, PB, PB, HH, HH, HH, HH, HH, HH, HH, IB, IB, HH, HH, PB, CI, PB, HH, HH, HH, HH, HH, HH, DB }, | - | ||||||||||||
| 464 | /* BB */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, DB }, | - | ||||||||||||
| 465 | /* B2 */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, DB, IB, IB, DB, PB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 466 | /* ZW */ { DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 467 | /* CM */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB }, | - | ||||||||||||
| 468 | /* WJ */ { IB, PB, PB, IB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB }, | - | ||||||||||||
| 469 | /* H2 */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, IB, IB, DB, DB }, | - | ||||||||||||
| 470 | /* H3 */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, IB, DB, DB }, | - | ||||||||||||
| 471 | /* JL */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, IB, IB, IB, IB, DB, DB, DB }, | - | ||||||||||||
| 472 | /* JV */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, IB, IB, DB, DB }, | - | ||||||||||||
| 473 | /* JT */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, IB, DB, DB }, | - | ||||||||||||
| 474 | /* RI */ { DB, PB, PB, IB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, DB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, IB, DB }, | - | ||||||||||||
| 475 | /* CB */ { DB, PB, PB, IB, IB, DB, PB, PB, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB } | - | ||||||||||||
| 476 | }; | - | ||||||||||||
| 477 | - | |||||||||||||
| 478 | // The following line break classes are not treated by the pair table | - | ||||||||||||
| 479 | // and must be resolved outside: | - | ||||||||||||
| 480 | // AI, BK, CB, CJ, CR, LF, NL, SA, SG, SP, XX | - | ||||||||||||
| 481 | - | |||||||||||||
| 482 | } // namespace LB | - | ||||||||||||
| 483 | - | |||||||||||||
| 484 | static void getLineBreaks(const ushort *string, quint32 len, QCharAttributes *attributes) | - | ||||||||||||
| 485 | { | - | ||||||||||||
| 486 | quint32 nestart = 0; | - | ||||||||||||
| 487 | LB::NS::Class nelast = LB::NS::XX; | - | ||||||||||||
| 488 | - | |||||||||||||
| 489 | QUnicodeTables::LineBreakClass lcls = QUnicodeTables::LineBreak_LF; // to meet LB10 | - | ||||||||||||
| 490 | QUnicodeTables::LineBreakClass cls = lcls; | - | ||||||||||||
| 491 | for (quint32 i = 0; i != len; ++i) { | - | ||||||||||||
| 492 | quint32 pos = i; | - | ||||||||||||
| 493 | uint ucs4 = string[i]; | - | ||||||||||||
| 494 | if (QChar::isHighSurrogate(ucs4) && i + 1 != len) { | - | ||||||||||||
| 495 | ushort low = string[i + 1]; | - | ||||||||||||
| 496 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 497 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 498 | ++i; | - | ||||||||||||
| 499 | } | - | ||||||||||||
| 500 | } | - | ||||||||||||
| 501 | - | |||||||||||||
| 502 | const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 503 | QUnicodeTables::LineBreakClass ncls = (QUnicodeTables::LineBreakClass) prop->lineBreakClass; | - | ||||||||||||
| 504 | - | |||||||||||||
| 505 | if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_SA)) { | - | ||||||||||||
| 506 | // LB1: resolve SA to AL, except of those that have Category Mn or Mc be resolved to CM | - | ||||||||||||
| 507 | static const int test = FLAG(QChar::Mark_NonSpacing) | FLAG(QChar::Mark_SpacingCombining); | - | ||||||||||||
| 508 | if (FLAG(prop->category) & test) | - | ||||||||||||
| 509 | ncls = QUnicodeTables::LineBreak_CM; | - | ||||||||||||
| 510 | } | - | ||||||||||||
| 511 | if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_CM)) { | - | ||||||||||||
| 512 | // LB10: treat CM that follows SP, BK, CR, LF, NL, or ZW as AL | - | ||||||||||||
| 513 | if (lcls == QUnicodeTables::LineBreak_ZW || lcls >= QUnicodeTables::LineBreak_SP) | - | ||||||||||||
| 514 | ncls = QUnicodeTables::LineBreak_AL; | - | ||||||||||||
| 515 | } | - | ||||||||||||
| 516 | - | |||||||||||||
| 517 | if (Q_LIKELY(ncls != QUnicodeTables::LineBreak_CM)) { | - | ||||||||||||
| 518 | // LB25: do not break lines inside numbers | - | ||||||||||||
| 519 | LB::NS::Class necur = LB::NS::toClass(ncls, (QChar::Category)prop->category); | - | ||||||||||||
| 520 | switch (LB::NS::actionTable[nelast][necur]) { | - | ||||||||||||
| 521 | case LB::NS::Break: | - | ||||||||||||
| 522 | // do not change breaks before and after the expression | - | ||||||||||||
| 523 | for (quint32 j = nestart + 1; j < pos; ++j) | - | ||||||||||||
| 524 | attributes[j].lineBreak = false; | - | ||||||||||||
| 525 | // fall through | - | ||||||||||||
| 526 | case LB::NS::None: | - | ||||||||||||
| 527 | nelast = LB::NS::XX; // reset state | - | ||||||||||||
| 528 | break; | - | ||||||||||||
| 529 | case LB::NS::Start: | - | ||||||||||||
| 530 | nestart = i; | - | ||||||||||||
| 531 | // fall through | - | ||||||||||||
| 532 | default: | - | ||||||||||||
| 533 | nelast = necur; | - | ||||||||||||
| 534 | break; | - | ||||||||||||
| 535 | } | - | ||||||||||||
| 536 | } | - | ||||||||||||
| 537 | - | |||||||||||||
| 538 | if (Q_UNLIKELY(lcls >= QUnicodeTables::LineBreak_CR)) { | - | ||||||||||||
| 539 | // LB4: BK!, LB5: (CRxLF|CR|LF|NL)! | - | ||||||||||||
| 540 | if (lcls > QUnicodeTables::LineBreak_CR || ncls != QUnicodeTables::LineBreak_LF) | - | ||||||||||||
| 541 | attributes[pos].lineBreak = attributes[pos].mandatoryBreak = true; | - | ||||||||||||
| 542 | goto next; | - | ||||||||||||
| 543 | } | - | ||||||||||||
| 544 | - | |||||||||||||
| 545 | if (Q_UNLIKELY(ncls >= QUnicodeTables::LineBreak_SP)) { | - | ||||||||||||
| 546 | if (ncls > QUnicodeTables::LineBreak_SP) | - | ||||||||||||
| 547 | goto next; // LB6: x(BK|CR|LF|NL) | - | ||||||||||||
| 548 | goto next_no_cls_update; // LB7: xSP | - | ||||||||||||
| 549 | } | - | ||||||||||||
| 550 | - | |||||||||||||
| 551 | // for South East Asian chars that require a complex analysis, the Unicode | - | ||||||||||||
| 552 | // standard recommends to treat them as AL. tailoring that do dictionary analysis can override | - | ||||||||||||
| 553 | if (Q_UNLIKELY(cls >= QUnicodeTables::LineBreak_SA)) | - | ||||||||||||
| 554 | cls = QUnicodeTables::LineBreak_AL; | - | ||||||||||||
| 555 | - | |||||||||||||
| 556 | switch (LB::breakTable[cls][ncls < QUnicodeTables::LineBreak_SA ? ncls : QUnicodeTables::LineBreak_AL]) { | - | ||||||||||||
| 557 | case LB::DirectBreak: | - | ||||||||||||
| 558 | attributes[pos].lineBreak = true; | - | ||||||||||||
| 559 | break; | - | ||||||||||||
| 560 | case LB::IndirectBreak: | - | ||||||||||||
| 561 | if (lcls == QUnicodeTables::LineBreak_SP) | - | ||||||||||||
| 562 | attributes[pos].lineBreak = true; | - | ||||||||||||
| 563 | break; | - | ||||||||||||
| 564 | case LB::CombiningIndirectBreak: | - | ||||||||||||
| 565 | if (lcls != QUnicodeTables::LineBreak_SP) | - | ||||||||||||
| 566 | goto next_no_cls_update; | - | ||||||||||||
| 567 | attributes[pos].lineBreak = true; | - | ||||||||||||
| 568 | break; | - | ||||||||||||
| 569 | case LB::CombiningProhibitedBreak: | - | ||||||||||||
| 570 | if (lcls != QUnicodeTables::LineBreak_SP) | - | ||||||||||||
| 571 | goto next_no_cls_update; | - | ||||||||||||
| 572 | break; | - | ||||||||||||
| 573 | case LB::ProhibitedBreakAfterHebrewPlusHyphen: | - | ||||||||||||
| 574 | if (lcls != QUnicodeTables::LineBreak_HL) | - | ||||||||||||
| 575 | attributes[pos].lineBreak = true; | - | ||||||||||||
| 576 | break; | - | ||||||||||||
| 577 | case LB::ProhibitedBreak: | - | ||||||||||||
| 578 | // nothing to do | - | ||||||||||||
| 579 | default: | - | ||||||||||||
| 580 | break; | - | ||||||||||||
| 581 | } | - | ||||||||||||
| 582 | - | |||||||||||||
| 583 | next: | - | ||||||||||||
| 584 | cls = ncls; | - | ||||||||||||
| 585 | next_no_cls_update: | - | ||||||||||||
| 586 | lcls = ncls; | - | ||||||||||||
| 587 | } | - | ||||||||||||
| 588 | - | |||||||||||||
| 589 | if (Q_UNLIKELY(LB::NS::actionTable[nelast][LB::NS::XX] == LB::NS::Break)) { | - | ||||||||||||
| 590 | // LB25: do not break lines inside numbers | - | ||||||||||||
| 591 | for (quint32 j = nestart + 1; j < len; ++j) | - | ||||||||||||
| 592 | attributes[j].lineBreak = false; | - | ||||||||||||
| 593 | } | - | ||||||||||||
| 594 | - | |||||||||||||
| 595 | attributes[0].lineBreak = attributes[0].mandatoryBreak = false; // LB2 | - | ||||||||||||
| 596 | attributes[len].lineBreak = attributes[len].mandatoryBreak = true; // LB3 | - | ||||||||||||
| 597 | } | - | ||||||||||||
| 598 | - | |||||||||||||
| 599 | - | |||||||||||||
| 600 | static void getWhiteSpaces(const ushort *string, quint32 len, QCharAttributes *attributes) | - | ||||||||||||
| 601 | { | - | ||||||||||||
| 602 | for (quint32 i = 0; i != len; ++i) { | - | ||||||||||||
| 603 | uint ucs4 = string[i]; | - | ||||||||||||
| 604 | if (QChar::isHighSurrogate(ucs4) && i + 1 != len) { | - | ||||||||||||
| 605 | ushort low = string[i + 1]; | - | ||||||||||||
| 606 | if (QChar::isLowSurrogate(low)) { | - | ||||||||||||
| 607 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 608 | ++i; | - | ||||||||||||
| 609 | } | - | ||||||||||||
| 610 | } | - | ||||||||||||
| 611 | - | |||||||||||||
| 612 | if (Q_UNLIKELY(QChar::isSpace(ucs4))) | - | ||||||||||||
| 613 | attributes[i].whiteSpace = true; | - | ||||||||||||
| 614 | } | - | ||||||||||||
| 615 | } | - | ||||||||||||
| 616 | - | |||||||||||||
| 617 | - | |||||||||||||
| 618 | Q_CORE_EXPORT void initCharAttributes(const ushort *string, int length, | - | ||||||||||||
| 619 | const ScriptItem *items, int numItems, | - | ||||||||||||
| 620 | QCharAttributes *attributes, CharAttributeOptions options) | - | ||||||||||||
| 621 | { | - | ||||||||||||
| 622 | if (length <= 0) | - | ||||||||||||
| 623 | return; | - | ||||||||||||
| 624 | - | |||||||||||||
| 625 | if (!(options & DontClearAttributes)) | - | ||||||||||||
| 626 | ::memset(attributes, 0, (length + 1) * sizeof(QCharAttributes)); | - | ||||||||||||
| 627 | - | |||||||||||||
| 628 | if (options & GraphemeBreaks) | - | ||||||||||||
| 629 | getGraphemeBreaks(string, length, attributes); | - | ||||||||||||
| 630 | if (options & WordBreaks) | - | ||||||||||||
| 631 | getWordBreaks(string, length, attributes); | - | ||||||||||||
| 632 | if (options & SentenceBreaks) | - | ||||||||||||
| 633 | getSentenceBreaks(string, length, attributes); | - | ||||||||||||
| 634 | if (options & LineBreaks) | - | ||||||||||||
| 635 | getLineBreaks(string, length, attributes); | - | ||||||||||||
| 636 | if (options & WhiteSpaces) | - | ||||||||||||
| 637 | getWhiteSpaces(string, length, attributes); | - | ||||||||||||
| 638 | - | |||||||||||||
| 639 | if (!qt_initcharattributes_default_algorithm_only) { | - | ||||||||||||
| 640 | if (!items || numItems <= 0) | - | ||||||||||||
| 641 | return; | - | ||||||||||||
| 642 | - | |||||||||||||
| 643 | QVarLengthArray<HB_ScriptItem, 64> scriptItems; | - | ||||||||||||
| 644 | scriptItems.reserve(numItems); | - | ||||||||||||
| 645 | int start = 0; | - | ||||||||||||
| 646 | HB_Script startScript = script_to_hbscript(items[start].script); | - | ||||||||||||
| 647 | if (Q_UNLIKELY(startScript == HB_Script_Inherited)) | - | ||||||||||||
| 648 | startScript = HB_Script_Common; | - | ||||||||||||
| 649 | for (int i = start + 1; i < numItems; ++i) { | - | ||||||||||||
| 650 | HB_Script script = script_to_hbscript(items[i].script); | - | ||||||||||||
| 651 | if (Q_LIKELY(script == startScript || script == HB_Script_Inherited)) | - | ||||||||||||
| 652 | continue; | - | ||||||||||||
| 653 | Q_ASSERT(items[i].position > items[start].position); | - | ||||||||||||
| 654 | HB_ScriptItem item; | - | ||||||||||||
| 655 | item.pos = items[start].position; | - | ||||||||||||
| 656 | item.length = items[i].position - items[start].position; | - | ||||||||||||
| 657 | item.script = startScript; | - | ||||||||||||
| 658 | item.bidiLevel = 0; // unused | - | ||||||||||||
| 659 | scriptItems.append(item); | - | ||||||||||||
| 660 | start = i; | - | ||||||||||||
| 661 | startScript = script; | - | ||||||||||||
| 662 | } | - | ||||||||||||
| 663 | if (items[start].position + 1 < length) { | - | ||||||||||||
| 664 | HB_ScriptItem item; | - | ||||||||||||
| 665 | item.pos = items[start].position; | - | ||||||||||||
| 666 | item.length = length - items[start].position; | - | ||||||||||||
| 667 | item.script = startScript; | - | ||||||||||||
| 668 | item.bidiLevel = 0; // unused | - | ||||||||||||
| 669 | scriptItems.append(item); | - | ||||||||||||
| 670 | } | - | ||||||||||||
| 671 | Q_STATIC_ASSERT(sizeof(QCharAttributes) == sizeof(HB_CharAttributes)); | - | ||||||||||||
| 672 | HB_GetTailoredCharAttributes(string, length, | - | ||||||||||||
| 673 | scriptItems.constData(), scriptItems.size(), | - | ||||||||||||
| 674 | reinterpret_cast<HB_CharAttributes *>(attributes)); | - | ||||||||||||
| 675 | } | - | ||||||||||||
| 676 | } | - | ||||||||||||
| 677 | - | |||||||||||||
| 678 | - | |||||||||||||
| 679 | // ---------------------------------------------------------------------------- | - | ||||||||||||
| 680 | // | - | ||||||||||||
| 681 | // The Unicode script property. See http://www.unicode.org/reports/tr24/tr24-24.html | - | ||||||||||||
| 682 | // | - | ||||||||||||
| 683 | // ---------------------------------------------------------------------------- | - | ||||||||||||
| 684 | - | |||||||||||||
| 685 | Q_CORE_EXPORT void initScripts(const ushort *string, int length, uchar *scripts) | - | ||||||||||||
| 686 | { | - | ||||||||||||
| 687 | int sor = 0; | - | ||||||||||||
| 688 | int eor = -10; | - | ||||||||||||
| 689 | uchar script = QChar::Script_Common; | - | ||||||||||||
| 690 | - | |||||||||||||
| 691 | for (int i = 0; i < length; ++i) {, eor = i;) {
| 257027-6067506 | ||||||||||||
| 692 | uint ucs4 = string[i]; | - | ||||||||||||
| 693 | if (QChar::isHighSurrogate(ucs4) && i + 1 < length) {
| 28-6066585 | ||||||||||||
| 694 | ushort low = string[i + 1]; | - | ||||||||||||
| 695 | if (QChar::isLowSurrogate(low)) {
| 28-865 | ||||||||||||
| 696 | ucs4 = QChar::surrogateToUcs4(ucs4, low); | - | ||||||||||||
| 697 | ++i; | - | ||||||||||||
| 698 | } executed 865 times by 2 tests: end of blockExecuted by:
| 865 | ||||||||||||
| 699 | } executed 893 times by 2 tests: end of blockExecuted by:
| 893 | ||||||||||||
| 700 | - | |||||||||||||
| 701 | const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4); | - | ||||||||||||
| 702 | - | |||||||||||||
| 703 | uchar nscript = prop->script; | - | ||||||||||||
| 704 | - | |||||||||||||
| 705 | if (Q_LIKELY(prop->scriptnscript == script || prop->nscript <= QChar::Script_Common))
| 101464-5966042 | ||||||||||||
| 706 | continue; executed 5966042 times by 116 tests: continue;Executed by:
| 5966042 | ||||||||||||
| 707 | - | |||||||||||||
| 708 | // inherit preceding Common-s | - | ||||||||||||
| 709 |
| 727-100737 | ||||||||||||
| 710 | // also covers a case where the base character of Common script followed | - | ||||||||||||
| 711 | // by one or more combining marks of non-Inherited, non-Common script | - | ||||||||||||
| 712 | script = nscript; | - | ||||||||||||
| 713 | continue; executed 100737 times by 112 tests: continue;Executed by:
| 100737 | ||||||||||||
| 714 | } | - | ||||||||||||
| 715 | - | |||||||||||||
| 716 | // Never break between a combining mark (gc= Mc, Mn or Me) and its base character. | - | ||||||||||||
| 717 | // Thus, a combining mark — whatever its script property value is — should inherit | - | ||||||||||||
| 718 | // the script property value of its base character. | - | ||||||||||||
| 719 | static const int test = (FLAG(QChar::Mark_NonSpacing) | FLAG(QChar::Mark_SpacingCombining) | FLAG(QChar::Mark_Enclosing)); | - | ||||||||||||
| 720 | if (Q_UNLIKELY(FLAG(prop->category) & test)) {
| 10-717 | ||||||||||||
if (Q_LIKELY(script > QChar::Script_Common || prop->script <= QChar::Script_Common
| ||||||||||||||
| 721 | continue; executed 10 times by 1 test: continue;Executed by:
| 10 | ||||||||||||
| 722 | - | |||||||||||||
| 723 | script = QChar::Script(prop->script); | - | ||||||||||||
| } | ||||||||||||||
| #if 0 if (Q_LIKELYQ_ASSERT(script !=> QChar::Script_Common)) { | ||||||||||||||
| while); | ||||||||||||||
| 724 | Q_ASSERT(sor > 0 && scripts[sor - 1] == QChar< eor); | - | ||||||||||||
| 725 | ::Script_Common) | - | ||||||||||||
| --sor; | ||||||||||||||
| } else { | ||||||||||||||
| ifmemset(sor > 0) | ||||||||||||||
| script =scripts [+ sor- 1]; | ||||||||||||||
| } | ||||||||||||||
| #endif | ||||||||||||||
| while, script, (sor <eor - sor) scripts[* sizeof(uchar)); | ||||||||||||||
| 726 | sor ++]= scripteor; | - | ||||||||||||
| 727 | - | |||||||||||||
| 728 | script = prop->scriptnscript; | - | ||||||||||||
| 729 | } executed 717 times by 7 tests: end of blockExecuted by:
| 717 | ||||||||||||
| 730 | - | |||||||||||||
| 731 | eor = length; | - | ||||||||||||
| #if 0 if (Q_LIKELYQ_ASSERT(script !=>= QChar::Script_Common)) { | ||||||||||||||
| while); | ||||||||||||||
| 732 | Q_ASSERT(sor > 0 && scripts[sor - 1]eor == QCharlength); | - | ||||||||||||
| 733 | ::Script_Common) | - | ||||||||||||
| --sor; | ||||||||||||||
| } else { | ||||||||||||||
| ifmemset(sor > 0) | ||||||||||||||
| script =scripts [+ sor- 1]; | ||||||||||||||
| } | ||||||||||||||
| #endif | ||||||||||||||
| while, script, (sor <eor ) | ||||||||||||||
| scripts[- sor++] = script;) * sizeof(uchar)); | ||||||||||||||
| 734 | } executed 257027 times by 116 tests: end of blockExecuted by:
| 257027 | ||||||||||||
| 735 | - | |||||||||||||
| 736 | } // namespace QUnicodeTools | - | ||||||||||||
| 737 | - | |||||||||||||
| 738 | QT_END_NAMESPACE | - | ||||||||||||
| Source code | Switch to Preprocessed file |