ECMAScript 6 入門——字符串的新增方法

四、字符串的新增方法

1.String.fromCodePoint()

以下均用於從Unicode碼點返回對於字符
(1)ES5的String.fromCharCode()只能返回0x0000-0xFFFF的字符串,不能訪問大於0xFFFF的字符
(2)ES6的String.fromCodePoint()則可識別大於0xFFFF的字符,彌補了不足。

(1)
0x20BB7發生溢出最高兩位被拋棄,返回碼點0+0BB7對應字符
String.fromCharCode(0x20BB7)
// "ஷ"
(2)
String.fromCodePoint(0x20BB7)
// "𠮷"
String.fromCodePoint(0x78, 0x1f680, 0x79) === 'x\uD83D\uDE80y'
// true

2.String.codePointAt()方法

  • 理論/原由
    JS的內部,字符以UTF-16的格式存儲,每個字符固定爲兩個字節,對於那些需要4個字節存儲的字符(Unicode碼點大於0xFFFF的字符),JS會認爲是兩個字符。
  • charAt()無法讀取整個字符(返回指定位置的字符)
  • charCodeAt()只能返回前兩個字節和後兩個字節的值
  • codePointAt()能正確處理4個字節存儲的字符,返回一個字符的碼點
var s = "𠮷";

s.length // 2
s.charAt(0) // ''
s.charAt(1) // ''
s.charCodeAt(0) // 55362
s.charCodeAt(1) // 57271
  • String.codePointAt()的使用方法
    字符串實例對象,參數是字符串需轉碼的位置,把字符轉成Unicode碼點,十進制。
let s = '𠮷a';

s.codePointAt(0) // 134071 //𠮷
s.codePointAt(1) // 57271 //𠮷的後兩位字符
s.codePointAt(2) // 97 //a
s.codePointAt(0).toString(16) // "20bb7"
s.codePointAt(2).toString(16) // "61"
  • 解決參數位置不明瞭問題(上面的a位置實際爲1而不是2)
    (1)使用for…of循環
    (2)使用數組存放字符串的各個字符,再用foreach
(1)
let s = '𠮷a';
for (let ch of s) {
  console.log(ch.codePointAt(0).toString(16));
}
// 20bb7
// 61
(2)解構將字符串拆分成數組
let arr = [...'𠮷a']; // arr.length === 2
arr.forEach(
  ch => console.log(ch.codePointAt(0).toString(16))
);
// 20bb7
// 61
  • 如何判斷一個字符是2個字節還是4個字節組成
function is32Bit(c) {
  return c.codePointAt(0) > 0xFFFF;
}

is32Bit("𠮷") // true
is32Bit("a") // false
String.codePointAt()與String.fromCodePoint()區別

(1)codePointAt的String是字符串的實例對象
(2)fromCodePoint是String對象的靜態方法

const a='abc'
a.codePointAt(0)//實例對象

String.fromCodePoint('a')//靜態方法

3.String.raw()

該靜態方法對輸入的字符串中的斜槓都進行轉義(\變\)

String.raw`Hi\n${2+3}!`
// 實際返回 "Hi\\n5!",顯示的是轉義後的結果 "Hi\n5!"

String.raw`Hi\u000A!`;
// 實際返回 "Hi\\u000A!",顯示的是轉義後的結果 "Hi\u000A!"
  • 用處
    專用於模板字符串的標籤函數。如寫成正常函數的形式,它的第一個參數應該是具有raw屬性的對象,且是個數組,對應模板字符串解析後的值
something`foo${1 + 2}bar`
//something函數後的模板字符串=>something([foo,bar],1+2)
//raw屬性的值等同於標籤函數解析後得到的數組
String.raw({ raw: ['foo', 'bar'] }, 1 + 2) // "foo3bar"

String.raw()實現代碼
String.raw = function (strings, ...values) {
  let output = '';
  let index;
  for (index = 0; index < values.length; index++) {
    output += strings.raw[index] + values[index];
  }

  output += strings.raw[index]
  return output;
}

4.實例方法:normalize()

  • 理論/原由
    許多歐洲語言有語調符號和重音符號。爲了表示它們,Unicode 提供了兩種方法。
    (1)直接提供帶重音符號的字符,比如Ǒ(\u01D1)。
    (2)提供合成符號(combining character),即原字符與重音符號的合成,兩個字符合成一個字符,比如O(\u004F)和ˇ(\u030C)合成Ǒ(\u004F\u030C)。
    這兩種表示方法在視覺和語義上都等價,但JS不能識別!
'\u01D1'==='\u004F\u030C' //false

'\u01D1'.length // 1
'\u004F\u030C'.length // 2
  • normalize()方法
    ES6字符串實例方法,用來將字符的不同表示方法統一爲統一的形式,這稱爲Unicode正規化。
'\u01D1'.normalize() === '\u004F\u030C'.normalize()
// true

normalize方法可接受一個參數指定normalize的方式,參數有四個可選值:

(1)NFC,默認參數,表示“標準等價合成”(Normalization Form Canonical Composition),返回多個簡單字符的合成字符。所謂“標準等價”指的是視覺和語義上的等價。
(2)NFD,表示“標準等價分解”(Normalization Form Canonical Decomposition),即在標準等價的前提下,返回合成字符分解的多個簡單字符。
(3)NFKC,表示“兼容等價合成”(Normalization Form Compatibility Composition),返回合成字符。所謂“兼容等價”指的是語義上存在等價,但視覺上不等價,比如“囍”和“喜喜”。(這只是用來舉例,normalize方法不能識別中文。)
(4)NFKD,表示“兼容等價分解”(Normalization Form Compatibility Decomposition),即在兼容等價的前提下,返回合成字符分解的多個簡單字符。
'\u004F\u030C'.normalize('NFC').length // 1
'\u004F\u030C'.normalize('NFD').length // 2
缺點是不能識別3個或3個以上字符的合成。這種情況還是隻能使用正則表達式,通過Unicode編號區間判斷

5.實例方法:includes(),startsWith(),endsWith()

JS原只提供了indexOf方法來確定一個字符串是否包含在另一個字符串中。
ES6又新增了三種新方法(參數2爲開始搜索位置):

  • includes():返回布爾值,表示是否找到了參數字符串。
  • startsWith():返回布爾值,表示參數字符串是否在原字符串的頭部。
  • endsWith():返回布爾值,表示參數字符串是否在原字符串的尾部。
let s = 'Hello world!';

s.includes('Hello', 6) // false
s.startsWith('world', 6) // true
s.endsWith('Hello', 5) // true //endsWith的第二個參數則是針對前n個字符

6.實例方法:repeat()

返回一個新字符串,表示原字符串重複n次。
參數說明:
(1)小數則向下取整 2.9=>2
(2)0到-1等於0
(3)非數字字符串等於0 ‘a’=>0
(4)數字字符串會轉換爲數字 ‘3’=>3
(5)負數報錯

'x'.repeat(3) // "xxx"
'hello'.repeat(2) // "hellohello"
'na'.repeat(0) // ""

7.實例方法:padStart(),padEnd()

ES2017引入了字符串補全長度的功能。即某個字符串不夠指定長度則會進行補全。

  • padStart用於頭部補全
  • padEnd用於尾部補全
    (1)原字符串+補全字符串<=最大長度。自動補全
    (2)原字符串>=最大長度。補全無效,返回原字符串
    (3)原字符串+補全字符串>最大長度。則截去補全字符串超出的部分再進行補全
    (4)省略第二個參數,默認用空格補全
(1)
'x'.padStart(5, 'ab') // 'ababx'
'x'.padStart(4, 'ab') // 'abax'

'x'.padEnd(5, 'ab') // 'xabab'
'x'.padEnd(4, 'ab') // 'xaba'
(2)
'xxx'.padStart(2, 'ab') // 'xxx'
'xxx'.padEnd(2, 'ab') // 'xxx'
(3)
'abc'.padStart(10, '0123456789')
// '0123456abc'
(4)
'x'.padStart(4) // '   x'
'x'.padEnd(4) // 'x   '
  • 用途
    1.爲數值補全指定位數
'1'.padStart(10, '0') // "0000000001"
'12'.padStart(10, '0') // "0000000012"
'123456'.padStart(10, '0') // "0000123456"

2.提示字符串格式

'12'.padStart(10, 'YYYY-MM-DD') // "YYYY-MM-12"
'09-12'.padStart(10, 'YYYY-MM-DD') // "YYYY-09-12"

8.實例方法:trimStart(),trimEnd()

ES2019新增trimStart()和trimEnd兩個消除空格/換行/tab等不可見空白的方法。都是返回新字符串,不影響原字符串

  • trim()
  • trimStart()
  • trimEnd()
const s = '  abc  ';

s.trim() // "abc"
s.trimStart() // "abc  "
s.trimEnd() // "  abc"

9.實例方法:matchAll()

返回正則表達式在當前字符串的所有匹配。詳見:ECMAScript 6 入門——正則的擴展

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章