自然語言處理筆記002----字符串處理

NLP處理的對象是文本字符串內容,一般來講,文本基本都是有字符串構成的。文本基本上也是由字符串組成的。

1.lstrip  rstrip strip--->去掉特殊字符,包括空格,換行符等

import numpy as np
s="   hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!   "
#去掉開頭空格
s1=s.lstrip()
#去掉結尾空格
s2=s.rstrip()
#去掉首尾空格
s3=s.strip()
print(s1)
print(s2)
print(s3)
print(s)

結果:

hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!   
   hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!
hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!
   hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!! 

2.repalce,替換字符串中的字符或者子字符串。但不改變原來的字符串

s="   hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!   "
s4=s.replace("hello","幸會")
print(s4)
print(s)
#同樣,可以使用替換的功能刪除某個子串
s5=s.replace("。。。哈哈哈!!   ","")
print(s5)

結果:

   幸會,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!   
   hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!   
   hello,我是風清揚,我會獨孤九劍。。。哈哈哈!!!!  

3.字符串截取

my_hello="大家好,我是風清揚,來自於華山派,成名絕技:獨孤九劍!"
#從左到右切片,左閉右開。
print(my_hello[0:3])
#中間位置切片
print(my_hello[4:4+5])
#從尾部開始切片
print(my_hello[-1-4:-1])
#有步長切片
print(my_hello[::2])
#翻轉
print(my_hello[::-1])

運行結果:

大家好
我是風清揚
獨孤九劍
大好我風揚來於山,名技獨九!
!劍九孤獨:技絕名成,派山華於自來,揚清風是我,好家大

4.字符串拼接與分割

dfbb="大家好,我是東方不敗。來自日月神教!"
fqy="大家好,我是風清揚。來自華山派!"
#字符串相加
str1=dfbb+fqy
print(str1)
#join的用法:
s=["大家好","我是任我行","我會吸星大法","我要找東方不敗報仇"]
str2=":".join(s)
print(str2)
# 通過split的方式切分,返回值是一個列表
tmp_str = "我是陸超;我是李雪琴;我是毛毛姐,好high喲,感覺人生已經達到了高潮,感覺人生已經達到了巔峯"
str3=tmp_str.split(";")
print(str3)

運行結果:

大家好,我是東方不敗。來自日月神教!大家好,我是風清揚。來自華山派!
大家好:我是任我行:我會吸星大法:我要找東方不敗報仇
['我是陸超', '我是李雪琴', '我是毛毛姐,好high喲,感覺人生已經達到了高潮,感覺人生已經達到了巔峯']

5.查找

tmp_str = "我是陸超;我是李雪琴;我是毛毛姐,好high喲,感覺人生已經達到了高潮,感覺人生已經達到了巔峯"
#find 返回子串在原字符串中的首索引
str4=tmp_str.find("毛毛")
print(str4)
str5=tmp_str.index("毛毛")
print(str5)

運行結果:

13
13

6.大小寫互換

s="hello,my name is FengQingyang"
#轉爲小寫
s1=s.lower()
print(s1)
#轉爲大寫
s2=s.upper()
print(s2)
#首字母大寫
s3=s.capitalize()
print(s3)

運行結果:

hello,my name is fengqingyang
HELLO,MY NAME IS FENGQINGYANG
Hello,my name is fengqingyang

暫時先總結這麼多吧,以後碰到相關的內容再補寫

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章