Python/字符串

字符串是以字符為單位處理的不可變序列對象，Python3的字符串固定是Unicode表示。而bytes類型是以字節（取值範圍 0-255）為單位處理的不可變的序列對象。所以，從字符串至bytes需要編碼（encode），給出編碼集（encoding）作為參數；從bytes到字符串為解碼（decode）。Python中的bytes用b'xxx'的形式表示。x可以用字符表示，也可以用ASCII編碼形式\xnn表示，nn從00-ff(十六進制)共256種字符。修改一個字節串中的某個字節，不能夠直接修改，需要將其轉化為bytearray後再進行修改。str與bytes是Python預定義的兩個類。

使用單引號'，或雙引號"來創建字符串。

在字符串的第一個引號前加上字母"r"（或"R"），為原始字符串：其表達式內部的所有的字符都是直接按照字面的意思來使用，沒有轉義特殊或不能打印的字符。三引號（單引號或者雙引號）允許一個字符串跨多行，字符串中可以包含換行符、制表符以及其他特殊字符。

引號前小寫的"u"表示這裡創建的是一個 Unicode 字符串。使用Python的Unicode-Escape編碼來表示一個字符，如\u0020表示空格符。

Python不支持字符類型。字符也是作為一個字符串。

轉義字符

python用反斜槓(\)轉義下述字符：

\(在行尾時) 續行符
\\ 反斜槓符號
\' 單引號
\" 雙引號
\a 響鈴
\b 退格(Backspace)
\e 轉義
\000 空
\n 換行
\v 縱向制表符
\t 橫向制表符
\r 回車
\f 換頁
\0yy 2位八進制數字，yy代表的字符，例如：\012代表換行
\xyy 2位十六進制數字，yy代表的字符，例如：\x0a代表換行
\uyyyy 4位十六進制數字，表示Unicode字符
\Uyyyyyyyy 8位十六進制數字，表示Unicode字符
\other 其它的字符以普通格式輸出

序列操作

字符串作為Python的六種序列數據類型之一，支持常見的序列操作：

+ 字符串連接
[] 通過索引獲取字符串中字符
[ : ] 切片。截取字符串中的一部分
in 成員運算符 - 如果字符串中包含給定的字符返回 True
not in 成員運算符 - 如果字符串中不包含給定的字符返回 True
% 格式字符串，內部的格式化指示符與C語言的printf所用的一樣。Python2.6 開始，新增了一種格式化字符串的函數 str.format()，它增強了字符串格式化的功能。

內建方法

string的方法：

方法名	描述
string.capitalize()	把字符串的第一個字符大寫
string.center(width)	返回一個原字符串居中,並使用空格填充至長度 width 的新字符串
string.count(str, beg=0, end=len(string))	返回 str 在 string 裡面出現的次數，如果 beg 或者 end 指定則返回指定範圍內 str 出現的次數
string.decode(encoding='UTF-8', errors='strict')	以 encoding 指定的編碼格式解碼 string，如果出錯默認報一個 ValueError 的異常，除非 errors 指定的是 'ignore' 或者'replace'
string.encode(encoding='UTF-8', errors='strict')	以 encoding 指定的編碼格式編碼 string，如果出錯默認報一個ValueError 的異常，除非 errors 指定的是'ignore'或者'replace'
string.endswith(obj, beg=0, end=len(string))	檢查字符串是否以 obj 結束，如果beg 或者 end 指定則檢查指定的範圍內是否以 obj 結束，如果是，返回 True,否則返回 False.
string.expandtabs(tabsize=8)	把字符串 string 中的 tab 符號轉為空格，tab 符號默認的空格數是 8。
string.find(str, beg=0, end=len(string))	檢測 str 是否包含在 string 中，如果 beg 和 end 指定範圍，則檢查是否包含在指定範圍內，如果是返回開始的索引值，否則返回-1
string.format()	格式化字符串
string.index(str, beg=0, end=len(string))	跟find()方法一樣，只不過如果str不在 string中會報一個異常.
string.isalnum()	如果 string 至少有一個字符並且所有字符都是字母或數字則返回 True,否則返回 False
string.isalpha()	如果 string 至少有一個字符並且所有字符都是字母則返回 True,否則返回 False
string.isdecimal()	如果 string 只包含十進制數字則返回 True 否則返回 False.
string.isdigit()	如果 string 只包含數字則返回 True 否則返回 False.
string.islower()	如果 string 中包含至少一個區分大小寫的字符，並且所有這些(區分大小寫的)字符都是小寫，則返回 True，否則返回 False
string.isnumeric()	如果 string 中只包含數字字符，則返回 True，否則返回 False
string.isspace()	如果 string 中只包含空格，則返回 True，否則返回 False.
string.istitle()	如果 string 是標題化的(見 title())則返回 True，否則返回 False
string.isupper()	如果 string 中包含至少一個區分大小寫的字符，並且所有這些(區分大小寫的)字符都是大寫，則返回 True，否則返回 False
string.join(seq)	以 string 作為分隔符，將 seq 中所有的元素(的字符串表示)合併為一個新的字符串
string.ljust(width)	返回一個原字符串左對齊,並使用空格填充至長度 width 的新字符串
string.lower()	轉換 string 中所有大寫字符為小寫
string.lstrip()	截掉 string 左邊的空格
string.maketrans(intab, outtab])	maketrans() 方法用於創建字符映射的轉換表，對於接受兩個參數的最簡單的調用方式，第一個參數是字符串，表示需要轉換的字符，第二個參數也是字符串表示轉換的目標。
max(str)	返回字符串 str 中最大的字母。
min(str)	返回字符串 str 中最小的字母。
string.partition(str)	有點像 find()和 split()的結合體,從 str 出現的第一個位置起,把字符串 string 分成一個 3 元素的元組 (string_pre_str,str,string_post_str),如果 string 中不包含str 則 string_pre_str == string.
string.replace(str1, str2, num=string.count(str1))	把 string 中的 str1 替換成 str2,如果 num 指定，則替換不超過 num 次.
string.rfind(str, beg=0,end=len(string) )	類似於 find()函數，不過是從右邊開始查找.
string.rindex( str, beg=0,end=len(string))	類似於 index()，不過是從右邊開始.
string.rjust(width)	返回一個原字符串右對齊,並使用空格填充至長度 width 的新字符串
string.rpartition(str)	類似於 partition()函數,不過是從右邊開始查找.
string.rstrip()	刪除 string 字符串末尾的空格.
string.split(str="", num=string.count(str))	以 str 為分隔符切片 string，如果 num有指定值，則僅分隔 num 個子字符串
string.splitlines([keepends])	按照行('\r', '\r\n', \n')分隔，返回一個包含各行作為元素的列表，如果參數 keepends 為 False，不包含換行符，如果為 True，則保留換行符
string.startswith(obj, beg=0,end=len(string))	檢查字符串是否是以 obj 開頭，是則返回 True，否則返回 False。如果beg 和 end 指定值，則在指定範圍內檢查
string.strip([obj])	在 string 上執行 lstrip()和 rstrip()
string.swapcase()	翻轉 string 中的大小寫
string.title()	返回"標題化"的 string,就是說所有單詞都是以大寫開始，其餘字母均為小寫(見 istitle())
string.translate(str, del="")	根據 str 給出的表(包含 256 個字符)轉換 string 的字符,要過濾掉的字符放到 del 參數中
string.upper()	轉換 string 中的小寫字母為大寫
string.zfill(width)	返回長度為 width 的字符串，原字符串 string 右對齊，前面填充0
string.isdecimal()	isdecimal()方法檢查字符串是否只包含十進制字符。這種方法只存在於unicode對象。

格式化字符串

%格式化

python2.6之前，沿用C語言的輸出格式，使用 % 格式化字符串。

name = 'xiaoming'
age = 12
print("My name is %s, my age is %d" % (name, age))

student_no = 100
# %06d 含义：如果不到6位，则用0在前边占位，超过或等于6位则正常显示。
print("我的学号是: %06d" % student_no)  # 000100

#支持使用字典的形式：
print('Hello[%(name)s],id=%(name)s' % {'id': 10, 'name': 'World'})

str.format方法格式化

python2.6新增format格式化字符串方法。相比%格式化，有如下優點：

單個參數可以多次輸出，參數順序可以不相同，填充方式靈活。
對齊方式強大。

print("...{索引}, ..., {索引}, ...".format(值1, 值2))
print("...{key1}, ..., {key2}, ...".format(key1=value, key2=value))
name = 'xiaoming'
age = 12
# 索引{}为空，默认按照顺序取值：
print('My name is {}, my age is {}'.format(name, age))
print('My name is {0}, my age is {1}'.format(name, age))
print('My name is {name}, my age is {age}'.format(name, age=12))

#填充对齐
# 先取到值，然后在冒号后设定格式：{索引:[填充字符][对齐方式][宽度]}
# 例如  *<20  表示左对齐，共20个字符，用*号填充
print('{0:*<20}'.format('hellopython'))
# 例如 *>20 表示右对齐，总共20个字符，用*号填充
print('{0:*>20}'.format('hellopython'))
# 例如*^20 表示居中显示，总共20个字符，不够用的*号填充
print('{0:*^20}'.format('hellopython'))
#输出：
#hellopython*********
#*********hellopython
#****hellopython*****

# 位数与进制转换
# 保留2位有效数字
print('{:.2f}'.format(3.1415926))
# 转成二进制
print('{0:b}'.format(16))
# 转成八进制
print('{0:o}'.format(10))
# 转成十六进制
print('{0:x}'.format(15))

print('{:0<20.4f}'.format(3.1415926)) # 结果为3.141600000000000000

f-string

python3.6引入了f-string，比str.format使用簡單，而且效率也更高。f-string是字符串前面加上f，{}直接使用變量、表達式等。

name = 'xiaoming'
age = 12
# {}中直接使用变量
print(f"My name is {name}, my age is {age}")
# {}中运行表达式
print(f'{1+2+3}')
# 调用 python 内置函数
print(f'{name.upper()}')
# 用 lambda 匿名函数：可以做复杂的数值计算
fun = lambda x : x+1
print(f'{fun(age)}')
# 输出
# My name is xiaoming, my age is 12
# 6
# XIAOMING
# 13

字符串格式化時冒號右側的形式規則

format_spec     ::=  [[fill]align][sign][#][0][width][grouping_option][.precision][type]
fill            ::=  <any character>
align           ::=  "<" | ">" | "=" | "^"
sign            ::=  "+" | "-" | " "
width           ::=  digit+
grouping_option ::=  "_" | ","
precision       ::=  digit+
type            ::=  "b" | "c" | "d" | "e" | "E" | "f" | "F" | "g" | "G" | "n" | "o" | "s" | "x" | "X" | "%"

說明：

align中的=，表示把填充字符放在符號之後，數字之前
符號分別表示：+會在正數前添加+號，-會在負數前添加-號，空格會在正數前添加空格。
#表示在十六進制、八進制、二進制整數前添加0x(或0X)、0o、0b
0表示對最小域寬前補零
grouping_option為千分位的分隔符
precision為浮點數的小數位數
type中，整數可用d(或為空)、b、o、x、X，浮點數可用%(百分數)、e、E、f、F、g、G

提示與技巧

字符串連接操作（加法）是代價高昂的。使用百分號格式化或者str.join()做連接操作。但這是在字符串長度超過500-1000字符時才成立 ^[1]

print "Spam" + " eggs" + " and" + " spam"               # DON'T DO THIS
print " ".join(["Spam","eggs","and","spam"])            # Much faster/more common Python idiom
print "%s %s %s %s" % ("Spam", "eggs", "and", "spam")   # Also a pythonic way of doing it - very fast

參考文獻

↑ 'concat vs join - followup' on 'Python Rocks! and other rants 27.8.2004 Weblog of Kent S Johnson'（2004年8月27日）．於2008年8月29日查閱．

[1] 'concat vs join - followup' on 'Python Rocks! and other rants 27.8.2004 Weblog of Kent S Johnson'（2004年8月27日）．於2008年8月29日查閱．

[1]