6.4.3 编程案例:文本文件分析

本节讨论一个文件分析程序,其功能是输入一个文本文件,对文件内容进行分词(将字符流划分为单词),然后统计文件中的字符数、单词数、每个单词的出现次数以及行数,最 后输出统计结果。按出现频率前 n 名的单词。这种分析在很多应用中都会用到,例如自然语 言处理、文档相似性比较、搜索引擎等。

分析程序的算法设计是直接了当的,其核心是对多个指标进行累积计数。其中,对字符 数和行数的计数可以利用文件操作的结果直接得到:read()可将整个文件的内容作为一个字 符串返回,字符串长度就是字符总数;readlines()将文件的所有行构成一个列表返回,列表 长度就是行数。至于单词总数,需要先将文件内容(字符串)划分成单词,这可以利用 string 库中的 split 函数实现。既可以对 read()返回的整个字符串分词,也可以通过循环来对 readlines() 返回的每一行字符串分词,我们将采用更简单的前一种方法。下面是实现这一部分工作的示 意代码,其中 f 表示被分析的文件对象:

numchars = len(f.read()) 
numlines = len(f.readlines())
numwords = len(string.split(f.read()))

分析程序中最麻烦的是对每个单词出现次数的累积计数。按照过去介绍的累积算法模式,需要为每一个累积量定义一个累积变量,并在循环中不断更新该变量。然而,这种做法 并不适合现在的场合,因为为文件中可能出现的成千上万个单词各定义一个累积变量显然太 笨拙了,更何况文件中到底有哪些单词是不能预知的。编程解决问题的诀窍之一是使用合适 的数据类型,6.1.2 中介绍的字典正可以在这个场合派上用场。

我们将建立一个字典 worddict,其关键字是文件中出现的单词,值是该单词在文件中出 现的次数,即 worddict[w]等于 w 在文件中出现的次数。在读文件单词的过程中,每当遇到 单词 w,就用下面的语句递增 w 的计数值:

worddict[w] = worddict[w] + 1

不过这里还有一个小麻烦:当首次遇到单词 w 时,字典 worddict 中尚未建立相应的词条, 即 worddict[w]无定义,因此上述递增计数的语句将导致错误(KeyError)。为解决这个小麻 烦,最容易想到的是用条件语句来检测单词 w 是否已经存在于字典中,代码如下:

if worddict.has_key(w): 
    worddict[w] = worddict[w] + 1
else:
    worddict[w] = 1

另一种做法是利用例外处理,通过捕获关键字错误(KeyError)来决定是递增计数还是 首次建立词条。代码如下:

try:
    worddict[w] = worddict[w] + 1 
except KeyError:
    worddict[w] = 1

这个做法在使用字典的程序中很常用,我们的分析程序也采用了这个做法。 除了核心代码,还需补充一些在分词之前对文件字符串进行预处理的代码。其一,将文件内容中的字母都转换成小写,以使单词"WORD"和"word"被识别为同一单词;其二,将文 件内容中的各种标点符号都替换成空格,以使单词"one,two"能被正确地划分为两个单词 "one"和"two",以及"one, two"不被划分为"one,"和"two"①。做这两件事的代码如下:

text = string.lower(text)
for ch in "`~!@#$%^&*()-_=+[{]}\\|;:'\",<.>/?": 
    text = string.replace(text,ch," ")

接下来即可划分单词,并对所有单词进行循环,在循环过程中构造字典 worddict。代码如下:

wordlist = string.split(text) 
worddict = {}
for w in wordlist: 
    try:
        worddict[w] = worddict[w] + 1 
    except KeyError:
        worddict[w] = 1

最后输出分析结果。由于单词可能很多,我们的分析程序只示意性地输出了 5 个单词及 其出现次数。更好的做法是根据出现次数对单词排名,并输出最频繁的前 n 名单词,有兴趣 的读者可以试着完善这个功能。

将以上讨论综合起来,即得完整的文件分析程序。

① 这里的细微差别在于逗号后是否有空格。

【程序 6.2】textanalysis.py

import string
def main():
    fname = raw_input("File to analyze: ") f = open(fname,"r")
    text = f.read() numchars = len(text) f.seek(0)
    numlines = len(f.readlines()) text = string.lower(text)
    for ch in "`~!@#$%^&*()-_=+[{]}\\|;:'\",<.>/?": 
        text = string.replace(text,ch," ")
    wordlist = string.split(text) numwords = len(wordlist) worddict = {}
    for w in wordlist: 
        try:
            worddict[w] = worddict[w] + 1 
        except KeyError:
            worddict[w] = 1
    print "Number of characters:",numchars print "Number of lines:",numlines print "Number of words:",numwords pairlist = worddict.items()
    for i in range(10): 
        print pairlist[i],
main()

注意,由于需要两次读文件(read 和 readlines),所以在第二次读文件之前应将“读写头” 移动到文件开始处,这就是第 8 行的 f.seek(0)所做的事情。

假设有文件 yours.txt,其内容如下:

The life that I have Is all that I have,
And the life that I have Is yours.
The love that I have Of the life that I have
Is yours, and yours, and yours.
A sleep I shall have, A rest I shall have,
Yet death will be but a pause. For the peace of my years
In the long green grass,
Will be yours, and yours, and yours.

则运行程序 6.2 后,将得到如下结果:

File to analyze: yours.txt Number of characters: 315
Number of lines: 14 Number of words: 70
('and', 5) ('all', 1) ('peace', 1) ('love', 1) ('is', 3)