近期遇到这样一个问题:写一个程序,分析一个文本文件(英文文章)中各个词出现的频率,并且把频率最高的10个词打印出来。
解决这个问题我认为要解决这样几个问题:
1)如何实现文本文件中数据的有效读取;(这个本人对文件操作不太熟练,所以单独拿出来当做一个问题)
2)如何从读出的数据中分析出一个一个的单词;
3)如何累计计算出每个单词的出现次数;
4)如何为每词出现的次数排序,打印出出现次数前10的单词;
5)算法的效率问题,即对整个文本文件中数据的遍历次数;
初步代码如下:
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#define
MAX 1000000
void main(){
struct Word{
char
word_str[20];
int mount;
}word[MAX],temp;
FILE
*fp;
char ch;
int
flag=0;//指示前一个字符是不是非英文字母字符,前一个字符是非英文字母置flag=0,不是非英文flag=1
int
i=0,j=0,k=0;//计数
for(i=0;i<MAX;i++){//初始化各单词数量为0
word[i].mount=0;
}
i=0;
if((fp=fopen(".\\eng.txt","r+"))==NULL){
printf("无法打开此文件");
exit(0);
}
while(ch!=EOF){//这里对于处理最后一个符号不是非英文字母的文章有bug,有改进空间
ch=fgetc(fp);
if(((ch>=‘a‘&&ch<=‘z‘)||(ch>=‘A‘&&ch<=‘Z‘))!=0){
flag=0;
i++;
j=0;
for(k=0;k<i-1;k++){
if(strcmp(word[i-1].word_str,word[k].word_str)==0){
word[k].mount++;
i=i-1;
break;
}
}
}
else{
flag=1;
word[i].word_str[j]=ch;
word[i].word_str[j+1]=‘\0‘;
j++;
}
}
fclose(fp);
for(k=0;k<=i-1;k++){
for(j=k+1;j<=i-1;j++){
if(word[k].mount<word[j].mount){
temp=word[k];
word[k]=word[j];
word[j]=word[k];
}
}
}
printf("下面输出使用频率最高的10个单词(相等频率超出10个不计)\n");
for(k=0;k<10;k++){
printf("%s
\n",word[k].word_str);
}
}
运行没有错误,但是不出结果,很是郁闷。3个小时的成果,也就这样。下周继续吧。
然后希望有编程高手大大指点一下O.o (如果您有时间想指点小子,请联系qq:1766388993)
TO BE CONTINUED...