问题描述
我正在尝试创建一个 TreeMap<String,List<String,Integer>>
。
条件是
- 如果一个词不存在:将该词插入到树状图中,并将该词与一个 ArrayList(docId,Count) 相关联。
- 如果该词存在于 TreeMap 中,则检查当前 DocID 是否与 ArrayList 中的匹配,然后增加计数。
下面是我正在使用的代码。
public class stemTreeMap
{
private static final String r1 = "\\$DOC";
private static final String r2 = "\\$TITLE";
private static final String r3 = "\\$TEXT";
private static Pattern p1,p2,p3;
private static Matcher m1,m2,m3;
public static void main(String[] args)
{
BufferedReader rd,rd1;
String docid = null;
String id;
int tf = 0;
//CountPerDocument cp = new CountPerDocument(docid,count);
List<CountPerDocument> ls = new ArrayList<>();
Map<String,List<CountPerDocument>> mp = new TreeMap<>();
try
{
rd = new BufferedReader(new FileReader(args[0]));
rd1= new BufferedReader(new FileReader(args[0]));
int docCount = 0;
String line = rd.readLine();
p1 = Pattern.compile(r1);
p2 = Pattern.compile(r2);
p3 = Pattern.compile(r3);
while(line != null)
{
m1 = p1.matcher(line);
m2 = p2.matcher(line);
m3 = p3.matcher(line);
if(m1.find())
{
docid = line.substring(5,line.length());
docCount++;
//System.out.println("The Document ID is :");
//System.out.println(docid);
line = rd.readLine();
}
else if(m2.find()||m3.find())
{
line = rd.readLine();
}
else
{
if(!(mp.containsKey(line))) // if the stem is not on the TreeMap
{
//System.out.println("The stem is not present in the tree");
//System.out.println("The stem is not present in the tree: " + line + " The Document is :" + docid);
tf = 1;
ls.add(new CountPerDocument(docid,tf));
mp.put(line,ls);
System.out.println("Inserted string is: "+ mp.get(line));
line = rd.readLine();
}
else
{
if(ls.indexOf(docid) > 0) //if its last entry matches the current document number
{
//System.out.println("The stem is present for the same docid so incrementing docid: " +line + ":"+ docid);
tf = tf+1;
ls.add(new CountPerDocument(docid,tf));
line = rd.readLine();
}
else
{
//System.out.println("stem is present but not the same docid so inserting new docid: "+line + ":"+ docid);
tf = 1;
ls.add(new CountPerDocument(docid,tf)); //set did to the current document number and tf to 1
line = rd.readLine();
}
}
}
}
rd.close();
System.out.println("The Number of Documents in the file is:"+ docCount);
//Write to an output file
String l = rd1.readLine();
File f = new File("dictionary.txt");
if (f.createNewFile())
{
System.out.println("File created: " + f.getName());
}
else
{
System.out.println("File already exists.");
Path path = Paths.get("dictionary.txt");
Files.deleteIfExists(path);
System.out.println("Deleted Existing File:: Creating New File");
f.createNewFile();
}
FileWriter fw = new FileWriter("dictionary.txt");
fw.write("The Total Number of stems: " + mp.size() +"\n");
/*Set<Map.Entry<String,List<CountPerDocument>>> entries = mp.entrySet();
for(Map.Entry<String,List<CountPerDocument>> entry : entries)
{
fw.write(entry.getKey() + entry.getValue());
} */
Iterator<Map.Entry<String,List<CountPerDocument>>> iterator = mp.entrySet().iterator();
Map.Entry<String,List<CountPerDocument>> entry = null;
while(iterator.hasNext())
{
entry = iterator.next();
fw.write(entry.getKey() + "=>" + entry.getValue() + "\n" );
}
//System.out.println(mp.get("todai"));
fw.close();
}catch(IOException e)
{
e.printstacktrace();
}
}
}
为了创建 ArrayList 我正在使用类
public class CountPerDocument
{
private final String documentId;
private final int count;
CountPerDocument(String documentId,int count)
{
this.documentId = documentId;
this.count = count;
}
public String getDocumentId()
{
return this.documentId;
}
public int getCount()
{
return this.count;
}
@Override
public String toString()
{
return this.documentId + "-" + this.count;
}
}
当我尝试通过打印 mp.get(line)
来打印我在地图中插入的内容时,得到的输出如下:
stem is: attempt
DocId is: LA010190-0002TF is : 1
Inserted string is: [LA010190-0001-1,LA010190-0001-1,LA010190-0002-1,LA010190-0002-1]
我不知道为什么要插入这么多。是我打印输出错误,还是我选择的方法有问题?
解决方法
原始与对象
Java 集合保存对象(对象引用,从技术上讲),而不是原语。因此在定义 int
时不能使用 List
。使用 Integer
类,int
原语的 OOP 等价物。
List
是一种类型
没有List < String,Integer >
这样的东西。列表是一个单个列表,其中包含一系列属于同一种类型的元素。您可以有 List < String >
或 List < Integer >
,但不能有组合。
地图地图
显然,您想对多个文档进行字数统计,同时跟踪文档中每个单词的使用次数。您希望将每个单词与一个集合相关联,该集合将每个文档与该文档中该单词的计数相关联。
用于关联对象的集合是 Map
。因此,您需要一个将每个单词映射到另一个映射的映射,即文档标识符到计数的映射。也就是说,一个键是字符串,值是一个映射的映射。每个词都有一张地图。
Map< String,Map< String,Integer > >
...其中第一个 String
是指被计数的单词,第二个 String
是指文档标识符。
你的逻辑应该是这样的:
当您遇到每个文档的每个单词时,在外部映射中找到该单词作为键。如果未找到,则将密钥和新的空内部映射放入外部映射中。此时,您手头有一个内部映射,可以是预先存在的内部映射,也可以是新的空内部映射。
在该内部映射中,搜索文档标识符。如果未找到,请将文档 ID 与设置为零的新 Integer
一起放入。因此,现在您可以使用现有的 Integer
或新的 Integer
。向该 Integer
添加一个以获得新的 Integer
。将带有新整数的文档 ID 放回内部映射中。
或者,您可以使用 AtomicInteger
代替 Integer
。然后你可以调用它的递增方法,而不是用另一个不可变的 Integer
替换一个不可变的 Integer
。
你必须是学生做功课,剩下的就交给你了。
提示:请注意,用简单的散文写出您的逻辑是如何在您编写代码时提供说明和大纲的。