您现在的位置是:主页 > news > 内蒙古兴泰建设集团信息化网站/自媒体平台
内蒙古兴泰建设集团信息化网站/自媒体平台
admin2025/5/13 7:39:59【news】
简介内蒙古兴泰建设集团信息化网站,自媒体平台,帝国cms论坛,互联网架构师实验对象:Apache Tika实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识目录Apache Tika简介配置Apache Tika运行环境用GUI图形界面进行文件格式转换的尝试用命令行使用Tika在java工程中使用Tika1. Apache Tika …
实验对象:Apache Tika
实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识
目录
Apache Tika简介
配置Apache Tika运行环境
用GUI图形界面进行文件格式转换的尝试
用命令行使用Tika
在java工程中使用Tika
1. Apache Tika 简介
Apache Tika是一个用java编写的内容检测和分析框架,是Apache的Lucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。
Tika诞生历程
Tika 架构
Tika 体系结构的四个模块
语言检测机制
MIME检测机制
Parser接口
Tika Facade类
Tika主要功能
文档类型检测
内容提取
元数据提取
语言检测
2. 配置Apache Tika运行环境
验证java环境
如果没有配置java环境,请下载并配置Java JDK
下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar
Tika官网的下载页面
在cmd里键入命令打开GUI图形界面
命令行打开tika
3. 用GUI图形界面进行文件格式转换的尝试
编写一个二进制文件tika_test.txt放在C:\目录下
tika_test.txt
把tika_test.txt拖进gui里,默认显示提取的元数据
MetaData
解析成Formatted Text
Formatted Text
解析成Plain text
Plain text
提取Main content 居然是空的
Main content
解析成XML
xml
解析成json
json
4. 用命令行使用Tika
先来查看Tika命令行的基本参数
基本参数
用命令把doc解析为text
doc
text
5. 在java工程中使用Tika
在Eclipse中新建Java项目,并导入tika-app-1.14.jar
编写Test.java
import org.apache.tika.Tika;
import java.io.*;
/**
* Created by Administrator on 2017/5/15.
*/
public class Test {
public static void main(String[] args) throws Exception{
//二进制文件路径
String fileName="c:/tika_test.txt";
//二进制文件
File file1 = new File(fileName);
//通过tika获取文件内容
Tika tika = new Tika();
String filecontent = tika.parseToString(file1);
//打印文件内容
System.out.println("Extracted Content: " + filecontent);
try{
//要转换到的文件
File file =new File("c:/ddd.doc");
//文件不存在就新建
if(!file.exists()){
file.createNewFile();
}
//把二进制文件内容写入doc文件
FileWriter fw = new FileWriter(file.getAbsoluteFile());
BufferedWriter bw = new BufferedWriter(fw);
bw.write(filecontent);
bw.close();
System.out.println("Done");
}catch(IOException e){
e.printStackTrace();
}
}
}
运行程序
在Eclipse中运行
生成ddd.doc,如下图
生成的doc文件