您现在的位置是:主页 > news > 内蒙古兴泰建设集团信息化网站/自媒体平台

内蒙古兴泰建设集团信息化网站/自媒体平台

admin2025/5/13 7:39:59news

简介内蒙古兴泰建设集团信息化网站,自媒体平台,帝国cms论坛,互联网架构师实验对象:Apache Tika实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识目录Apache Tika简介配置Apache Tika运行环境用GUI图形界面进行文件格式转换的尝试用命令行使用Tika在java工程中使用Tika1. Apache Tika …

内蒙古兴泰建设集团信息化网站,自媒体平台,帝国cms论坛,互联网架构师实验对象:Apache Tika实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识目录Apache Tika简介配置Apache Tika运行环境用GUI图形界面进行文件格式转换的尝试用命令行使用Tika在java工程中使用Tika1. Apache Tika …

实验对象:Apache Tika

实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识

目录

Apache Tika简介

配置Apache Tika运行环境

用GUI图形界面进行文件格式转换的尝试

用命令行使用Tika

在java工程中使用Tika

1. Apache Tika 简介

4997109a3a4c6162d3f0f060f388f5cd.png

Apache Tika是一个用java编写的内容检测和分析框架,是Apache的Lucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。

33eaf3ed6d9d37a988d7359c50189aa5.png

Tika诞生历程

Tika 架构

Tika 体系结构的四个模块

语言检测机制

MIME检测机制

Parser接口

Tika Facade类

9b64db03e766b56a0fd02d88c659fea8.png

0c80fc7e0a0154cf8b49f61ac0ce2ca1.png

Tika主要功能

文档类型检测

内容提取

元数据提取

语言检测

2. 配置Apache Tika运行环境

验证java环境

096798f7f4aea97fe369230071bd2073.png

如果没有配置java环境,请下载并配置Java JDK

下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar

c7d95472648bb53ca305e7984a18d525.png

Tika官网的下载页面

在cmd里键入命令打开GUI图形界面

89222ca409f062f642f7b59708a0518e.png

命令行打开tika

b78eb03a30627072eda5ab2f61de36f7.png

3. 用GUI图形界面进行文件格式转换的尝试

编写一个二进制文件tika_test.txt放在C:\目录下

bad9e9225b6e5559c583ef6bab5faae6.png

tika_test.txt

把tika_test.txt拖进gui里,默认显示提取的元数据

ba6ba82a83a5562717ef3fe81fc5770a.png

MetaData

解析成Formatted Text

36cef29a7131891d06ecfea7b5fc6dfd.png

Formatted Text

解析成Plain text

68e38eee31cd3170ce3761861452dc00.png

Plain text

提取Main content 居然是空的

e9273148fb940784648d09791dd86933.png

Main content

解析成XML

8d1b13dd7d114c3397e213233cfe62d2.png

xml

解析成json

00c770abb1d119262282ba0ca15bb1d1.png

json

4. 用命令行使用Tika

先来查看Tika命令行的基本参数

6a620790c901462c44bee501cc622680.png

e20fedddeb2c71d8d35400a6dd52c329.png

877779549f5e1ab8923e1ee58e962072.png

基本参数

用命令把doc解析为text

e4efcdda715cca0e1e435b880c71b603.png

doc

5ad395682eb7c12b912fa90ca7b4d086.png

text

5. 在java工程中使用Tika

在Eclipse中新建Java项目,并导入tika-app-1.14.jar

c1ad3783da8196ed9bc7999fc576523d.png

编写Test.java

import org.apache.tika.Tika;

import java.io.*;

/**

* Created by Administrator on 2017/5/15.

*/

public class Test {

public static void main(String[] args) throws Exception{

//二进制文件路径

String fileName="c:/tika_test.txt";

//二进制文件

File file1 = new File(fileName);

//通过tika获取文件内容

Tika tika = new Tika();

String filecontent = tika.parseToString(file1);

//打印文件内容

System.out.println("Extracted Content: " + filecontent);

try{

//要转换到的文件

File file =new File("c:/ddd.doc");

//文件不存在就新建

if(!file.exists()){

file.createNewFile();

}

//把二进制文件内容写入doc文件

FileWriter fw = new FileWriter(file.getAbsoluteFile());

BufferedWriter bw = new BufferedWriter(fw);

bw.write(filecontent);

bw.close();

System.out.println("Done");

}catch(IOException e){

e.printStackTrace();

}

}

}

运行程序

0f4ce2907414c39ed7e0415972a5ab2c.png

在Eclipse中运行

生成ddd.doc,如下图

3482a78106e9db4c3656a66304c5ec3e.png

e640c6786df37a04f82c5b93d5797eb4.png

生成的doc文件