`

内容解析工具:TIKA

 
阅读更多

一、TIKA是什么

 

        它是这样的一个工具集:使用已有的各种解析库(parser libraries),从各种类型的文档中,探测、抽取其中的头数据(metadata)和结构化文本内容。

 

二、TIKA的作用

 

       1.能识别文档类型、编码、语言、其他属性

       2.抽取文档内容

 

三、获取TIKA

 

       1.得到TIKA:http://tika.apache.org/download.html

                             要是不想不想重新打包项目,可以直接下载:tika-app-1.3.jar



 

       2.得到MAVEN:http://maven.apache.org/download.cgi

      

      3.设置JAVA_HOME变量

    

      4.用mven来编译项目了。

         下面用的是我的解压路径。在tika的目录中打开cmd,运行maven

 

 最后会在每个项目中生成target目录,里面有jar文件



 

 四、TIKA的简单用法

 

Tika tika=new Tika();
		//System.out.println(tika.parseToString(new URL("http://www.taobao.com")));
//		System.out.println(tika.parseToString(new File("TikaSample.class")));
		String[] tt=new String[]{"E:\\lucene\\test_tika\\1.class",
				                  "E:\\lucene\\test_tika\\2.txt",
				                  "E:\\lucene\\test_tika\\1.docx",
				                  "E:\\lucene\\test_tika\\1.xls",
				                  "E:\\lucene\\test_tika\\1.pdf",
				                  "E:\\lucene\\test_tika\\1.mp3",
				                  "E:\\lucene\\test_tika\\死神.rmvb"};
		 for (String file : tt) {  
			      System.out.println(file);
			      System.out.println(tika.detect(new File(file))); 
			      String text = tika.parseToString(new File(file));  
			      System.out.print(text); 
	}

 部分效果图:



 

  • 大小: 54.7 KB
  • 大小: 39.2 KB
  • 大小: 40.8 KB
  • 大小: 33.1 KB
  • 大小: 10.3 KB
分享到:
评论

相关推荐

    tika-app-1.14 文本解析文件内容抽取

    Tika是Apache下开源的文档内容解析工具,支持上千种文档格式(如PPT、XLS、PDF)。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现,可用于搜索引擎索引、内容分析、转换等场景。

    利用TikaAPI解析各种文档

    利用开源工具Tika解析PDF文档,HTML文档,微软形式的文档

    tika:Apache Tika的镜像

    欢迎使用Apache Tika Apache Tika TM是使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。 Tika是的项目。 Apache Tika,Tika,Apache,Apache Feather徽标和Apache Tika项目徽标是The Apache...

    apache tika jar包

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。  功能包括:  侦测文档的类型,字符编码,语言,等其他现有文档的属性。  提取结构化的文字内容。...

    tika_1.10_API (CHM格式)

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 功能包括: 侦测文档的类型,字符编码,语言,等其他现有文档的属性。 提取结构化的文字内容。 该...

    apache tika 1.13 源码及构建好的库(part 1 )

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 功能包括: 侦测文档的类型,字符编码,语言,等其他现有文档的属性。 提取结构化的文字内容。 该...

    ofd-parser:OFD文件的Apache Tika解析器

    OFD解析器OFD(开放式固定格式文档)

    apache tika 源文件

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。  功能包括:  侦测文档的类型,字符编码,语言,等其他现有文档的属性。  提取结构化的文字内容。...

    tika-ffmpeg:一个 Apache Tika 解析器,它使用 FFmpeg 命令行工具从音频和视频文件中提取元数据

    概述一个解析器,它使用命令行工具从音频和视频文件中提取元数据。 元数据是使用一部分以类似 XPath 的语法报告的,即: pbcore:instantiationDuration=00:00:01.07pbcore:instantiationDataRate=362 kb/spbcore:...

    tika-app-1.19.1.jar

    tika-app.1.19.1.jar,轻松提取文本正文的工具。。。。

    apache tika 1.13 源码及构建好的库(part 2 )

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 功能包括: 侦测文档的类型,字符编码,语言,等其他现有文档的属性。 提取结构化的文字内容。 该...

    CTAKESContentHadler:这是将 Apache cTAKES 支持添加到 Apache Tika 的初步工作

    是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。 是一种自然语言处理系统,用于从电子病历临床自由文本中提取信息。 CTAKESContentHandler允许在 Tika 中执行以下步骤: ...

    java验证文件真实格式和编码格式工具类

    java验证文件真实格式和编码格式工具类,验证文件的文件格式和文件的编码格式给出正确的文件类型以及编码格式,从此解决文件解析乱码问题的烦恼

    StringsParser:字符串解析器的初步工作

    字符串解析器这是在使用 (或 strings-alternative)命令的初步工作。入门该存储库包括 StringsParser 的实现,这是一个使用 strings 命令从二进制文件中提取 ASCII 字符串的解析器。 使用 build.sh 和 run.sh 脚本...

    机器学习和自然语言处理

    首先我们要意识到预处理的重要性。在大数据的背景下,越来越多的非结构化半结构化文本。如何从海量文本中抽取我们需要的有价值的知识显得尤为重要。...Tika是一个内容分析工具,自带全面的parser工具类,能解析基本

    Simple-Search-Engine-with-Apache-Lucene-Core

    使用Apache Lucene核心的简单搜索引擎 这是“信息检索大师课程”中的一个课程项目。 在这个项目中,我使用Apache Lucene核心库创建了一个简单的搜索引擎。... 2- Tika库(HTML解析器库) 3-卢克指数工具箱

    GeoParser:从任何文件提取并可视化位置

    Geoparser是一种软件工具,可以处理来自任何类型文件的信息,提取地理坐标并可视化地图上的位置。 有兴趣查看信息或数据的地理表示形式的用户可以选择使用Geoparser,通过搜索索引或从计算机上载文件来搜索位置。 ...

Global site tag (gtag.js) - Google Analytics