TIKA参考API - Tika教程

用户可以在使用 Tika 的外观类在应用程序中嵌入Tika。它的方法来探索Tika的所有功能。因为它是一个外网类,Tika抽象的背后有其功能的复杂性。除了这一点,用户还可以使用各种Tika类在他们的应用程序。

User Application

Tika 类 (facade)

这是最突出的Tika类库和正面设计模式。因此,抽象所有的内部实现,并提供了简单的方法来访问Tika功能。下表列出该类的构造函数以及它们的描述。

package : org.apache.tika

class: Tika

S.No. 构造函数和说明
1 Tika ()使用默认配置,构建Tika类。
2 Tika (Detector detector)通过接受检测实例作为参数创建 Tika 的外观
3 Tika (Detector detector, Parser parser)创建一个Tika外观通过接受检测和解析器实例作为参数。
4 Tika (Detector detector, Parser parser, Translator translator)创建一个Tika外观通过接受检测器,解析器,并且转换实例作为参数。
5 Tika (TikaConfig config)创建一个Tika外观通过接受TikaConfig类作为参数的对象。

方法和说明

以下是 Tika外观类的重要方法:

S.No. 方法和描述
1 String parseToString (File file)此方法及其所有变种分析作为参数传递的文件,并返回字符串格式提取的文本内容。默认情况下,这个字符串参数的长度是有限的。
2 int getMaxStringLength ()返回由parseToString方法返回字符串的最大长度。
3 void setMaxStringLength (int maxStringLength)设置由parseToString方法返回的字符串的最大长度。
4 Reader parse (File file)该方法及其所有变型解析作为参数传递的文件,并返回 java.io.Reader对象的形式,所提取的文本内容。
5 String detect (InputStream stream, Metadata metadata)该方法及其所有变接受InputStream对象和元数据对象作为参数,检测出给定文档的类型,并返回该文件类型的名称作为字符串对象。这种方法提炼使用 Tika 的检测手段。
6 String translate (InputStream text, String targetLanguage)此方法及其所有变种接受InputStream对象,并表示,我们希望我们的文字被翻译语言的字符串,并把特定的文本所需的语言,尝试自动检测源语言。

解析器接口

这是Tika包的所有解析器类实现的接口。

package : org.apache.tika.parser

Interface : Parser

方法和说明

以下是TikaParser接口的重要方法:

S.No. 方法及描述
1 parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)这个方法将给定的文档解析到XHTML和SAX事件序列。解析后,将放置在ContentHandler类的对象,并在元数据的类的对象的元数据,所提取的文件的内容。

Metadata 类

这个类实现了各种接口,如素材,地理,HttpHeaders,消息,微软Office,气候预测,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable接口,支持各种数据模型。下表列出了构造函数和这个类的方法及其说明。

package : org.apache.tika.metadata

class : Metadata

S.No. 构造方法及描述
1 Metadata()构造一个新的,空的元数据。
S.No. 方法及描述
1 add (Property property, String value)增加了一个元数据属性/值映射到给定的文件。使用此功能,可以将该值设置为一个属性。
2 add (String name, String value)增加了一个元数据属性/值映射到给定的文件。使用这种方法,我们可以使用新名称的值设置为一个文件,从现有的元数据。
3 String get (Property property)返回给定的元数据属性的值(如果有的话)。
4 String get (String name)返回给定元数据的名称的值(如果有的话)。
5 Date getDate (Property property)返回日期的元数据属性的值。
6 String[] getValues (Property property)返回的元数据属性的所有的值。
7 String[] getValues (String name)返回给定元数据的名称的所有的值。
8 String[] names()返回元数据对象的元数据元素的所有的名字。
9 set (Property property, Date date)设置给定的元数据属性的日期值
10 set(Property property, String[] values)设置多个值到一个元数据属性。

语言类标识符

此分类标识了特定内容的语言。下表列出了这个类的构造函数以及它们的描述。

package : org.apache.tika.language

class : Language Identifier

S.No. 构造器和说明
1 LanguageIdentifier (LanguageProfile profile)实例化的语言标识符。在这里必须通过一个LanguageProfile对象作为参数。
2 LanguageIdentifier (String content)这个构造函数可以通过从文本内容传递一个String实例化一个语言标识符
S.No. 构造器和说明
1 String getLanguage ()返回给当前LanguageIdentifier对象的语言。