SpringBoot+LangChain4j解析pdf文档,不使用默认解析器
首先我们需要引入pdf解析器依赖
<!-- pdf解析器依赖 --><dependency><groupId>dev.langchain4j</groupId><artifactId>langchain4j-document-parser-apache-pdfbox</artifactId><version>1.0.1-beta6</version></dependency>
然后创建一个 config 配置类,配置一个Bean
// 构建向量数据库操作对象@Beanpublic EmbeddingStore store() {// 加载文档进内存
// List<Document> documents = ClassPathDocumentLoader.loadDocuments("content");List<Document> documents = ClassPathDocumentLoader.loadDocuments("content", new ApachePdfBoxDocumentParser());// 构建向量数据库操作对象InMemoryEmbeddingStore store = new InMemoryEmbeddingStore();// 完成文本数据切割和向量化,存储EmbeddingStoreIngestor ingestor = EmbeddingStoreIngestor.builder().embeddingStore(store).embeddingModel(embeddingModel).build();// 调用 ingest 把 文档存进去ingestor.ingest(documents);return store;}