組件分享之后端組件——docconv組件將文檔轉換為純文本
背景
近期正在探索前端、后端、系統(tǒng)端各類常用組件與工具,對其一些常見的組件進行再次整理一下溪掀,形成標準化組件專題,后續(xù)該專題將包含各類語言中的一些常用組件步鉴。歡迎大家進行持續(xù)關注揪胃。
組件基本信息
- 組件:docconv
- 開源協(xié)議:MIT License
- 使用與下載:https://github.com/sajari/docconv
內容
本次分享的組件是用于將PDF, DOC, DOCX, XML, HTML, RTF, ODT,頁面文檔和圖像轉換為純文本使用的氛琢,該組件是基于Golang語言開發(fā)的喊递,具體使用如下:
package main
import (
"fmt"
"log"
"code.sajari.com/docconv"
)
func main() {
res, err := docconv.ConvertPath("需要轉換的文件.pdf")
if err != nil {
log.Fatal(err)
}
fmt.Println(res)
}
讀取遠程文件使用如下:
package main
import (
"fmt"
"log"
"code.sajari.com/docconv/client"
)
func main() {
// 使用默認端點創(chuàng)建一個新客戶端 (localhost:8888)
c := client.New()
res, err := client.ConvertPath(c, "your-file.pdf")
if err != nil {
log.Fatal(err)
}
fmt.Println(res)
}
本文聲明:
88x31.png
知識共享許可協(xié)議
本作品由 cn華少 采用 知識共享署名-非商業(yè)性使用 4.0 國際許可協(xié)議 進行許可。