微软开源新工具 MarkItDown,Office 文件轻松转换为
微软在 GitHub 上发布了名为 MarkItDown 的开源 Python 库,用户通过该工具转换后,有助于文本索引、分析等多种应用场景,并支持开发者利用大型语言模型进行图像描述。
附上 MarkItDown 库当前支持的文件格式如下:
PowerPoint
Word
Excel
Images
Audio
HTML
其它各种文本格式
开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:
由于 MarkItDown 库在 MIT 开源许可下可用,因此开发人员可以自由使用、修改和分发它,唯一的要求是他们在分发时包含原始许可证和
