最近,我对一个名为Scrapegraph-ai的开源项目产生了兴趣。这个项目结合了网页爬虫和LLM技术,我希望通过深入了解这个项目来探究其内部机制。随着时代的发展,LLM技术必将取代过去的种种应用,因此我对此颇为看好。
本文主要介绍了Scrapegraph-ai项目,并基于该项目实现了一个演示页面。用户可以在该页面输入待爬取的网页地址以及希望从网页中提取的内容,然后点击按钮进行网页抓取和解析。
Scrapegraph-ai是一个基于Python的网页爬虫包,它利用LLM和直接图逻辑(direct graph logic)创建爬虫管道(pipeline),用于处理网页和本地文档(如XML、HTML、JSON)。
GPT-3.5-Turbo免费申请可以在开源项目GPT_API_free中进行访问。该项目提供了免费申请的步骤,以及有关网页插件和桌面应用的安装指南。在我的日常工作和学习中,使用起来非常流畅。
此外,通过使用提供的代理地址https://api.chatanywhere.tech/v1,国内用户也可以访问GPT-3.5。
3.1 安装第三方包
3.2 设置gpt3.5代理环境变量
3.3 创建网页元素
3.4 基于Scrapegraph-ai包构建图配置以及创建图逻辑
3.5 运行启动
3.6 底层原理
通过研读SmartScraperGraph的源代码,我了解到其底层直接图逻辑的原理。它包括抓取、解析、RAG(RAG是什么?)、答案生成,并默认以JSON格式输出。
4.1 新闻类网页
网址:ps://news.sina.com.cn/w/2024-05-20/doc-inavwrxq4965190.shtml
4.2 公众号网页
https://mp.weixin.qq.com/s/rFYXKiedqmVo5URDxlbHzA
对于简单的网页,如新闻网页等,我们可以正常进行爬取,但响应时间可能会超过10秒。对于一些复杂的页面,比如包含鉴权和反爬机制的网页,则可能无法正常爬取。
通过Scrapegraph-ai集成gpt3.5,我们实现了一个简单的网页爬取和解析的演示应用。本文涉及了gpt3.5的免费申请、Scrapegraph-ai的底层原理简介和演示应用源码等内容。
未来,我将会撰写一篇关于Qwen7B和BGE相似度模型的文章,以及与Scrapegraph-ai集成的演示应用。敬请期待~
1. Scrapegraph-ai: https://github.com/VinciGit00/Scrapegraph-ai
2. GPT_API_free: https://github.com/chatanywhere/GPT_API_free