C#怎么实现简单的爬虫_C#抓取网页HTML并提取文本【爬虫】

最简可行方案：用 HttpClient 抓取网页，用 HtmlAgilityPack 提取文本话说回来，想快速上手一个能用的C 爬虫，其实没那么复杂。核心就两件事：把网页HTML拿下来，再把需要的文本信息提出来。下面这个最简可行方案，能帮你避开绝大多数新手坑。用 HttpClient 抓取网页

最简可行方案：用 HttpClient 抓取网页，用 HtmlAgilityPack 提取文本

话说回来，想快速上手一个能用的C#爬虫，其实没那么复杂。核心就两件事：把网页HTML拿下来，再把需要的文本信息提出来。下面这个最简可行方案，能帮你避开绝大多数新手坑。

用 `HttpClient` 抓取网页 HTML：选对工具，设好参数

第一步，工具选择很关键。直接上 HttpClient 就对了，它现在是.NET中的标准答案。至于 WebClient，基本已经过时；而 HttpWebRequest 又过于底层和繁琐，对于简单爬虫来说属于“杀鸡用牛刀”。HttpClient 天生支持异步、自动管理连接池，还能帮你处理重定向，省心不少。

不过，光有工具还不够，参数设置才是成败的关键。首先，必须设置 User-Agent。很多网站会检查这个请求头，如果缺失或者看起来像个机器人，直接返回403拒绝访问或者给个空页面，让你白忙一场。

其次，读取响应体时，务必使用 await response.Content.ReadAsStringAsync() 这样的异步方式。千万别图省事用同步方法阻塞线程，那会严重影响程序性能。

实例复用是常识：HttpClient 实例应该设计成全局单例，或者通过依赖注入来管理。切忌在每次发起请求时都 new 一个，那样不仅效率低下，严重时还可能耗尽系统的Socket连接。
中文乱码的救星：如果目标页面包含中文，但抓回来是乱码，问题通常出在编码上。服务器可能没有在响应头里正确声明 Content-Type 的字符集。这时候，可以检查 response.Content.Headers.ContentType?.CharSet，如果为空，一个稳妥的后备方案是直接使用 Encoding.UTF8。对于国内一些老站点，也可能需要尝试 gb2312 或 gbk 编码。
给请求加上“保险丝”：一定要设置超时时间，比如 client.Timeout = TimeSpan.FromSeconds(10)。否则，万一遇到DNS解析缓慢或者服务器无响应，你的程序可能会一直挂起。

用 `HtmlAgilityPack` 提取文本：告别正则，拥抱XPath

HTML拿到手了，下一步就是提取文本。这里有个铁律：千万别用正则表达式去解析HTML。标签嵌套、注释、CDATA区块、属性换行……随便一个情况就能让精心编写的正则表达式崩溃。解析HTML，就得用专门的解析器。

在.NET生态里，HtmlAgilityPack 是经过时间考验、最稳定的选择。通过NuGet安装它，你的工作就完成了一大半。它的核心逻辑是先将HTML加载成文档对象模型（DOM），然后你可以用熟悉的XPath或者LINQ去查询节点，最后用 InnerText 属性获取纯净的文本（它会自动去掉标签、合并空白字符）。当然，需要提醒的是，它和所有同类库一样，不执行Ja vaScript，所以对于完全由前端动态渲染的内容是无能为力的。

立即学习“前端免费学习笔记（深入）”；

加载策略：优先使用 doc.LoadHtml(htmlString) 来加载你已经获取到的HTML字符串。避免使用 Load 方法直接传入URL，那会导致库内部再次发起网络请求。
提取的“艺术”：提取正文时，直接写一个复杂的XPath（比如 //article//p | //div[@class="content"]//text()）可能有效，但更健壮的做法是分两步走：先定位到核心内容容器节点（例如 doc.DocumentNode.SelectSingleNode("//main")），再针对这个容器节点查询其下的段落（.SelectNodes(".//p")）。这样即使页面局部结构微调，也不容易导致整个提取失败。
文本后处理：InnerText 提取的文本通常会保留原始的换行符和连续空格。为了得到更整洁的文本，后续往往需要做一些清理工作，比如统一换行符、压缩连续空格并修剪首尾空字符。

遇到 403 / 429 / 空响应？这是反爬虫的“问候”

代码明明没错，却抓不到数据？大概率是触发了网站基础的反爬虫机制。别慌，按顺序检查下面这三件事：

请求头是否“像个人”：确认 HttpClient.DefaultRequestHeaders.UserAgent 已经设置成了一个常见的浏览器标识。光有一个字符串还不够，有些严格的站点还会校验 Accept、Accept-Language 等头信息。用浏览器开发者工具的Network面板看看真实请求是怎么发的，照着模仿是最快的方法。
你的手速是不是太快了：如果请求间隔太短（比如低于1秒），很多网站会认为这是攻击行为，直接返回429（请求过多）或者暂时封禁你的IP。最简单的应对策略就是在连续请求之间加一个延迟，比如 await Task.Delay(1000)。
响应“骗”了你：有时候状态码是200（成功），但返回的HTML字符串长度异常地短（只有几百字节）。这时候别怀疑人生，打开这串HTML看看，里面很可能是一个Ja vaScript跳转脚本，或者是一个验证码页面。这同样需要对比浏览器发出的真实请求来调整你的爬虫。

简单爬虫的边界：这些坑，新手常踩

所谓“简单爬虫”，通常界定为只处理静态页面、单次抓取、无需登录、不涉及分页翻页逻辑。一旦超出这个范围，复杂度会指数级上升。下面这几个点，是新手最容易越界踩坑的地方：

异步的“陷阱”：在控制台程序里使用 async Main 方法时，务必确保对异步方法进行了 await。如果忘记 await，主程序可能会在HTTP请求完成前就退出，导致请求被取消。作为测试，可以用 GetAwaiter().GetResult()，但生产环境不推荐。
InnerText 不是万能的：不要指望用 HtmlNode.InnerText 一键获得完美数据。它会把你选中节点下所有文本（包括表格单元格、