如何使用 Socket 编程实现网络爬虫？

发表于2023年10月24日2023年7月15日作者 IT之美

使用Socket编程实现网络爬虫主要涉及以下步骤:

获取URL列表:获取需要爬取的URL列表,可以从文件、数据库或者初始种子URL获取。
解析URL:解析每个URL,获取PROTOCOL、HOST、PORT、PATH等信息。
建立连接:根据URL解析结果,连接相应的服务器和端口。
发送请求:构造HTTP请求信息,如GET请求,通过Socket发送给服务端。
获取响应:接收服务端响应,获取HTTP状态码和响应头信息。
解析响应:判断状态码是否正常,获取网页正文内容长度和编码格式等。
读取网页内容:循环读取内容直到获取完整网页正文。
提取链接:从网页HTML正文中提取新的URL链接。
重复步骤3-8:重复连接新的URL,获取并解析网页,提取URL,实现自动爬取。
数据存储:将爬取到的网页数据存储到文件或数据库。

代码示例:

// 网络爬虫 
public void crawl(String url) throws IOException {
    URI uri = new URI(url);
    String host = uri.getHost();
    int port = uri.getPort();
    Socket socket = new Socket(host, port);   

    // 发送GET请求
    String request = "GET " + uri.getPath() + " HTTP/1.1\r\n";
    request += "Host: " + host + "\r\n";
    request += "Connection: close\r\n\r\n";
    OutputStream out = socket.getOutputStream(); 
    out.write(request.getBytes("UTF-8"));

    // 获取响应状态和消息  
    InputStream in = socket.getInputStream();
    String statusLine = readLine(in);
    String[] parts = statusLine.split(" ");
    int statusCode = Integer.parseInt(parts[1]);

    if (statusCode == 200) { 
        // 读取网页内容长度和编码
        int length = -1;
        String charset = "UTF-8";
        while ((line = readLine(in)) != null) {     
            if (line.isEmpty()) break;     
            if (line.startsWith("Content-Length:"))         
                length = Integer.parseInt(line.split(" ")[1]);         
            if (line.startsWith("Content-Type:"))         
                charset = getCharsetFromContentType(line); 
        }  

        // 根据长度读取网页内容
        byte[] htmlBytes = new byte[length];
        in.read(htmlBytes); 
        String html = new String(htmlBytes, charset);

        // 提取新URL并重复下载 
        List<String> links = extractLinks(html);
        for (String link : links) {
            crawl(link);
        }  
    }  
}

除此之外,实际的网络爬虫还需要考虑页面编码检测、爬取深度控制、爬虫识别 evasion 等问题。但Socket实现了其基本的网络通信功能。