c++编写一个简单的软件

发表时间：2022-03-25来源：网络

使用C++编写一个DHT爬虫，实现从DHT网络爬取BT种子

1、前言2、相关术语2.1、P2P网络2.2、DHT网络2.3、Kademlia算法2.4、KRPC协议2.5、MagNet协议3、BT下载的一些概念梳理3.1、BT软件下载原理3.2、迅雷获取种子的速度为什么那么快3.3、资源时效性问题3.4、好用的BT软件3.5、有没有已经编写好的DHT爬虫4、使用C++编写DHT爬虫4.1、实现原理4.2、实现DHT协议4.2.1、创建UDP服务4.2.2、加入DHT网络4.2.3、报文解析4.2.4、对不同类型报文进行处理、回复4.2.5、隐藏自己，防止被其他节点拉进黑名单4.2.6、获取info_hash和peer4.3、实现BitTorrent协议4.3.1、HandShake（握手）4.3.2、Extend HandShake（扩展握手）4.3.3、获取metadata4.3.4、制作torrent文件4、总结

1、前言

通过前面两篇文章的科普，相信大家都一定程度上了解了DHT网络和BT种子的相关知识了，不了解也没关系，可以倒回去看下面两篇文章：

B编码与BT种子文件分析，以及模仿json-cpp写一个B编码解析器DHT协议介绍

虽然前面介绍了很多理论相关的知识，但是光有这些理论是没用的，中看不中用，接下来我们就实战一下，自己编写一个DHT爬虫，达到种子自由的目的，不对，是达到提高我们编程水平的目的。

2、相关术语

2.1、P2P网络

对等计算（Peer to Peer，简称p2p）可以简单定义成通过直接交换来共享计算机资源和服务，而对等计算模型应用层形成的网络通常称为对等网络。相信大家都用过迅雷等p2p软件，这里就不赘述了。

2.2、DHT网络

DHT（Distributed Hash Table，分布式哈希表），DHT由节点组成，它存储peer的位置，是一种分布式存储方法。在不需要服务器的情况下，每个客户端负责一个小范围的路由，并负责存储一小部分数据，从而实现整个DHT网络的寻址和存储，其中BT客户端包含一个DHT节点，用来联系DHT中其他节点，从而得到peer的位置，进而通过BitTorrent协议下载。
简单点来说DHT就是负责管理提供信息和服务节点的管理与路由功能，这里有两个需要区分的概念：

peer：是在一个 TCP 端口上监听的客户端/服务器，它实现了BitTorrent协议节点：是在一个 UDP 端口上监听的客户端/服务器，它实现了DHT(分布式哈希表) 协议

2.3、Kademlia算法

Kademlia是DHT网络的一种实现。在Kademlia网络中，距离是通过异或(XOR)计算的，结果为无符号整数。distance(A, B) = |A xor B|，数值越小表示越近两个节点越接近，详细说明可以自行百度查阅。

2.4、KRPC协议

KRPC是节点之间的交互协议，是由B编码组成的一个简单的RPC结构，它使用UDP报文发送，一个独立的请求包发出去，然后由另一个独立的包来回复（这也是UDP无连接特性所决定的，所以协议中肯定也会有让我们区分报文包的方法），要注意的是这个协议没有重发机制。

2.5、MagNet协议

MagNet协议，也就是磁力链接。是一个通过sha1算法生成一个20字节长的字符串，P2P客户端使用磁力链接，下载资源的种子文件，然后根据种子文件下载资源。

3、BT下载的一些概念梳理

3.1、BT软件下载原理

BT软件使用DHT协议，通过击鼓传花的方式，在DHT网络上搜寻磁力链接对应的资源，当找到拥有此资源的peer之后，使用BitTorrent协议先将种子下载下来，然后根据种子文件内容下载对应的资源。

3.2、迅雷获取种子的速度为什么那么快

从理论上来讲，由于BT软件要先去DHT网络搜寻种子，这个过程时需要耗费一定时间的，所以要做到大部分资源都迅速响应是不可能的，迅雷那么快的原因只有一个，就是迅雷自己有种子库，里面缓存了其他用户下载过的种子或者迅雷自己平时在DHT上面爬取的种子。

3.3、资源时效性问题

当DHT网络上持有某一资源的peer全部停止工作后，资源自然也就下不了了，迅雷由于自己有服务器缓存了以往一些热门的资源，所以往往会给人造成资源还在的假象，其实此时是迅雷自己充当服务器给你下发资源而已（这也就是为什么有些资源充了VIP才能下的原因了，毕竟服务器不能让你白用）。

3.4、好用的BT软件

既然BT的原理都是DHT协议加上BitTorrent协议，所以不同软件下载速度啥的应该差别不大（有服务器缓存支撑的软件除外），比较出名的BT软件有迅雷、uTorrent、、比特彗星、Transmission、aria2等等，大家可以自行去百度去搜索。

3.5、有没有已经编写好的DHT爬虫

答案当然是有的啦，所有BT软件肯定都实现了DHT协议和BitTorrent协议，可以看一些开源的BT软件里面的实现方法，有个叫做libtorrent的库非常著名，很多BT软件都是将其套个壳做出来的，只不过代码写的比较复杂，看起来有点难受。于是乎就想看看有没有人已经用比较简单的方式实现了DHT爬虫，而通过查阅了很多文章，发现有些人是只实现了DHT协议，然后拿那些通过DHT网络爬取到的hash去开源种子库获取种子，有些就是没有把BitTorrent协议的实现方法开源出来，所以萌生了自己做一个完整的DHT爬虫的想法（开源库无法获取到最新的资源，而且速度肯定是不如直接在DHT网络爬取的）。

4、使用C++编写DHT爬虫

4.1、实现原理

伪装成DHT节点加入DHT网络中收集信息，爬虫主要收集get_peer、announce_peer这两个请求的信息。当收到get_peer或者announce_peer的请求时，直接使用BitTorrent协议从请求发起者下载对应的种子信息（获取不到种子的概率会比较大，原因大家自行完整看一下DHT协议就明白了）
这里有一个疑问，要如何加入DHT网络，通过查看其他大神们的开源代码，我发现基本都是ping下面三个节点来加入DHT网络的

域名端口router.utorrent.com6881router.bittorrent.com6881dht.transmissionbt.com6881

4.2、实现DHT协议

4.2.1、创建UDP服务

创建一个UDP服务，监听6881端口（DHT默认端口，可以自行修改，理论上啥端口都可以）

4.2.2、加入DHT网络

通过ping上面那几个节点来将自己加入到DHT网络中，这样才能获取到节点的消息，实现如下：

void DhtSearch::ping_root() { std::vector ip_addr = { {"router.utorrent.com", "6881"}, {"router.bittorrent.com", "6881"}, {"dht.transmissionbt.com", "6881"} }; for (auto addr : ip_addr) { struct addrinfo hints, *info; memset(&hints, 0, sizeof(hints)); hints.ai_socktype = SOCK_DGRAM; hints.ai_family = AF_UNSPEC; int error = getaddrinfo(addr.first, addr.second, &hints, &info); if (error) { log_error if (p->ai_family == AF_INET) { send_ping((struct sockaddr_in*)p->ai_addr, ""); log_debug #define XX(str) \ log_error auto value = root.find("t"); if (value != root.end()) { if (value->getType() != BEncode::Value::BCODE_STRING) { XX("\"t\" value is must be string"); } tid = value->asString(); } } // y(始终在顶层) auto type_y = root.find("y"); if (type_y != root.end() && type_y->getType() == BEncode::Value::BCODE_STRING) { std::string value = type_y->asString(); if (value == "r") ret = REPLY; else if (value == "e") { XX("remote reply ERROR value"); } else if (value == "q") { auto type_q = root.find("q"); if (type_q != root.end() && type_q->getType() == BEncode::Value::BCODE_STRING) { std::string v = type_q->asString(); if (v == "ping") ret = PING; else if (v == "find_node") ret = FIND_NODE; else if (v == "get_peers") ret = GET_PEERS; else if (v == "announce_peer") ret = ANNOUNCE_PEER; else if (v == "vote" || v == "sample_infohashes") return -1; else { XX("\"q\" value(" + v + ") is invaild"); } } else { XX("not found \"q\" value"); } } else { XX("\"y\" value(" + value + ") is invaild"); } } else { XX("not found \"y\" value"); } BEncode::Value::iterator body_value; if (ret == REPLY) { body_value = root.find("r"); if (body_value == root.end() || body_value->getType() != BEncode::Value::BCODE_DICTIONARY) { XX("not found \"r\" value"); } } else { body_value = root.find("a"); if (body_value == root.end() || body_value->getType() != BEncode::Value::BCODE_DICTIONARY) { XX("not found \"a\" value"); } } // id { auto value = body_value->find("id"); if (value != body_value->end()) { if (value->getType() != BEncode::Value::BCODE_STRING) { XX("\"id\" value is must be string"); } id = value->asString(); if (id.size() != 20) id.clear(); } else id.clear(); } // info_hash { auto value = body_value->find("info_hash"); if (value != body_value->end()) { if (value->getType() != BEncode::Value::BCODE_STRING) { XX("\"info_hash\" value is must be string"); } info_hash = value->asString(); if (info_hash.size() != 20) info_hash.clear(); } else info_hash.clear(); } // port { auto value = body_value->find("port"); if (value != body_value->end()) { if (value->getType() != BEncode::Value::BCODE_INTEGER) { XX("\"port\" value is must be int"); } port = (unsigned short)(value->asInt()); } else port = 0; } // nodes { auto value = body_value->find("nodes"); if (value != body_value->end()) { if (value->getType() != BEncode::Value::BCODE_STRING) { XX("\"nodes\" value is must be string"); } nodes = value->asString(); } else nodes.clear(); } return ret; #undef XX }

4.2.4、对不同类型报文进行处理、回复

解析完成后，如果报文有效，则进行后续处理，由于我们的需求只是爬取其他人的种子，自己不进行主动查询，所以并不需要完整实现DHT协议，即不缓存其他节点信息，别人的请求有用的就接受，没用的返回一些假的信息给请求节点，通过这种骗、偷袭的方法可以使得编写出的爬虫的复杂度大大降低，接下来分析各个请求的回应方法（不知道DHT协议的请看这篇文章《DHT协议介绍》，请务必看完，不然接下来的内容很有可能无法看懂）

请求类型回复方法PING直接按标准格式回复PONG就行FIND_NODE由于我们并没有缓存其他节点信息，来我们这里查找节点是不可能做到的，所以返回一个空的节点列表给它GET_PEERS这个对于我们是有用的，我们要通过GET_PEERS请求的发起者来下载种子文件，但是由于我们既没有缓存节点，也没有缓存peer，所以回复它一个空列表ANNOUNCE_PEER和GET_PEERS处理方式一样REPLY由于我们始终没有在主动查询任何资源，所以基本不太可能受到回复，收到的话检测报文中有没有nodes，有的话把里面的节点拿出来ping一遍，加入到更多的网络之中

4.2.5、隐藏自己，防止被其他节点拉进黑名单

由于整个过程中欺骗其他节点的成分很大，所以每次回复别人错误信息的时候最好修改一下自己的node id，防止被其他节点加入黑名单

4.2.6、获取info_hash和peer

通过获取GET_PEERS或者ANNOUNCE_PEER消息中的info_hash还有对端地址就可以开始使用BitTorrent协议来下载种子信息了（此时将对端节点视为peer，下载失败的概率会挺大，毕竟对端节点也有可能只是在找种子而已，而不是持有种子在下载资源）

4.3、实现BitTorrent协议

要想实现BitTorrent协议，就得先仔细看完下面两篇官方文档
http://www.bittorrent.org/beps/bep_0009.html
http://www.bittorrent.org/beps/bep_0010.html
里面的介绍非常简短，建议全部看完

4.3.1、HandShake（握手）

从bep_0010中可以看到，握手的报文消息格式为：19的ASCII码 + BitTorrent protocol + \x00\x00\x00\x00\x00\x10\x00\x04 + infohash的十六进制解码 + 二十字节长的nodeid，infohash是种子的hash，nodeid就是我们自己的id了，需要注意的是BitTorrent协议除了握手消息之外的其他所有的消息的开头四个字节是消息长度（不包含长度域），对端收到消息之后，会给你返回一个至少68字节的回复信息（为什么是至少，下面扩展握手那里会讲），至于如何判断对端是接受了我们的握手呢，判断返回信息的第25位和27位即可（这个是看其他开源代码这样写的，具体原因没去深究，通过测试之后证明确实是这样）

// 握手 std::string handshake_message; handshake_message.resize(28); handshake_message[0] = 19; memcpy(&handshake_message[1], "BitTorrent protocol", 19); char ext[8]; memset(ext, 0x00, sizeof(ext)); ext[5] = 0x10; ext[7] = 0x04; memcpy(&handshake_message[20], ext, 8); handshake_message += m_info_hash + m_node_id; m_sock->send(&handshake_message[0], handshake_message.size()); int len = m_sock->recv(buf, BUF_LEN); if (len log_debug log_debug log_debug log_debug log_debug int cur_len = m_sock->recv(buf + len, BUF_LEN - len); if (cur_len = BUF_LEN) break; } if (len i += 2; break; } i++; } if (i log_debug data.append(buf, len); break; } } } delete buf;

下面是请求报文示例

下面是响应报文示例，可以看到第一行第7个字节开始到第四行第3个字节结束，这段是报文消息的元数据，要把他剔除，因为他不属于种子信息，这点和bep_0009描述的一致