IP地址定位是查找Internet协议地址的地理位置的过程。IP地理定位技术在当今得到了广泛的应用。例如,公司使用IP地理定位将内容限制在某些国家(例如,电视和电影,通常根据观众的国家获得不同的授权),并根据位置定制广告。互联网研究人员使用IP地理定位来将网络现象与国家联系起来,比如研究文化对社交网络的影响,或按国家和政策划分的计算机犯罪率。此外,知识产权地理定位在执法中至关重要,以确定处理计算机犯罪法规执行的适当管辖权。
一些研究和商业地理定位系统的存在,探索了许多不同的方法。它们形成了三个粗略的类别(第3节):由数据库([11,15])驱动的系统、基于测量的地理定位(如Geoping[15]、CBG [4]等)和目标辅助地理定位(如Skyhook[17])。我们在这里关注的是基于测量的系统,因为它们比数据库方法提供更好的覆盖范围和准确性,并且独立于目标。基于测量的算法都依赖于有利位置(VPs)来主动探测地理定位目标。我们研究了几何类算法和CBG类算法。
[11] David Moore, Ram Periakaruppan, and Jim Donohoe. Where in the world is netgeo.caida.org?, July 2000.
[15] Venkata N. Padmanabhan and Lakshminarayanan Subramanian. An investigation of geographic mapping techniques for Internet hosts. In Proceedings of the ACM SIGCOMM Conference, pages 173–185, San Diego, California, USA, August 2001. ACM.
[4] Bamba Gueye, Artur Ziviani, Mark Crovella, and Serge Fdida. Constraint-based geolocation of Internet hosts. ACM/IEEE Transactions on Networking, 14(6):1219–1232, December 2006.
[17] Skyhook. web page http://www.skyhookwireless.com/.
我们的目标不是发明一个新的地理定位算法,而是了解现有的算法如何可以扩展到数百万个目标和整个IPv4地址空间。我们在将现有的算法扩展到整个互联网时遇到了几个问题。
首先,所有现有的工作都使用相对较小的[4,9],通常是几十个[4,9]。
其次,现有的工作是在一个相对较小的目标集上进行测试的,通常是数百个目标。
选择已知真实值的典型目标来评估算法的精度。目前的算法有数十个vp和数百个目标,每个算法都有所有的vp向每个目标发送许多探针。虽然这个产品都是小的,是合理的,有数百个vp和10亿目标,但产品是大的。其结果是每个VP的大量流量,进入每个目标的繁重流量,其中数百个探测到达目标块中的每个IP地址,以及将这些数据的沉重负荷放在一起。
[9] Ethan Katz-Bassett, John P. John, Arvind Krishnamurthy, David Wetherall, Thomas Anderson, and Yatin Chawathe. Towards IP geolocation using delay and topology measurements. In Proceedings of the ACM Internet Measurement Conference, pages 71–84, Rio de Janeiro, Brazil, October 2006. ACM.
为了将地理位置扩展到整个互联网,我们的第一个贡献是研究了哪些因素影响了基于测量的地理位置协议的地理位置的可伸缩性和准确性。我们表明,流量,包括从vp出站还是入站到目标,都是全互联网地理定位的一个重大限制,并表明更少的vp可以使入站流量易于管理。
然后我们表明,大多数VPs对地理定位没有什么好处,这表明人们只能选择几个VPs来定位每个IP地址,在合理的同时获得合理的准确性,同时大大减少流量。我们对影响准确性的因素提出了三个猜想,并表明使用一些VPs的良好的准确性是可能的(第4.1节)。
我们的第二个贡献是定义新的算法来选择正确的几个VPs(第4.2节)。我们的想法是选择离目标最近的VPs,因为越近的VPs对位置的约束越强。通过对每个/24地址块进行试验测量,VP选择效果很好(第4.2节)。我们的实验结果表明,代表能够识别接近的副总裁,并提供几乎与许多副总裁一样好的准确性。对于最短的Ping,与所有400个VPs相比,10个接近VPs的中值误差相同,而CBG的中位数误差仅差11%
通过本文中概述的方法,我们正在对所有响应性的公共IPv4地址进行地理定位。研究人员[7]可以免费获得这些数据。
[7] Zi Hu, John Heidemann, and Yuri Pradkin. LANDER geolocation datasets. http://www.isi.edu/ant/traces/geolocation, August 2012. Also available through PREDICT (www.predict.org).