基于全球和中国互联网用户使用数据的可视化分析
一、背景介绍
随着互联网技术的迅速发展,互联网已经成为当今社会最为重要和影响深远的技术之一,它已经深刻地改变了人们的生活、工作、学习等方面。而在其中,互联网用户数据是反映互联网发展水平和潜力的重要指标,它可以帮助我们了解不同国家地区在互联网领域的优势和劣势,以及存在的差异和不平衡。
全球互联网用户的数量在过去几十年内呈现出了迅猛增长的趋势,互联网的普及程度与使用习惯也在不断演变。中国作为全球最大的互联网市场之一,其互联网发展情况备受关注。因此,通过对全球和中国互联网用户使用数据进行深入的分析和可视化,我们能够更好地把握互联网领域的发展趋势、地区间的差异,以及预测未来的发展方向。
二、工具以及数据集介绍
工具介绍:Anaconda
版本信息:Anaconda3.11
Anaconda是一个开源的Python和R编程语言的发行版,包含了大量用于数据科学、机器学习和科学计算的工具和库。它简化了环境配置和包管理,提高了开发效率。
第三方库介绍
- numpy库:版本信息:1.26.2 用于进行数值计算,如数组、矩阵、向量等的创建、操作和运算。
- pandas库:版本信息:2.1.4 用于处理数据,如数据的读取、清洗、分组、聚合、合并等。
- matplotlib库:版本信息:3.8.2 用于绘制图形,如折线图、柱状图、饼图等,以及设置图形的样式、标题、标签等。
- seaborn库:版本信息:0.13.0 用于绘制图形,如直方图、散点图等,以及设置图形的主题、颜色等。
- wordcloud库:版本信息:1.9.3 用于配置和生成词云,如设置词云的形状、大小、字体等。
- scikit-learn库:版本信息:1.3.2 用于进行线性回归分析,如创建线性回归模型、拟合数据、预测数据、评估模型等。
- stopwords库 :版本信息:1.0.0 用于过滤掉常见但通常无意义的词汇。
数据集介绍
数据来源链接为:https://www.kaggle.com/datasets/ashishraut64/internet-users
该数据集包含了关于全球互联网用户的信息,时间范围涵盖了1980年到2020年。各字段含义如下所示:
列名 | 含义 |
---|---|
Entity | 国家和地区的名称 |
Code | 国家代码的信息 |
Year | 年份 |
Cellular Subscription | 每100人的移动电话订阅率 |
Internet Users(%) | 访问互联网的人口占全球总人口的比例 |
No. of Internet Users | 各国互联网使用人数 |
Broadband Subscription | 每100人的固定宽带订阅率 |
三、程序功能
可视化分析全球互联网用户每年的各项数据。如全球互联网用户总数的变化、移动互联网订阅数、互联网使用人数比例、宽带订阅数平均值等。
- 绘制1980到2020年全球每年互联网用户数、每年每100人移动互联网订阅数、每年互联网使用人数比例、每年每100人宽带订阅数平均值的变化趋势,展示全球互联网的发展概况。
- 绘制2020年各个国家地区的互联网用户占比的饼图和柱状图,展示全球互联网用户占比的分布情况和差异。
- 绘制2020年各国家地区的互联网用户占比分布直方图,展示全球互联网用户占比的分布特征和偏态。
- 绘制2020年个国家地区互联网用户占比和移动互联网订阅量的散点图,并利用线性回归模型分析两者之间的相关性。
- 绘制每一年互联网用户的比例最大的国家地区名的词云,展示全球互联网领域的优势和影响力。
- 对中国互联网用户数据进行分析和可视化,展示中国在互联网领域的发展水平和潜力,并利用多元线性回归模型预测中国在2030年的互联网总用户数。
四、数据可视化分析
4.1 全球用户每年的各项数据的呈现趋势
从图4.1.1可以看出,全球互联网用户总数呈现出一个快速增长的趋势,尤其是在2000年之后,增长速度显著升高。这说明借由互联网技术的发展和普及,人们对互联网的需求和依赖都在不断增加。
而从图4.1.2可以看出,全球每100人移动端互联网订阅数也呈现出一个快速增长的趋势,尤其是在2005年之后,增长速度更加明显。这表示了通过较为便捷的移动设备的普及,人们对移动互联网的需求和偏好都在不断增加。
由图4.1.3分析可得,全球互联网使用人数比例也呈现出一个快速增长的趋势。互联网已经成为人们生活、工作、学习等方面不可或缺的一部分,互联网的覆盖范围和接入方式都在不断扩大和改善。
而图4.1.4所表现出的内容可知全球每100人宽带订阅数在早些年头呈现出一个缓慢增长的趋势。在2000年后有所提升,但在2010年之后,增长速度有所放缓。这说明宽带网络的发展和普及还有一定的空间和潜力,以及宽带网络的竞争力和吸引力可能受到了移动网络的影响。
总体来说,从1980年到2020年,全球人口参与互联网的人数和积极性不断提高,互联网市场不断扩大,互联网行业在持续蓬勃发展。
4.2 各个国家地区的用户占比的可视化分析
在图4.2.1中,全球互联网用户占比最高的国家地区是中国,占比为20.3%,远高于其他国家地区。这说明中国在互联网领域有着巨大的市场规模和潜力,以及中国在互联网技术、应用、服务等方面有着较强的竞争力和影响力。
除此之外,图中还显示的全球互联网用户占比第二和第三高的国家地区是印度和北美,占比分别为12.1%和9.7%。与中国相比,这两个地区的互联网用户占比还有较大的差距。这说明印度和北美在互联网领域也有着较大的市场规模和潜力,但目前规模仍没有中国大。
在2020年,全球互联网用户占比排名前十的国家地区还包括巴西、印度尼西亚、俄罗斯、日本、墨西哥和埃及。这些国家地区的占比都在1.5%到3.6%之间,相对较低。这说明这些国家地区互联网发展程度有待提高。全球互联网用户占比排名第十一以后的国家地区的占比加起来只有约37%,远低于中国的占比。这说明这些国家地区的互联网发展有较大的不平衡和差距,需要加强互联网技术的普及和提升。
另外,图4.2.2以直方图的形式体现了各个国家地区的用户占比,更加直观地体现了个国家地区互联网用户占比高低排序。
总体来说,在东亚和南亚以及北美地区的互联网用户占比较高,是全球互联网用户的重要群体,其市场规模和互联网行业发展也要好于其他地区。
4.3 各国家地区互联网用户占比的分布
从各国家地区互联网用户占比分布直方图(图4.3.1)中可得国家地区互联网用户占比的分布呈现出一个右偏态的分布,大部分国家地区的互联网用户占比都集中在较低的范围内,而少数国家地区的互联网用户占比则达到了较高的水平。
在2020年,各国家地区互联网用户占比的最高值为100%,最低值为0%,平均值为47.9%,中位数为53.9%,标准差为36.1%。这说明各国家地区互联网用户占比之间的差异性巨大,以及部分国家地区的互联网发展水平还有较大的提升空间。
4.4 分析国家地区互联网用户占比和移动互联网订阅量
为了探究国家地区互联网用户占比和移动互联网之间的相关性,绘制了国家地区互联网用户占比和移动互联网订阅量的散点图(图4.4.1)。由图可得,在2020年,各国家地区互联网用户占比和移动互联网订阅量呈现出一个正相关的关系,即互联网用户占比越高的国家地区,移动互联网订阅量也越高,反之亦然。这说明互联网用户占比和移动互联网订阅量是两个相互影响和促进的指标,反映了一个国家地区的互联网发展水平和便捷程度。
4.5 分析国家地区名词云
在所有1980 - 2020年间出现的国家地区名中,根据用每一年互联网用户的比例最大的三个国家地区词云图4.5.1,出现频率排名前三的国家地区名是Iceland、Norway和Sweden。这说明这些国家地区在互联网领域有着长期的较高的发展水平和优势,以及较高的人口普及率和接入率。其次,出现频率较高的国家地区名还有Bermuda、Denmark、Finland、Moracco、Afghanistan和United_States等。这说明这些国家地区在互联网领域也有着长期的较高的发展水平和优势,以及较高的人口普及率和接入率。
在图中还可以观察到,有些国家地区的出现频率较低或是没有出现,例如China、India、Brazil、Indonesia等。结合4.4中对国家地区互联网用户占比和移动互联网订阅量分析的结果,这些国家地区有些是后起之秀,如中国和印度,有些则在互联网领域还有较大的发展空间和潜力,如巴西和印度尼西亚。
4.6 对中国用户互联网使用数据的可视化分析
对中国的互联网使用数据进行一定的分析,将四个关键因素(用户数量、占人口比例、订阅每一百人比例以及宽带每一百人比例)进行可视化。据图4.6.1,可发现,在1980年到2020年,中国互联网用户数量呈现出一个快速增长的趋势,尤其是在2000年之后,增长速度更加明显。这说明中国在互联网领域有着巨大的市场规模和潜力,以及中国在互联网技术、应用、服务等方面有着较强的竞争力和影响力。中国互联网用户占人口比例也呈现出一个快速增长的趋势,尤其是在2005年之后,增长速度更加明显。这说明中国在互联网领域有着较高的普及率和接入率,以及中国在互联网领域的需求和依赖都在不断增加。
同样的,可以发现中国移动互联网订阅每一百人比例也在增长,尤其是在2005年之后,增长速度更加明显。这说明中国在移动设备领域有着较高的普及率和便捷程度,以及中国在移动互联网领域的需求和偏好都在不断增加。然而,中国宽带每一百人订阅比例呈现出一个缓慢增长的趋势,但在2017年之后,增长速度有所放缓。这说明中国在宽带网络领域还有一定的空间和潜力,以及中国在宽带网络领域的竞争力和吸引力可能受到了移动网络的影响。
图4.6.2展示了1980年到2020年,四个因素的增长率情况。中国互联网用户数量增长率和占人口比例增长率基本为同比增长,在1993 - 2005年之间增长较快之后趋于平稳,这说明中国在互联网领域已经达到了一个较高的发展水平,中国在互联网正在稳步发展。并且,中国移动互联网订阅每一百人比例增长率呈现在1987 - 2005年之间增长较快之后趋于平稳,尤其是在2010年之后,这说明中国在移动设备领域已经达到了一个较高的普及率和便捷程度,以及中国在移动互联网领域已形成良好发展趋势。中国宽带每一百人订阅比例增长率在2000 - 2002年飞速增长之后又下降并趋于平稳。中国宽带每一百人订阅比例增长率飞速增长年份较短。这说明中国在宽带网络领域有一定的空间和潜力,以及中国在宽带网络领域有着较强的竞争力和吸引力。
通过多元线性回归模型对1980到2020年中国互联网总用户数进行拟合,得到了一个拟合曲线(图4.6.3),用来描述中国互联网总用户数随时间的变化规律,以及预测未来中国互联网总用户数。
根据图4.6.4所示,到2030年中国互联网总用户数将达到21.1亿,此预测具有一定的合理性,因为中国互联网用户的各项指标都在飞速增长,中国互联网具有很大的发展潜力与发展活力。当然这个预测也具有一定的局限性,它仅仅只用了单一数据集,也没有考虑中国具体国情,仅仅依托数量的线性增长来分析是较为局限的。这时候需要借助更加高级的模型,同时也要兼顾中国人口老龄化问题,结合中国人口增长速度来进一步分析,这样的预测效果会更好。
五、总结
全球互联网用户总数在过去几十年内迅猛增加,尤其在2000年后呈现出明显的增长趋势。然而,不同国家地区的互联网发展存在显著的差异,中国在2020年成为全球互联网用户占比最高的国家,突显了地区之间的不平衡性。这种差异与互联网用户占比与移动互联网订阅量之间的正相关关系相互交织,表明地区的互联网发展水平和便捷程度密切相关。这些趋势共同描绘了全球互联网行业的动态特征。
总体而言,全球互联网发展显示了技术的不断迭代、普及以及数字生活不断增长的需求。在互联网用户数方面各国差异明显,但一样的是互联网市场生机勃勃,为未来充满挑战的互联网行业提供了机遇。