《2024春《大学计算机》课程报告——模板.docx》由会员分享,可在线阅读,更多相关《2024春《大学计算机》课程报告——模板.docx(9页珍藏版)》请在第壹文秘上搜索。
1、十阂儿也入学(华东)CHINAUNIVERSITYOFPETRO1.EUM20232024学年第2学期大学计算机课程报告选题名称XXXXXXXX数据处理分析小组成员学号姓名任务分工备注2001010101代:2001010101李四2001010101王五评价指标教师评分1)文档:结构完整,有条理;格式规范,排版好;语言通顺,错误少(20%)2)数据获取与清洗:过程清晰,方法得当,描述清楚准确(30%)3)数据处理、数据可视化:图表选择合理,方法恰当,描述清晰;界面美观、效果好;数据处理方法科学有效,描述完整、清晰(30%)4)数据分析:分析合理,逻辑性好;结论、观点有说服力(20%)教师评语
2、教师签名:2024年4月30日1 .本课程要求学生把自己或小组实现的实验结果展示出来,重点描述对某个领域数据进行获取、分析、可视化的方法和过程,形成分析结果和结论。因此,课程报告主要包括任务要求、数据获取、分析、可视化展示等数据处理过程的内容。2 .课程结束后,需要提交课程报告(Word文档电子版)、相应数据文件和程序源代码。未提交相关资料者不能参加成绩评定。3 .课程报告要求参考本报告模板撰写,可根据具体情况适当调整,但文档结构要完整、格式排版美观、条理清晰、论述准确。4 .文档撰写不符合要求,或者抄袭他人作品,记零分.报告需保留该模板的首页和本页内容,首页中的“成员”部分(包括任务分工)需
3、要学生自己填写,并改为正常字体。评分、评语由教师填写。提交报告时,请删除这段文字。XXXXXXXX数据处理分析一、任务描述(根据自己选择的网站,进行的数据处理分析等,对自己工作进行任务描述)使用python编写程序处理数据信息。使用Python编写爬虫程序获取最好大学网站近几年大学信息,内容包括最好大学排名、省市、评分等内容,并将获取数据保存到CSV文件或excel文件中,使用PythOn对数据清洗及处理,使用Python对统计分析结果进行可视化,包括,近几年前十名大学变化情况动画、大学排名条形图、各省份大学数量排名柱状图、各省份大学占比饼状图等等二、数据获取与处理(描述清楚数据来源,使用工具
4、,操作步骤,程序结果)1、数据描述数据来源:最好大学网站页面数据获取:最好大学网站的信息(学校排名、省份、评分)并将获这些信息(学校排名、省份、评分)写入CSV或excel表格。2、使用工具Python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展。本次报告,使用到的库有(需要列出代码中需要的所有的库):3、数据获取步骤(需展开详细说明)第一步:从网页上获取HTM1.内容(要有网页截图)。第二步:分析网页内容并提取有用数据(要有网页源代码截图,详细说明数据提取的依据和方法,即如何提取数据)第三步:将获得的数据写入EXCel文件(使用什么库和方法4、数据处理(使用什么库和方
5、法)5、程序代码(代码执行结果与源程序需符合命名要求,并截图)获取数据及输出前20位学校进行验证的代码如下(以2019年为例)文件夹名称:2020大学计算机报告文件名称:学号姓名1)数据爬取与解析代码及运行结果截图SMEtRxmMRunOpciomWindowFWlp#我的击面importrequests,!)mbs4;niportBeautifuISoupEPOItpandasaspd#梅造分页数字列表PagejndeXS=range(0,250,25)Iist(PageJndexs)defdownbdd.aii.mmM:下载所有列表页面的HTM1.用于后幽分析J-PjfthOrt342SM
6、*-(fileE=RESTART:D2020+MtlUg三1900012010郭大保Py=Squeezedtert(30tneI_数据保存成功r=requests.get(url.headers=,T1(HH.4U7261.八ParSjSInglejnmKmmI):f1.statuscode!=200:raiseExceptionCerror)htmlsppend(r.tet)returnhtmls解析单个HTM1.得到数据returnlist(link*,title,(label)soup=BeautifulSoup(html,html.parser)article-items=(soup.
7、find(,.find。山CC.finda(dv,class=tem,)datas=11forarticle-itemarticle-items:图1爬虫程序及运行结果2)将获得全部大学信息存储到EXCel表格中,代码如下,defWriteUIistfiIe(Ulist):withopen(,W,newline=)asfout:writer=csv.writer(fout)columns=(三Twriter.writerow(columns)forrowinulist:writer.writerow(row)3)数据保存到EXcel文件,EXCel文件截图如图2所示:data(O),J1900
8、012010邨大镜resuh次日明2020/5/259222020/5/249:509tSi林PythonFile4KBMicrosoftExceli.10KH。result-ExcelIejesn9!作说明我案等线11XzAA|二力铝VB/U-A-=的贴板Iil字体Id对齐方式R9tft,%,一*ws式袤融一痴式,:文件BSMiA绘图频布周公式KIS审阅蜩家世国国盟度本国罗KR西尼大西耳国班拿朗特大国兰。国全中美欧印日馆俄法英巴印意S土韩西加伊沙澳泰波212345678910111213m151617181920212223242洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洲洋洲洲”亚美亚亚欧欧欧欧美
9、亚欧美欧亚欧美亚亚大亚欧4Al-XA排名年份GNP20181282万亿(128204.523.455,537)20182133万亿(21.334.175.836.880)20182084万亿(20.837.347.000.000)20181985万亿(19.845.251.184.454)2018897万亿(8966.425,298,182)20185.44万亿(5.441.912.207.702)2018464万亿(4.641.067.663,123)2018409万亿(4.088.434.216,693)20183.18万亿(3.180,957,643,991)20183.07万亿(3.0
10、72.868.018,494)2018304万亿(3.043.389.014,136)2018302万亿(3.020.689.099.830)20182.61万亿(2.614.057.252.003)20182.51万亿(Z507.773.305,576)20182.28万亿(2280.970.730,469)2018205万亿(2.045.413.635.095)201819万亿(1.898,750.653.984)2018183万亿(1.831.814016.986)201717万亿(1.698.218.039.343)2018166万亿(1.657.940.355.932)20181.2
11、4万亿(1235210.799,693)20181.23万亿(1225.550.606,884)20181(1154.948,085,917)图2大学数据的excel文件截图4)数据处理代码及运行结果截图(如图1所示)三、数据的可视化展示与分析(详细描述清楚你的数据可视化的工作及分析结果,包含程序实现、运行结果,得出分析结论)1、数据可视化工具python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展。报告中使用XX库和XX库实现数据可视化。(详细列出import的库,如果只有个,就写个)2、先用python对大学排名进行可视化处理如图3(取前十名)(过多会出现名字重叠)
12、代码部分(源程序及运行结果图)HeEdrtFormatRunOptomWndowHelpimportnumpy.r.npmportpandasaspdimportmatplotlib.pyplotpitlmo11matplotlibFEd4ShdlDebugOptiomW=;RESTART:D:2020大学计算机报告1900012010郭大侠.py=三三三matplotlib.rcParams(font.family,J三,SimHei*matplotlib.rcParms,font.size*=20喻制垂直柱状底Ir三-mtet1y=memsk7W由于数据太多,只列了前几个plt.bar(x
13、ry,color=b*)pltjclabel(*title)plt.ylabe.,)plttitle(IW)plt.show()Soiledtext(306brwsI丽保8成加my=df.cor11P三三WfwWj分析性结论:*Q三IB图3排名前十位大学及对应分数3、统计各省份大学数量,各省大学数量及对比绘制柱状图,如图4所示代码部分(如图3)图4各省份大学数量及对比柱状图分析性结论:4、对各省份大学数量占比绘制饼状图,如图5所示代码部分(如图3)分析性结论:5、用Python将各大学所在省份数据处理成词云,代码如下,结果如图6代码部分(如图3)图6大学所在省份词云分析性结论:四、数据获取、处理、可视化完整代码(此处粘贴代码,不要截图)importrequestsfrombs4importBeautifulSoupimportpandasaspd五、遇到的问题与解决方法问题1:爬取时的问题原因分析:找到最好大学网站,网站上仅有20