普通人也会用的9个语料库网站,做研究、学外语的来说说
- 时间:
- 浏览:195
- 来源:少儿教育在线
提到语料库,或多或少或多或少人脑中浮现出你这个的场景——
不可能你这个的——
但不可能,语料库都都可以是大伙儿作(语言)研究、学英语的好帮手。比如,给你在你这个语料库查去更地道的英语表达,也都都可以看到欧洲各国的英语口音。
今天就为大伙儿推荐9个语料库网站——
1. 语言特性世界地图集
Word Atlas of Language Structure
知道阿伯卡茨语有多大元音跟声调?波罗罗语的构词有几种特性?恰卡通戈米斯特克语有几种声调?
想回答你这个想法?
你应该的也是登陆你这个名为The World Atlas of Language Structures Online(语言特性世界地图册,简称WALS)的网站
这里有各种语言分布的详尽地图,有关于世界上2600多种语言19另有另有一一两个多语言学特性的详尽记录,非常至少语言爱好者。
嗯,妈妈又或多或少或多或少用担心我被多语狂魔们实力嘲讽了,随便选出另有另有一一两个多语言掌握一下,足以技惊四座!
详细的使用手册以及更多精彩内容,午餐早已备好,
2. 语言口音档案馆
the Speech Accent Archive
大伙儿学英语那么多年,基本上属于身经百战了,哪个地方的英语口音没听过,你这个纯正伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林街头腔,那是如数家珍。
很久,你看到刚果金非洲小哥的英语口语嘛?你知道玻利维亚大妈的英语口音嘛?喏,你这个名为the Speech Accent Archive的网站绝对都都可以满足大伙儿英语语音控的搞笑愿望。
该数据库搜集了几百名来自欧洲各国,不同民族语言背景的大伙儿对于同一段文字的音频资料,主次录像却详细记录了录音提供者的详尽背景资料普通人如保学英语,主次语音也更具体的进行了转写。
对于研究者来说,可视之为研究英语使用者发音特点的独门利器;对普通人来说,则是另有另有一一两个多认识各地英语口音的难得窗口。
3. 当代中国英语语料库
COCA
想知道某个词汇在新闻和电影中的使用有多大变化?英文写作的后后想知道自己写下来的英语搭配够严重不足地道?想知道背下多大单词就都都可以流利阅读各种电影报纸?
嗯,你都都都可以的也是另有另有一一两个多语义容量很大的英语语料库,COCA恰好都都可以迎合你的你这个需求。
当代中国英语语料库(Corpus of Contemporary American English,简称COCA)是现在最大的免费英语语料库。
语料库由包括4.5亿词的文本组成英语培训,文本分为口语、小说、流行刊物、报纸包括文学文章有有一种不同的体裁。单词,短语,搭配,想搜你这个搜你这个,富足的英语语料很至少英语学习者知道地道表达。
再一份具体使用指南倾情奉里,(注:目前COCA界面和该文章写出时稍有出入,但大致操作步骤还值得参考)。
4. 儿童语音语料库
CHILDS
午餐君另有另有一一两个多有过那么另有另有一一两个多间题,将来即使成功升级为孩儿他妈,一定能让自己儿子学唱歌的过程进行音频,很久安心保存,除理,分析,说不定都都可以研究出语言习得的真谛,很久阐述理论,一战封神,著书立说,设馆招徒,麾下天启四骑士,再后后作为老牌公知(喂喂喂!快醒醒!你个单身狗!)
不过虽然回来,实际记录儿童语言你这个间题早都不专家付诸实践了,大伙儿仍成立了另有另有一一两个多总量庞大的儿童语音语料库CHILDES(Child Language Data Exchange System)。
儿童语言数据交流平台是在儿童语言研究相关行业被更广泛使用的语料库,创立于上世纪八十年代,涵盖了多门语言中儿童习得者的语音记录。根据专家统计,截至600年,已有600余项基于该语料库的研究成果发表( MacWhinney 600)。
在这里,给你找到儿童语言习得过程的详尽音频守护进程池池和转写文本,涉及的母语包括英语,德语,法语,日语,汉语,广东话等等。错过了记录自己牙牙学语的轨迹,或许你这个数据库是另有另有一一两个多不错的摆脱手段。
嗯,你这个也是使用指南:
5.语言学数据联盟
Linguistic Data Consortium
前不久AlphaGo席卷棋坛,人工智能再显神威;提到语言学中的人工智能,大伙儿第一反应算是能是苹果苹果苹果苹果苹果苹果的语音助手Siri。
不过大伙儿有那么想过不可能你有足够的数据资料,辅以适当的土法律方法,做另有另有两自己工智能语言平台不可能并都不那么困难,这不,Linguistic Data Consortium就为你提供了你这个虽然。
你这个上世纪90年代初由宾夕法尼亚尼亚大学发起的数据共享系统,目前尚未由上百所大学加盟,涵盖几百种语言数据,涵盖英语,法语,西班牙语,汉语等十多种语言。
Siri未必无法神奇的听懂使用者的命令,很大程度上得益于其肩头强大的语音数据库,而LDC的强大之处就源于她提供了长期的语音资源,口语对话,新闻广播,电话采访等等。唯一或多或少伤感的是,你这个数据库并都不免费的,不过也别气愤,不可能你有巨大的idea不妨尝试申请一下LDC提供的研究奖励金,另有另有一一两个多就都都可以持续推动你的语言智能理想了。
说了那么多,就差另有另有一一两个守护进程池池池员了...
6. 北大&北语汉语语料库
CCL and BCC
后后说了或多或少或多或少英语数据库,大伙儿再来看看汉语语料库。
汉语语料库里有另有另有一一两个多不得不说,另有另有一一两个多是知名劲旅,北京大学汉语语料库(CCL);另有另有一一两个多是后起之秀,北京语言大学汉语语料库(BCC)。
另有另有一一两个多语料库各有千秋,各有意义,小编或多或少或多或少敢妄下评价,不过有或多或少是累似的,那或多或少或多或少另有另有一一两个多语料库用来作英语研究跟日常搜索(比如教外国人汉语时找例句)都非常不错。
北京大学汉语语料库是英语研究中更主要的语言范例来源,每当使用的后后,都都都可以自豪的说出自己使用的是专家同款语料库,其语义编排得当普通人如保学英语,选泽细致,搜索方便,你这个特点又不可能其广为语言学众所喜爱。北语汉语语料库则拥有更多数据搜索功能,累似都都可以查看搜索词的历时词频变化,学生写作语料等等,语料容量最是超过了巨大的bilion级。
除了此类你这个以外,语言学数据库还有或多或少或多或少或多或少或多或少,比如或多或少强大的专业性语料库,双语平行语料库,多模态语料库,依存树库等等。
在文末午餐君再为大伙儿附上另有另有一一两个多提供语料库索引功能的网站:
你这个名为corpus finder的网站提供了近60种语料库的资料信息和使用链接,感兴趣的同学不妨试试看。
不少大学院系网站里都都都可以提供长期的数据资源跟相关指南,北京外国语大学语料库团队的网站或多或少或多或少另有另有一一两个多不错的选泽,网站提供了长期语料库相关资源,相比美国网站,其汉语数据也更富足。
猜你喜欢