流行的观点表明,70-80%的在线内容是英语,但互联网的语言崩溃令人惊讶地难以验证。许多早期的研究是基于随机的页面抽样,当大型社交媒体网站如脸书可以跨越多种语言时,这是无效的。

对网络语言分段进行分类的其他努力集中在计算网络内容中使用的不同语言中的独特单词的例子。这个方法查看一个单词在英语、法语和汉语中的使用次数。当这种方法在上世纪90年代首次使用时,似乎80%的在线内容都是英文的。使用相同方法的研究表明,英语在线内容的比例继续下降。到2005年,只有45%的内容被认为是英文的,目前估计不到40%。考虑到全球只有约5%的人口以英语为母语,约20%的人认为自己具有一定的语言能力,或许有一些方法可以让互联网更准确地反映世界的语言变异。

人们发现,有一种趋势表明,在英语不是主要语言的国家,互联网的使用增长最快。到2010年,只有超过四分之一的互联网用户以英语为母语,而1996年这一比例超过80%。网络内容的语言特征背后有几个因素。用户生成内容的增加可能在扩大语言多样性方面发挥了作用。虽然用户可能准备与用其他语言编写的网站进行交互,但在生成内容时,他们通常希望用自己的母语进行交互。

英语做为主导的网络语言会被挑战吗?

阿拉伯语和汉语用户的互联网接入显著增长也意味着英语不再是过去在线的主流语言。让新兴市场上网仍有很大进展,许多公民会说英语以外的语言。这代表了一个庞大的语言群体仍然选择加入万维网,并带来自己的语言需求。

显然,世界上的语言多样性在互联网上得到适当反映还有很长的路要走,甚至一些世界上最常用的语言仍然不能满足在线需求。阿拉伯语和印地语等广泛使用的语言仍然只占在线内容的一小部分。虽然马来语是世界上使用最广泛的语言之一,但只有大约四分之一的马来语使用者可以上网。

我们如何在网上提供更多的语言?

那么,需要做些什么来影响变化呢?实现更大的在线语言多样性可能不仅需要为马来语等语言的用户提供访问权限。还需要摆脱现在的情况,即内容创作在地理上和语言上都是集中的。

因为本地化内容的开发既昂贵又有风险,所以可能需要开发新的模型来找到分发和利用这种新的内容多样性的方法。

搜索技术也需要适应互联网新的语言特征。搜索引擎很难完全索引社交媒体网络,这意味着一些网络内容仍然不可见。他们试图引导哪些内容倾向于支持英文内容,部分原因是从广告的角度来看这更有利可图。当需要为新的语言群体提供他们自己的内容时,这可能是另一个需要克服的挑战。

一些大型跨国平台正试图将其产品扩展到更大的语言。谷歌正在积极瞄准讲印度语的人,尤其是印地语,以便在早期抓住这个新兴市场。为了更大的语言市场,这种融入新语言群体的动机显然是值得的。谷歌认为其在印度的活动可以接触到5亿互联网用户,这些用户来自具有潜在消费能力的新兴中产阶级,因此投资使用最广泛的印度语言显然是值得的。

脸书还扩大了它支持的语言数量——它现在可以处理世界上7000种语言中的70种。为了扩大语言选择,社交媒体巨头已经将翻译应用开放给自愿翻译。理论上,这种翻译模式允许它快速增加它提供的语言数量,但在实践中,提供的新语言选项的数量是有限的。尚不清楚脸书的计划是进一步扩大其语言产品。

无论如何,对于现有的参与者来说,扩展他们的服务以包括其他语言可能不是最好的。捷克本土搜索平台Seznam声称,其本地知识可以成功地与全球巨头竞争。Seznam提供了对本地用户很重要的功能,比如每日更新的本地地图,这是巨型竞争对手无法提供给市场规模的。Seznam有1000名员工。Seznam可能在一个足够大的市场中运营,足以让当地运营商蓬勃发展,但对于一家大型跨国公司来说。公司太年轻了,不能投入太多精力去迎接挑战。

这就引出了一个很难看的问题,是否只有盈利的语言群体才会在网上提供自己的语言内容。这可能是一个风险,除非我们找到新的方法来为较小的语言群体创建、分发和货币化内容。