一個有著百萬本圖書的數(shù)據(jù)庫正嘗試把一項舉措變?yōu)榭赡埽赐ㄟ^統(tǒng)計上幾個世紀(jì)所有出版的單詞數(shù)量,來追蹤文化的趨勢。 Cynthia Graber報道。
人們把這稱作文化基因?qū)W,顧名思義,以“基因?qū)W”的角度來看人類思想和文化的發(fā)展趨勢。 但科學(xué)家們表示,文化基因?qū)W一直受到數(shù)據(jù)量缺乏的阻礙。因此,哈佛大學(xué),谷歌,大英百科全書,以及美國遺產(chǎn)字典的研究者們,發(fā)明了一個工具。
這是一個包括從1500年以來出版的5百20萬本書的數(shù)據(jù)庫,相當(dāng)于歷史上所有出版圖書的4%,共含5千億單詞。研究重點(diǎn)是英語文化,因此三分之四為英文書籍。
初期研究結(jié)果表明每年約有8500個新單詞產(chǎn)生,但它們中的大多數(shù)沒有進(jìn)入字典。關(guān)于出名,演員多在30歲左右出名,作家40歲左右,政治家50歲。但最終,政治家的名聲會超過演員。這一研究結(jié)果在“科學(xué)”雜志發(fā)表(Jean-Baptiste Michel et al., "Quantitative Analysis of Culture Using Millions of Digitized Books")
谷歌的一個叫做Books Ngram Viewer的工具因運(yùn)而生。使用者可以追蹤一個單詞或者一個詞組在過去幾世紀(jì)的使用頻率。這樣我們就可以清晰看出藝人們的興衰變化。
—Cynthia Graber