“80后死亡率突破5.2%”“80后的死亡率已經(jīng)超過70后”……近期,,網(wǎng)絡上一連串駭人聽聞的數(shù)字引發(fā)關注,80后們更是提心吊膽,。但隨后相關消息被辟謠,。
這一誤導人的數(shù)據(jù)是如何算出來的?AI是否可能出現(xiàn)偏差,?記者采訪了權威專家,。
數(shù)據(jù)引用不實、死亡比例與死亡率混淆
中新健康發(fā)現(xiàn),此次大多數(shù)相關文章都號稱其數(shù)據(jù)來自第七次人口普查的“權威數(shù)據(jù)”,。根據(jù)80后的“現(xiàn)存人口”和“總出生人口”計算,得到存活率降至94.8%,,死亡率達到5.2%,。
但仔細推敲就會發(fā)現(xiàn)數(shù)據(jù)的漏洞。
首先是數(shù)據(jù)引用問題,。網(wǎng)傳文章所謂80后“死亡人數(shù)1100萬”“現(xiàn)存2.12億”并沒有官方統(tǒng)計數(shù)據(jù),,所以在數(shù)據(jù)來源方面就引發(fā)質(zhì)疑。
其次是死亡率的計算問題,。
根據(jù)國家統(tǒng)計局關于死亡率的定義,,死亡率(又稱粗死亡率)指在一定時期內(nèi)(通常為一年)一定地區(qū)的死亡人數(shù)與同期內(nèi)平均人數(shù)(或期中人數(shù))之比,用千分率表示,。
由此可見,,網(wǎng)傳數(shù)據(jù)中出現(xiàn)了嚴重的概念混淆。
“死亡率是用千分率表示,,而不是用1減去人口的存活率,,不能將累計的死亡比例作為死亡率?!敝袊嗣翊髮W人口與健康學院教授李婷接受中新健康記者采訪時說,。
她表示,死亡率的計算是一個復雜的過程,,現(xiàn)實中會通過一系列的數(shù)學模型或者是專業(yè)模型生命表的方式對數(shù)據(jù)進行調(diào)整,,還會和多個其他數(shù)據(jù)源交叉比對,才能去評估死亡狀況,。
至于“80后死亡率超70后”的說法,,李婷表示,我國的人均預期壽命在穩(wěn)定上漲,,在此背景下,,除非發(fā)生特殊情況,否則不會出現(xiàn)這么大一個年齡組死亡率倒掛,。
語料訓練不足或致AI出錯
中新健康記者發(fā)現(xiàn),,這條在網(wǎng)絡上廣為傳播的消息沒有任何權威信源。李婷在自己撰寫的文章中也曾分析,,這次這條流傳頗廣的誤導性消息最初來源很可能是和AI的對話所得,。
那么為何AI會產(chǎn)生這樣的偏差呢?
“我個人推測,,一方面是因為很多學術期刊是閉源的,,另一方面也是在這方面的語料不足。”李婷給出了個人看法,。
她分析稱,,目前AI依賴于語料的訓練,但是在實際的學術應用中,,它對學術語料的獲取有一定的缺陷,,這個缺陷可能很大程度在于大量的學術資源是閉源的,很難獲取到?,F(xiàn)階段,,如果想讓AI提供一個較專業(yè)的學術文獻,經(jīng)常發(fā)現(xiàn)它會“編”出一些不存在的文獻,,這樣也就容易產(chǎn)生誤導,。
“另外,本身與‘死亡率’相關的人口研究,,相對是比較冷門的,,不在日常語料中高頻出現(xiàn),即便出現(xiàn),,在大部分非專業(yè)人士的認知里,,也分不清死亡率、死亡概率(死亡比例)這些詞之間的差異,,所以有可能造成網(wǎng)上有些資料將術語進行混用,,出現(xiàn)概念混淆?!崩铈谜f,。