“80后死亡率突破5.2%”“80后的死亡率已經(jīng)超過70后”……近期,網(wǎng)絡(luò)上一連串駭人聽聞的數(shù)字引發(fā)關(guān)注,,80后們更是提心吊膽,。但隨后相關(guān)消息被辟謠。
這一誤導(dǎo)人的數(shù)據(jù)是如何算出來的,?AI是否可能出現(xiàn)偏差,?記者采訪了權(quán)威專家。
數(shù)據(jù)引用不實,、死亡比例與死亡率混淆
中新健康發(fā)現(xiàn),,此次大多數(shù)相關(guān)文章都號稱其數(shù)據(jù)來自第七次人口普查的“權(quán)威數(shù)據(jù)”。根據(jù)80后的“現(xiàn)存人口”和“總出生人口”計算,,得到存活率降至94.8%,,死亡率達(dá)到5.2%。
但仔細(xì)推敲就會發(fā)現(xiàn)數(shù)據(jù)的漏洞,。
首先是數(shù)據(jù)引用問題,。網(wǎng)傳文章所謂80后“死亡人數(shù)1100萬”“現(xiàn)存2.12億”并沒有官方統(tǒng)計數(shù)據(jù),所以在數(shù)據(jù)來源方面就引發(fā)質(zhì)疑,。
其次是死亡率的計算問題,。
根據(jù)國家統(tǒng)計局關(guān)于死亡率的定義,死亡率(又稱粗死亡率)指在一定時期內(nèi)(通常為一年)一定地區(qū)的死亡人數(shù)與同期內(nèi)平均人數(shù)(或期中人數(shù))之比,,用千分率表示,。
由此可見,網(wǎng)傳數(shù)據(jù)中出現(xiàn)了嚴(yán)重的概念混淆,。
“死亡率是用千分率表示,,而不是用1減去人口的存活率,不能將累計的死亡比例作為死亡率,?!敝袊嗣翊髮W(xué)人口與健康學(xué)院教授李婷接受中新健康記者采訪時說。
她表示,,死亡率的計算是一個復(fù)雜的過程,,現(xiàn)實中會通過一系列的數(shù)學(xué)模型或者是專業(yè)模型生命表的方式對數(shù)據(jù)進(jìn)行調(diào)整,還會和多個其他數(shù)據(jù)源交叉比對,,才能去評估死亡狀況,。
至于“80后死亡率超70后”的說法,,李婷表示,我國的人均預(yù)期壽命在穩(wěn)定上漲,,在此背景下,,除非發(fā)生特殊情況,否則不會出現(xiàn)這么大一個年齡組死亡率倒掛,。
語料訓(xùn)練不足或致AI出錯
中新健康記者發(fā)現(xiàn),,這條在網(wǎng)絡(luò)上廣為傳播的消息沒有任何權(quán)威信源。李婷在自己撰寫的文章中也曾分析,,這次這條流傳頗廣的誤導(dǎo)性消息最初來源很可能是和AI的對話所得,。
那么為何AI會產(chǎn)生這樣的偏差呢?
“我個人推測,,一方面是因為很多學(xué)術(shù)期刊是閉源的,,另一方面也是在這方面的語料不足?!崩铈媒o出了個人看法,。
她分析稱,目前AI依賴于語料的訓(xùn)練,,但是在實際的學(xué)術(shù)應(yīng)用中,,它對學(xué)術(shù)語料的獲取有一定的缺陷,這個缺陷可能很大程度在于大量的學(xué)術(shù)資源是閉源的,,很難獲取到?,F(xiàn)階段,如果想讓AI提供一個較專業(yè)的學(xué)術(shù)文獻(xiàn),,經(jīng)常發(fā)現(xiàn)它會“編”出一些不存在的文獻(xiàn),,這樣也就容易產(chǎn)生誤導(dǎo)。
“另外,,本身與‘死亡率’相關(guān)的人口研究,,相對是比較冷門的,不在日常語料中高頻出現(xiàn),,即便出現(xiàn),,在大部分非專業(yè)人士的認(rèn)知里,也分不清死亡率,、死亡概率(死亡比例)這些詞之間的差異,,所以有可能造成網(wǎng)上有些資料將術(shù)語進(jìn)行混用,,出現(xiàn)概念混淆,。”李婷說,。
國家數(shù)據(jù)局綜合司于10月6日發(fā)表聲明,,指出近期有不法分子假冒國家數(shù)據(jù)局的名義散布虛假消息
2024-10-08 08:00:58國家數(shù)據(jù)局辟謠