• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    科大訊飛付瑞吉:智能評閱系統,需要怎樣的技術(shù)支撐

    --成熟應用于大規模考試

    2019-07-23 14:07:32   作者:王金旺   來(lái)源:雷鋒網(wǎng)   評論:0  點(diǎn)擊:


      智能評閱系統已成熟應用于大規模考試,并可輔助教師日常教學(xué)。
      雷鋒網(wǎng)按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(huì )(CCF-GAIR 2019)于深圳正式召開(kāi)。峰會(huì )由中國計算機學(xué)會(huì )(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,是國內人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會(huì ),旨在打造國內人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺。
      7月14日,在CCF-GAIR 2019的「智慧教育專(zhuān)場(chǎng)」論壇上,科大訊飛北京研究院副院長(cháng)、哈工大訊飛聯(lián)合實(shí)驗室副主任付瑞吉博士做了《智能評閱核心技術(shù)及應用簡(jiǎn)介》的主題演講。
      以下為付瑞吉博士的演講全文,雷鋒網(wǎng)進(jìn)行了不改變原意的編輯:
      科大訊飛在教育領(lǐng)域的各個(gè)環(huán)節都做了很多工作,包括教學(xué)、考試、管理等各方面,在去年勇奪全球十二個(gè)人工智能技術(shù)評測的冠軍,這十二個(gè)獎項包括自然語(yǔ)言處理、圖像、語(yǔ)音等各方面,其中語(yǔ)法檢錯、圖文識別和閱讀理解等與智能評閱相關(guān)的技術(shù)都獲得了冠軍。
      2016年,我們和教育部考試中心成立了聯(lián)合實(shí)驗室,共同推進(jìn)語(yǔ)音識別、手寫(xiě)識別、自然語(yǔ)言處理、智能評測、機器翻譯等技術(shù)在教育領(lǐng)域的應用。
      訊飛教育突破點(diǎn):從口語(yǔ)評測到智能評閱
      接下來(lái)我將介紹智能評閱核心技術(shù)。
      我們從口語(yǔ)評測講起,訊飛從2005年開(kāi)始研究口語(yǔ)評測。訊飛是做語(yǔ)音起家的,在語(yǔ)音識別和語(yǔ)音合成基礎上的另一個(gè)應用點(diǎn)是語(yǔ)音評測。備試的學(xué)生說(shuō)一段話(huà),機器進(jìn)行自動(dòng)評測,包括聲學(xué)方面的評測,文本內容的評測,最后得到一個(gè)綜合分數。
      之所以會(huì )做這些工作,是因為我們以往的口語(yǔ)考試很難組織,例如普通話(huà)水平考試、英語(yǔ)考試,學(xué)生在前面說(shuō),老師在一直聽(tīng),一天聽(tīng)下來(lái)是非常累的,到最后會(huì )影響老師的評分準確度。
      科大訊飛的機器現在可以做到在學(xué)習人工專(zhuān)家評分標準的情況下,評分的總分相關(guān)度和平均誤差達到人工水平,我們在30個(gè)省市的普通話(huà)考試里應用到這項技術(shù)。
      此外,我們從口語(yǔ)考試擴展到紙筆考試,現在K12大部分是紙筆考試,我們通過(guò)掃描試卷,進(jìn)行圖片的OCR識別,再進(jìn)行自動(dòng)評分,得到一個(gè)評分的成績(jì)。
      口語(yǔ)評測和智能評閱的關(guān)系是什么?
      實(shí)際上二者很相似。我們做紙筆考試也是從口語(yǔ)評測激發(fā)的靈感。口語(yǔ)評測的輸入是一段語(yǔ)音,我們會(huì )對這個(gè)語(yǔ)音的發(fā)音標準進(jìn)行評測,同時(shí)進(jìn)行語(yǔ)音識別,對文字內容進(jìn)行評測。我們的智能評閱輸入就變成了掃描或者拍照的圖片,對書(shū)寫(xiě)質(zhì)量有評價(jià),對圖文識別后的語(yǔ)義層面也有評價(jià),綜合獲得最終的分數,這與口語(yǔ)評測是很相似的。
      智能評閱難點(diǎn)解讀:作文評分技術(shù)框架
      我們智能評閱中最難的是作文的評分,下圖是科大訊飛做評閱技術(shù)的核心框架。
      左側是作文試卷圖片輸入后進(jìn)行圖文轉寫(xiě),對內容的相似度和其他異常進(jìn)行檢測,這部分由于內容和標準很難處理,目前仍是交給人來(lái)評測;接下來(lái),進(jìn)行定標的篩選。
      為什么需要進(jìn)行定標的篩選?這是因為每次考試后評分標準可能會(huì )有一些差異,這種情況下我們會(huì )選取一小部分試卷作為定標來(lái)打樣卷,請專(zhuān)家進(jìn)行評分,以專(zhuān)家評分為標準來(lái)訓練模型。右側是進(jìn)行評分的抽取、訓練和評分模型的訓練。
      首先,我們進(jìn)行圖文轉寫(xiě),試卷掃描之后的情況如左側所示(如下圖)。右側是進(jìn)行行的切分、插入符號的識別,還有一些潦草涂抹塊的識別。對于手寫(xiě)作文識別的最終準確率已經(jīng)達到98%以上,達到了使用的門(mén)檻。在圖文轉寫(xiě)基礎上,我們會(huì )對內容進(jìn)行評分。
      對于內容的評分,我們會(huì )抽取多個(gè)維度的特征。
      在議論文篇章結構分析方面,以語(yǔ)文為例,高考中通常是議論文,我們會(huì )識別作文主旨、分論點(diǎn)、事實(shí)論據等篇章角色。采用的方法是通過(guò)整篇文章句子間的語(yǔ)義關(guān)聯(lián)性來(lái)分析其篇章角色。例如整篇作文全局性關(guān)聯(lián)的句子,在各個(gè)段落之間都會(huì )出現,通常是貫穿全局的主旨,表示整個(gè)文章的核心思想;還有一些局部相關(guān)聯(lián)的句子,可能是分論點(diǎn)以及對應的論據,是分論點(diǎn)的展開(kāi)闡述;通過(guò)這些句子之間語(yǔ)義的相關(guān)性,我們會(huì )把整篇文章的篇章角色標注出來(lái)。例如,將引論句、主旨句、子論點(diǎn)、論據句都會(huì )識別出來(lái)。這些分析結果可以作為評分的特征。
      在表達方式方面,大家小學(xué)都學(xué)過(guò)表達方式,例如記敘、抒情、議論、描寫(xiě)等表達方式,我們需要自動(dòng)識別出來(lái)。尤其是描寫(xiě),描寫(xiě)體現出一個(gè)人對于語(yǔ)言運用的能力。我們計算過(guò)相關(guān)性,高分作文中描寫(xiě)的比例很高,描寫(xiě)的質(zhì)量也很高。對于描寫(xiě)的識別,我們用了多標簽訓練標注的方法來(lái)進(jìn)行識別,也作為評分的特征使用。
      在修辭的識別方面,以比喻為例,在中小學(xué),尤其是記敘文中,恰當的比喻的使用會(huì )使作文更加生動(dòng)形象,作文質(zhì)量在一定程度上會(huì )更高。我們識別比喻用的方法是基于多任務(wù)學(xué)習的方法,主要分為三個(gè)任務(wù):
    • 左側是識別出比喻的本體和喻體,是比喻元素的抽取;
    • 右側上部是判斷是否是比喻,進(jìn)行二元分類(lèi);
    • 右側下部是語(yǔ)言模型的建模。
      同時(shí)優(yōu)化這三項任務(wù),可以使比喻的識別達到更好的效果。
      此外,擬人、排比、引用等修辭,我們現在也都可以識別出來(lái),這些特征可以作為評分的依據。
      智能評閱系統的另一功能:防作弊
      在考試中還有一個(gè)應用,作文的相似檢測,也就是抄襲的檢測。這在大型考試中,人工是很難進(jìn)行判斷的,所以我們做了這樣一件事情。
      我們有幾百萬(wàn)的范文庫,還有同批作文,有的學(xué)生會(huì )把閱讀理解的內容抄到作文中湊字數,對于老師來(lái)說(shuō),做這種檢測是不太可能的,很容易會(huì )忽略,我們用機器這套方法來(lái)識別,可以很方便、快速、準確地檢測出來(lái)。
      例如,在兩篇作文中,中間部分寫(xiě)得基本一樣。這是因為中間部分是背了一些網(wǎng)絡(luò )范文或模板。也有可能是把前面的閱讀理解抄在了作文中。
      還有其他作文評閱技術(shù),包括體裁分類(lèi)(議論文、記敘文、散文等)、主題分類(lèi)、離題檢測、立意判別,這些我們都已有相應技術(shù)。
      智能評閱系統應用場(chǎng)景:大規模考試、日常教學(xué)
      剛才介紹的是核心技術(shù)的進(jìn)展,我們看一下這些核心技術(shù)在我們的產(chǎn)品中是如何應用的。
      智能評閱有兩大應用場(chǎng)景,一方面是大規模考試,像中考、高考、會(huì )考、MHK等大型考試,一般是幾萬(wàn)到幾十萬(wàn)人,規模比較大。這一應用場(chǎng)景對智能評閱系統有兩類(lèi)需求:
      第一,做評分質(zhì)檢,因為要保證評分的準確性,所以要做評分質(zhì)檢,校檢人工的錯誤;
      第二,替代一評,對于高利害的考試更多是做質(zhì)檢,對低利害的考試,鑒于對人工成本節省的考慮,可以用以替代一評。
      另一應用場(chǎng)景是,日常教學(xué)。日常教學(xué)包括平時(shí)的作業(yè)、周測、月考、期中/期末考試和校際聯(lián)考,規模比較小,比如班級作業(yè)只有幾十人。這不只需要評分的準確,還需要批改、反饋,對老師來(lái)說(shuō)還需要有詳細的分析報告。可以看到,日常教學(xué)中的需求比在考試中的需求更加精細,技術(shù)難度也更大。
      我們分別來(lái)看一下。
      首先,大規模考試中的應用主要是做質(zhì)檢。諸如掃描切圖、客觀(guān)評分、專(zhuān)家定標、主觀(guān)題人工評分,這些是人工評分過(guò)程中要做的一些事情;此外,智能評分、空白卷和異常的檢測等智能復核是智能評閱做的事情。
      我們會(huì )在人工評分的同時(shí)進(jìn)行機器的自動(dòng)評分,得到評分結果后,進(jìn)行評分結果的復核,發(fā)現一些人機評分大分差的情況,我們會(huì )對大分差進(jìn)行專(zhuān)家復核,對成績(jì)進(jìn)行確認,復核以后做最終成績(jì)發(fā)布。加入智能評閱環(huán)節后,可以使整個(gè)評分更加準確。
      包括前面提到的語(yǔ)文作文、英語(yǔ)作文、數學(xué)解答題、文綜簡(jiǎn)答題,其中理綜的簡(jiǎn)答題比較少,其他科目已經(jīng)達到比較高的比例。近年已經(jīng)在全國多地大規模考試中應用。
      總體來(lái)說(shuō),各地評卷專(zhuān)家對智能評閱技術(shù)在考試中的應用非常認可,形成了一個(gè)良好的應用示范,可以繼續深化推廣。
      在日常教學(xué)中的應用,像我剛才強調的,應用反饋的難度會(huì )比大規模考試的評分難度更大,盡管如此,仍得到了廣泛的應用。例如,英語(yǔ)的填空題、英文作文的反饋,在實(shí)際學(xué)校中的應用,已經(jīng)有2000多所學(xué)校常態(tài)化使用,三年來(lái)增長(cháng)量提高了將近10余倍,實(shí)現為近萬(wàn)名老師減負。
      老師平時(shí)在批改作文的過(guò)程中是非常費時(shí)費力的,在科大訊飛的平臺上進(jìn)行的統計統計顯示,老師在批改過(guò)程中可能20秒、10秒,甚至幾秒直接批閱作文,直接給一個(gè)評分或者給一個(gè)“閱”,對學(xué)生的反饋是不足的。這樣的方式對于學(xué)生學(xué)習興趣的培養是不利的。我們有了智能評閱技術(shù),可以實(shí)現自動(dòng)反饋,可以輔助老師更好地給學(xué)生更加詳盡的反饋,提高學(xué)生的學(xué)習興趣,也提高反饋的效率。
      雷鋒網(wǎng)在會(huì )后對付瑞吉博士進(jìn)行了采訪(fǎng),精彩內容節選如下:
      雷鋒網(wǎng):科大訊飛目前在智慧教育領(lǐng)域有怎樣的整體布局和版塊劃分?
      付瑞吉:科大訊飛在智慧教育領(lǐng)域整體布局分為以下五大方向:
    • 第一,智慧課堂,我們通過(guò)一些智能硬件(諸如平板)將后臺資源,以及我們的一些核心技術(shù)連起來(lái)。例如,我們在做語(yǔ)音評測時(shí),可以讓學(xué)生用平板進(jìn)行學(xué)習,老師以大屏作為中控平臺和顯示平臺,學(xué)生現場(chǎng)讀一段話(huà),系統會(huì )自動(dòng)給出評測結果,包括來(lái)自哪個(gè)地方,哪個(gè)地方讀的不準,并給出提示出來(lái)。
      如果只靠老師一個(gè)人來(lái)進(jìn)行教學(xué),一方面,沒(méi)有這么準確,如某些地方老師的普通話(huà)水平也有限;另外一方面,老師對于學(xué)生的薄弱點(diǎn)的把握沒(méi)有那么迅速。
      此外,平臺還會(huì )提供大量課程資源,我們后臺有大量的課件資源,優(yōu)質(zhì)的課件音視頻材料,這種素材相當于一個(gè)大的共享平臺,方便老師進(jìn)行備課,以及在課堂上及時(shí)搜索資源。例如,上歷史課講到一些歷史事件時(shí),我們可以方便地搜索一些歷史事件當時(shí)的地形圖,采用動(dòng)畫(huà)的方式展示當時(shí)的戰爭狀態(tài)、演進(jìn)過(guò)程,使得課堂教學(xué)生動(dòng)活躍,資源豐富。
    • 第二,智能評閱,通過(guò)考試,我們一方面是對于大規模考試這種服務(wù),對于評分的公平公正的維護;另一方面我們在日常這種應用中,可以幫助更加精準地分析學(xué)生的薄弱點(diǎn),例如作文中哪些方面不好,我們通過(guò)技術(shù)服務(wù)輔助老師達到精準的診斷,最終實(shí)現這種精準的教學(xué)。
    • 第三,個(gè)性化學(xué)習,我們會(huì )對題目做一些分析技術(shù),例如數理化這種理科的題目,我們會(huì )針對知識點(diǎn)、能力等方面多個(gè)維度打上標簽。學(xué)生在考完試后,根據題目答對或答錯的情況,我們會(huì )個(gè)性化地分析出他在知識掌握方面的薄弱點(diǎn),然后再進(jìn)一步為學(xué)生推薦一些針對性的強化訓練,提供訓練題目和學(xué)習資源,做個(gè)性化的學(xué)習。
      個(gè)性化學(xué)習也是科大訊飛今年非常重視的一大戰略。業(yè)界也有很多其他公司在做。這種理念的基礎正是因材施教,節省學(xué)生大量時(shí)間,提高學(xué)生學(xué)習效率,有針對性地幫助學(xué)生針對薄弱點(diǎn)進(jìn)行學(xué)習,改變重復性海量刷題這種傳統、低效的學(xué)習方式。
    • 第四,新高考業(yè)務(wù)。
      主要包括面向新高考的排課與選課。新高考改革帶來(lái)了一些新課程,例如,針對「3+1+2」新模式(其中,3指“語(yǔ)、數、外”,1指“物理或歷史,2指“生物、化學(xué)、政治、歷史”這四門(mén)學(xué)科中的兩門(mén),合計為高考科目),這種個(gè)性化組合,根據學(xué)生自己的能力去選擇,這是新高考改革帶來(lái)的一個(gè)變化,這樣的變化為教學(xué)過(guò)程帶來(lái)了一些困難,其中一項就是排課。
      舊高考模式人工排課基本可以實(shí)現,但是這種組合一來(lái)以后,學(xué)生上的課不一樣,學(xué)校排課的難度會(huì )非常大,科大訊飛針對排課也設計了一套自動(dòng)排課算法,可以快速滿(mǎn)足學(xué)生學(xué)校這種排課的需求。
      另外選哪些科目作為高考科目,也是學(xué)生和家長(cháng)普遍關(guān)心的問(wèn)題。新高考改革后,在選課之前,學(xué)生需要對生涯有一個(gè)清晰規劃。此前學(xué)生在高中階段可能對于后面自己想干什么,或者是大學(xué)里的專(zhuān)業(yè)設置情況并不知道,對于自己的能力和哪個(gè)專(zhuān)業(yè)會(huì )匹配、應該學(xué)哪些課程也不太清楚。
      我們通過(guò)測評,會(huì )做這樣的一個(gè)生涯規劃。通過(guò)各種測評,把學(xué)生的能力、興趣點(diǎn)測評出來(lái),然后與大學(xué)里的生涯規劃匹配在一起,最終落實(shí)就可以幫助學(xué)生進(jìn)行課程的選擇。這使得學(xué)生在高中階段學(xué)習過(guò)程中就會(huì )很有目標。
    • 第五,綜合測評。
      綜合測評主要是針對學(xué)校的綜合管理的一個(gè)測評。實(shí)際上在新高考的背景下,學(xué)校可能會(huì )有些管理上的變革。科大訊飛結合高考招生制度改革的迫切需要推出新一代綜合素質(zhì)評價(jià)系統。實(shí)現從指標體系、評價(jià)工具、采集方案、誠信體系到結果公示的全業(yè)務(wù)流程覆蓋。通過(guò)科學(xué)有效的內容監管和誠信體系完整記錄學(xué)生過(guò)程性與終結性成長(cháng)數據;并集成自然語(yǔ)言理解、圖形圖像識別、數據可視化等人工智能和大數據技術(shù),輔助教育主管部門(mén)科學(xué)決策;并形成教師、家庭及時(shí)反饋與有效干預的閉環(huán)體系,指導與促進(jìn)學(xué)生綜合素質(zhì)的全面提升與發(fā)展。
      具體而言,我們需要構建與區校常態(tài)化教育教學(xué)活動(dòng)結合的過(guò)程性與終結性成長(cháng)數據采集方案,開(kāi)展過(guò)程性評價(jià)和終結性評價(jià),引進(jìn)學(xué)生、家長(cháng)、學(xué)校、第三方等多元評價(jià)主體,并能夠基于國家和區域標準提供評價(jià)結果的智能試算。從而科學(xué)、公平地開(kāi)展學(xué)生綜合素質(zhì)評價(jià),促進(jìn)學(xué)生核心素養提升。
      雷鋒網(wǎng):智能評閱系統需要怎樣的技術(shù)能力支撐,從技術(shù)能力發(fā)展來(lái)看,整體市場(chǎng)現狀如何?
      付瑞吉:首先,OCR其實(shí)是很關(guān)鍵的,也是一個(gè)基礎,我們可以通過(guò)OCR技術(shù)識別出學(xué)生寫(xiě)的比較潦草的文字,目前科大訊飛在這方面已經(jīng)能夠達到98%以上的識別率;其次,文字識別完后,是NLP文本處理的能力。
      其次,整體來(lái)看,在NLP方面,閱讀理解這兩年的技術(shù)進(jìn)步是比較快的,國際上也有諸如SQuAD的比賽,引導研究機構去參賽,使這塊的技術(shù)進(jìn)展較快。這其中的技術(shù)方案是可以用到我們智能評閱系統中的,幫助機器對于整篇作文宏觀(guān)語(yǔ)義的把握。
      另外,再加上我們傳統的一些對于語(yǔ)言的應用能力的平臺,諸如我演講中提到的各類(lèi)修辭、表達方式、篇章結構的分析,智能評閱系統就是將這樣的語(yǔ)言運用能力綜合應用起來(lái)。
      現在整個(gè)市場(chǎng)的技術(shù)進(jìn)展是,在大規模考試場(chǎng)景中,基本上可以達到實(shí)用水平,大規模考試中實(shí)際上也已有應用。比較難的則是日常教學(xué)應用中,實(shí)現批改反饋功能的難度較大。這里科大訊飛現在采用的是人機結合——機器自動(dòng)評閱的一些結果,再通過(guò)人工確認,從而提高老師的工作效率。
      雷鋒網(wǎng):評閱系統評閱中英文作為這樣的主觀(guān)題需要怎樣的技術(shù)能力,AI模型如何訓練?
      付瑞吉:通過(guò)前面提到的文本分析技術(shù)可以得出作文的一些特征,然后另外一項重要工作是“定標”。
      每次大型考試以后(諸如數萬(wàn)人到數十萬(wàn)人規模的考試),我們可以拿出幾百份到一千份的樣卷讓專(zhuān)家打分。專(zhuān)家準確評分的樣卷,我們可以用來(lái)訓練智能評閱系統的算法模型,即將專(zhuān)家的評分標準“學(xué)”到我們的模型中。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 萍乡市| 噶尔县| 滨海县| 高唐县| 社旗县| 油尖旺区| 林周县| 新民市| 夹江县| 太保市| 大安市| 武宣县| 夹江县| 抚州市| 济宁市| 武陟县| 宜兴市| 迁西县| 读书| 麟游县| 汉寿县| 额尔古纳市| 西吉县| 涡阳县| 巩留县| 济阳县| 中山市| 永年县| 繁昌县| 潞西市| 伊金霍洛旗| 福泉市| 怀仁县| 临邑县| 鄂州市| 延川县| 澄江县| 靖州| 隆林| 伊吾县| 丰都县| http://444 http://444 http://444 http://444 http://444 http://444