颶風伊塔威力增強預計登陸中美洲地區

Posted on 2021-03-182021-03-18 by admin

摘錄自2020年11月3日中央社報導

颶風伊塔（Eta）在加勒比海（Caribbean Sea）增強威力後，今（3日）預計登陸中美洲地區，宏都拉斯和尼加拉瓜等國恐面臨災難性的強風及洪水威脅。

法新社報導，美國國家颶風中心（National Hurricane Center）在午夜預警指出，這個「極度危險」颶風的風速達到每小時240公里，正往尼加拉瓜海岸前進。中美洲部分地區預計將出現暴潮、強風、暴洪及土石流等災情。

尼加拉瓜近海的密斯基多群島（Miskito Cays）當地的婦女和孩童已從村莊撤離，只剩男性留下來看顧房子，倘若情況變得更加危險，男性也會撤離避難。

加勒比海與中美洲的其他地區也可能面臨颶風伊塔的侵襲，國家颶風中心指出，牙買加、墨西哥東南部、薩爾瓦多、海地南部及開曼群島都可能出現洪患。

氣候變遷
 國際新聞
 中美洲
 颶風

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※回頭車貨運收費標準

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※推薦評價好的iphone維修中心

※教你寫出一流的銷售文案?

※台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!

※台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

iPhone 13 傳聞將搭載的 AOD 顯示，概念影片帶來多種可能性

Posted on 2021-03-172021-03-17 by admin

日前傳聞 Apple 將在 iPhone 13 系列首次為 iPhone 帶來 AOD（Always-On Display）顯示的消息，而究竟 Apple 是會單純地「複製」 Android 手機在 AOD 顯示的方式，或延續 Apple Watch Series 5/Series 6 的方式讓螢幕在處於休眠狀態下能持續顯示豐富的內容，最近也有 YouTube 頻道就製作概念影片帶來多種可能方案。

▲圖片來源：A Better Computer (YouTube)

iPhone 13 傳聞將搭載的 AOD 顯示，概念影片帶來多種可能性

根據 EverythingApplePro 之前的爆料， iPhone 13 系列除了 iPhone 13 Pro 和 iPhone 13 Pro Max 螢幕將搭載 120Hz 螢幕更新率的 LTPO OLED 顯示器，同時也可能首次在 iPhone 加入 AOD 顯示。即便 Always On Display（AOD）息屏顯示在 Android 手機已經行之有年，不過目前在 Apple 旗下產品中也只有 Apple Watch Series 5 和 Apple Watch Series 6 有支援「永遠顯示」這項功能。
未來若真的在 iPhone 13 系列加入 AOD 顯示，即便用戶未抬起手機喚醒螢幕，時間顯示和其他資訊都能一目了然，用戶也能自定義 AOD 的顯示效果設定。

▲圖片來源：EverythingApplePro EAP(YouTube)

隨著 iPhone 13 搭載 AOD 顯示的傳聞曝光後，也有 YouTube 頻道「A Better Computer 」就製作了一段影片分析若 iPhone 真的搭載這項功能，會以哪幾種方式呈現的可能。
首先，如果最基本的可行方案就是比照目前有支持 AOD 功能的 Android 系統手機，在開啟這項功能後於螢幕休眠狀態下以單色方式顯示時間、天氣和有新通知的應用程式圖示。不過依照 Apple 過去的慣例，不太可能只單純使用這樣的方案。

▲圖片來源：A Better Computer (YouTube)

若參考目前已經有採用 AOD 顯示功能的 Apple Watch Series 5 、 Apple Watch Series 6 ，在螢幕顯示轉換為 AOD 顯示狀態時，依然保有基本的顯示內容，僅有亮度、對比度和色彩的有較明顯的差異，使用者依然能保有原本的使用體驗。

▲圖片來源：A Better Computer (YouTube)

不過如果也只是將 iOS 主畫面亮度、彩度、對比度都調低的顯示方式，考量自從 iOS 14 起加入桌面小工具讓內容更豐富的全新 iOS 主畫面，如果直接降低畫面亮度、彩度和對比度的做法，看來似乎也不太可行：

▲圖片來源：A Better Computer (YouTube)

倘若 Apple 以較保守的方式，可能會選擇將以深色顯示鎖定畫面桌布搭配基本時間、天氣顯示作為 AOD 顯示的畫面：

▲圖片來源：A Better Computer (YouTube)

也不排除將鎖定畫面下方的手電筒和相機快速啟動按鈕一併在 AOD 模式顯示：

▲圖片來源：A Better Computer (YouTube)

最終目前看來較有可能的方向則是在 iPhone 轉換為 AOD 顯示狀態時，除了以暗色畫面呈現保留基本的時間、天氣資訊外，在此模式下以深色模式呈現幾種自訂的 iOS 桌面小工具：

▲圖片來源：A Better Computer (YouTube)

相較於螢幕喚醒狀態，讓用戶在 AOD 模式下自訂有限、常用的桌面小工具，如此一來不僅能達到與 Android 系統之間的差異，也能將 iOS 小工具帶來更多應用的可能性：

▲圖片來源：A Better Computer (YouTube)

完整影片

消息來源：A Better Computer (YouTube)

延伸閱讀：
Jon Prosser 爆料全新 iPad Pro 與 AirTags 將於 3 月發表

小米11 Lite 最新概念渲染圖曝光！主打輕薄、平面挖孔螢幕的小米11 平價版

您也許會喜歡：

【推爆】終身$0月租打電話只要1元/分

立達合法徵信社-讓您安心的選擇

【其他文章推薦】

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※想知道最厲害的網頁設計公司"嚨底家"!

※別再煩惱如何寫文案,掌握八大原則!

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準

※台中搬家公司費用怎麼算?

長城汽車高端SUV品牌WEY 把林肯、路虎的風頭都搶了？

Posted on 2021-03-162021-03-16 by admin

3寸虛擬組合儀錶盤等科技配置。安全配置上也是非常的齊全，ACC自適應巡航、併線輔助、車道偏離警告、車道保持輔助等多種主被動安全系統，據悉未來長城還將自動駕駛等技術注入全新的品牌中，簡直就是6飛了。還有更厲害的一件事要公布的是，此次廣州車展長城全新的高端品牌WEY，將會出現在豪華品牌雲集的4。

11月16晚，長城汽車推出了全新的“豪華SUV”品牌-WEY，以創始人魏建軍先生的姓氏命名，中文名稱為“魏派”，並展現了“兩款”新車型-W01和W02，致力打造成為中國首個豪華SUV品牌，車型定價在15-20萬之間，讓消費者真正能買的起，一起來探個究竟吧！

WEY的品牌logo設計靈感來自於魏老闆的故鄉-河北保定，這座古城的總督府門前曾經矗立着全國最高的旗杆，新Logo創意或來自於“日晷”，是一個銀色長方體，也意味着有樹立中國豪華SUV的標杆旗幟的含義。

本次發布的W01和W02兩款車型從外觀上看去區別不大，更像是哈弗一貫用的紅藍標戰略化產品，兩款車的前臉都是有種寬體的感覺，犀利的前大燈搭配着蜂窩狀的進氣格柵，給人很大的視覺衝擊，車身側面柔中帶剛的線條凸顯了肌肉感。

尾部造型較為圓潤飽滿，多幅條豎式LED尾燈，雙邊單出的排氣管，非常的潮流時尚，據魏建軍透露，該品牌車型還配備了如流媒體后視鏡，Infinity鑒賞級音響系統、12.3寸虛擬組合儀錶盤等科技配置。

安全配置上也是非常的齊全，ACC自適應巡航、併線輔助、車道偏離警告、車道保持輔助等多種主被動安全系統，據悉未來長城還將自動駕駛等技術注入全新的品牌中，簡直就是6飛了。

還有更厲害的一件事要公布的是，此次廣州車展長城全新的高端品牌WEY，將會出現在豪華品牌雲集的4.1館，與寶馬、林肯、英菲尼迪、捷豹路虎、謳歌等品牌同時亮相，不得不說魏老闆真是有錢。

總結：這已經不是長城汽車第一次衝擊高端產品了，之前推出的哈弗H8、H9兩款20萬級別的SUV，在市場上都沒有取得令人滿意的效果，而此次的WEY品牌旗下的SUV售價區間威15-20萬，價格有所下探，是否能受到人民的接受，我們拭目以待。本站聲明:網站內容來源於http://www.auto6s.com/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※想知道最厲害的網頁設計公司"嚨底家"!

※別再煩惱如何寫文案,掌握八大原則!

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準

※台中搬家公司費用怎麼算?

日環境相擬修改法律促進可再生能源引進

Posted on 2021-03-152021-03-15 by admin

摘錄自2020年10月27日共同社報導

日本環境相小泉進次郎在27日的記者會上宣佈，為促進太陽能、風能等可再生能源的引進，計劃修改《全球變暖對策推進法》。

上述做法鑑於首相菅義偉在26日的施政演說中宣佈將到2050年實現溫室氣體實際零排放。專家會議最快將於11月成立，年內將彙總一定的方向性。

能源轉型
 國際新聞
 日本
 再生能源

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※想知道最厲害的網頁設計公司"嚨底家"!

※別再煩惱如何寫文案,掌握八大原則!

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準

※台中搬家公司費用怎麼算?

淨零排放需經濟轉型聯合國特使籲企業把握商機

Posted on 2021-03-152021-03-15 by admin

摘錄自2020年11月9日中央社報導

聯合國（UN）氣候特使卡尼（Mark Carney）今天（9日）在英國主辦的綠色投資虛擬峰會中，呼籲企業把握「我們這個時代最偉大的商機」。與會者包括來自金融界的重量級人物。

為期3天的「綠色地平線峰會」（Green Horizon Summit）揭幕的日期，原本是聯合國下一次全球氣候變遷峰會（COP 26）在格拉斯哥登場的日期，但由於2019冠狀病毒疾病（COVID-19）疫情的關係， COP 26推遲至2021年11月舉行。

曾任英格蘭銀行總裁的卡尼表示，要達到「淨零」排放的目標，「整個經濟必須轉型，當中涉及每一家企業、銀行、保險公司和投資人，創造出我們這個時代最偉大的商機」。

氣候變遷
 國際新聞
 淨零碳排

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※別再煩惱如何寫文案,掌握八大原則!

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※超省錢租車方案

※教你寫出一流的銷售文案?

※網頁設計最專業,超強功能平台可客製化

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

實力媲美榮威RX5 又一台爆款SUV準備圈錢了

Posted on 2021-03-122021-03-12 by admin

相信很多年輕人第一眼看到名爵ZS，都會不由自主地被它全新的設計感所吸引。全新樣式的盾形進氣格珊，搭配別具一格的倫敦眼前大燈，視覺層面上非常凌厲驚艷。再加上優雅動感的車身設計，以及層次感豐富的尾部設計，讓名爵ZS渾身上下充滿國際範氣質。

如今SUV市場早已是一片紅海，合資自主你爭我趕，互不讓步。這其中做到逆襲上位、脫穎而出，上汽榮威RX5絕對稱得上是業內的一個新標桿。從上市之初就獲得極大關注度，再到上市第三個月銷量強勢突破2萬輛，順利闖入熱銷SUV車型前十位當中。

榮威RX5之所以能快速成為國人眼中的“新網紅”，一方面是得益於榮威RX5擁有國際範的設計外觀，另一方面是來自於“全球首款量產的互聯網汽車”的創新概念。

而在此次廣州車展上，除了上汽榮威RX5備受消費者關注之外，看到上汽旗下的MG品牌展館也是人氣爆棚。原來，藉著廣州車展的熱鬧，上汽集團也順勢推出了一款全新互聯網SUV-名爵ZS。

事實上，自打名爵ZS的首張設計圖曝光以來，關於名爵ZS的議論話題就沒斷過，單單在微博的“我的第一台互聯網汽車”話題閱讀量就超過了1.2億，更有眾多汽車圈、時尚圈以及互聯網的知名大咖們紛紛轉發討論名爵ZS。隨後在名爵ZS在廣州車展發布當天，一時間話題熱度飆升，在新浪汽車頻道，名爵ZS的話題閱讀量累計達到3.3億。無論是線上還是線下，名爵ZS可謂是賺飽了眼球，毫不誇張地說，名爵ZS儼然就是未來網紅的節奏呀！

於是，懷著無比激動好奇的心情走進去一瞧，然而，這款名爵ZS卻大大出乎的預料，整個外觀形象煥然一新，尤其是那前臉像足了“小捷豹”的姿態。但和榮威RX5的“律動設計”語言不同，名爵ZS採用的是全新的“感性力”設計理念，同時有別於以往的名爵車型，外形上更接近當下年輕人的審美觀念。相信很多年輕人第一眼看到名爵ZS，都會不由自主地被它全新的設計感所吸引。

全新樣式的盾形進氣格珊，搭配別具一格的倫敦眼前大燈，視覺層面上非常凌厲驚艷。再加上優雅動感的車身設計，以及層次感豐富的尾部設計，讓名爵ZS渾身上下充滿國際範氣質。況且，再說起顏值來，後來之秀的名爵ZS並不在大哥榮威RX5之下，這也難怪有網友稱名爵ZS為汽車界的彭於晏，既有高顏值，又有好身材！

憑藉於互聯網汽車的定位，榮威RX5成功打破自主品牌定價天花板。而作為上汽MG品牌旗下的首款互聯SUV，名爵ZS自然沒讓年輕人失望。名爵ZS將繼續搭載最先進的阿里YUN OS車載系統，而且該車載系統已經在榮威RX5身上得到廣泛應用，好評如潮。這也意味著，名爵ZS一樣能夠為追求時尚便捷的年輕人，提供強大的互聯網汽車服務，享受智能導航、遠程控制、人車互聯等輕鬆舒適的汽車生活。足以可見名爵ZS在研究年輕人的消費心理也是費了不少功夫，要不然，怎麼會說年輕人的第一台車就是它呢？

名爵ZS未上先熱的“反常”現象，在看來，一定程度上反映了名爵zs的產品實力是深受年輕人認可的。換句話說，名爵ZS將很有很大可能成為榮威RX5之後，又一位爆款SUV選手。既然如此，那還等什麼？馬上到年底了，趕緊叫老闆加工資，一起來期待明年名爵ZS的驚喜上市。本站聲明:網站內容來源於http://www.auto6s.com/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※想知道最厲害的網頁設計公司"嚨底家"!

※別再煩惱如何寫文案,掌握八大原則!

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準

※台中搬家公司費用怎麼算?

防疫比環保重要？新罕布什爾州暫時重推塑膠袋

Posted on 2021-03-112021-03-11 by admin

摘錄自2020年03月22日中央通訊社美國報導

美國新罕布什爾州長蘇努努今天（22日）敦促州內民眾，將可重複使用的環保袋留在家中暫時不用。他說，為對抗武漢肺炎，在此過渡期，購物宜用店家提供的新塑膠袋或紙袋。

此舉主要是愈發擔心賣場員工面對店內人潮擁擠，加上新型冠狀病毒疾病（COVID-19，武漢肺炎）具高度傳染性，且可能附著於各種物件表面，增加感染風險。州長蘇努努（Christopher Sununu）今天推文說：「由於確認（武漢肺炎病毒）社區傳染，顧及賣場裝袋人員、雜貨商和顧客潛在風險，購物者將環保袋暫留家中，這很重要。」

本週在新英格蘭醫學期刊（New England Journal of Medicine）發表的研究顯示，武漢肺炎病毒可在空氣中存活數小時，而在不同的物件表面甚至可存活數天之久。

公害污染
 污染治理
 國際新聞
 美國
 環保袋
 武漢肺炎
 疫情下的食衣住行
 廢棄物

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※網頁設計公司推薦不同的風格，搶佔消費者視覺第一線

※想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整

※南投搬家公司費用,距離,噸數怎麼算?達人教你簡易估價知識!

※教你寫出一流的銷售文案?

※超省錢租車方案

※回頭車貨運收費標準

Java 多線程基礎（一）基本概念

Posted on 2021-03-102021-03-10 by admin

Java 多線程基礎（一）基本概念

一、併發與并行

1、併發：指兩個或多個事件在同一個時間段內發生。

2、并行：指兩個或多個事件在同一時刻發生（同時發生）。

在操作系統中，安裝了多個程序，併發指的是在一段時間內宏觀上有多個程序同時運行，這在單 CPU 系統中，每一時刻只能有一道程序執行，即微觀上這些程序是分時的交替運行，只不過是給人的感覺是同時運行，那是因為分時交替運行的時間是非常短的。

而在多個 CPU 系統中，則這些可以併發執行的程序便可以分配到多個處理器上（CPU），實現多任務并行執行，即利用每個處理器來處理一個可以併發執行的程序，這樣多個程序便可以同時執行。目前電腦市場上說的多核 CPU，便是多核處理器，核越多，并行處理的程序越多，能大大的提高電腦運行的效率。

3、注意點

單核處理器的計算機肯定是不能并行的處理多個任務的，只能是多個任務在單個CPU上併發運行。同理，線程也是一樣的，從宏觀角度上理解線程是并行運行的，但是從微觀角度上分析卻是串行運行的，即一個線程一個線程的去運行，當系統只有一個CPU時，線程會以某種順序執行多個線程，我們把這種情況稱之為線程調度。

二、線程與進程

1、進程：是指一個內存中運行的應用程序，每個進程都有一個獨立的內存空間，一個應用程序可以同時運行多個進程；進程也是程序的一次執行過程，是系統運行程序的基本單位；系統運行一個程序即是一個進程從創建、運行到消亡的過程。

2、線程：線程是進程中的一個執行單元，負責當前進程中程序的執行，一個進程中至少有一個線程。一個進程中是可以有多個線程的，這個應用程序也可以稱之為多線程程序。

操作系統調度的最小任務單位是線程。常用的Windows、Linux等操作系統都採用搶佔式多任務，如何調度線程完全由操作系統決定，程序自己不能決定什麼時候執行，以及執行多長時間。

（一）、線程的產生

每個進程都有自己的地址空間，即進程空間，在網絡或多用戶換機下，一個服務器通常需要接收大量不確定數量用戶的併發請求，為每一個請求都創建一個進程顯然行不通（系統開銷大響應用戶請求效率低），因此操作系統中線程概念被引進。線程的改變只代表CPU的執行過程的改變，而沒有發生進程所擁有的資源的變化。

線程的執行過程是線性的，儘管中間會發生中斷或者暫停，但是進程所擁有的資源只為改線狀執行過程服務，一旦發生線程切換，這些資源需要被保護起來。
進程分為單線程進程和多線程進程，單線程進程宏觀來看也是線性執行過程，微觀上只有單一的執行過程。多線程進程宏觀是線性的，微觀上多個執行操作。

（二）、進程與線程的區別

地址空間。同一線程共享該進程的地址空間；進程之間是獨立的地址空間，
用於資源。同一進程內的線程共享本進程的資源如內存、I/O、cpu等，但是進程之間的資源是獨立的。
執行過程。每個獨立的進程程有一個程序運行的入口、順序執行序列和程序入口。但是線程不能獨立執行，必須依存在應用程序中，由應用程序提供多個線程執行控制。

（三）、優缺點

線程執行開銷小，但是不利於資源的管理和保護。線程適合在SMP機器（雙CPU系統）上運行。進程執行開銷大，但是能夠很好的進行資源管理和保護。進程可以跨機器前移。

（四）、使用場景

對資源的管理和保護要求高，不限制開銷和效率時，使用多進程。

要求效率高，頻繁切換時，資源的保護管理要求不是很高時，使用多線程。

三、線程的狀態

線程共包括以下5種狀態，也叫生命周期。
1. 新建狀態(New) ：線程對象被創建后，就進入了新建狀態。例如，Thread thread = new Thread()。
2. 就緒狀態(Runnable)：也被稱為“可執行狀態”。線程對象被創建后，其它線程調用了該對象的start()方法，從而來啟動該線程。例如，thread.start()。處於就緒狀態的線程，隨時可能被CPU調度執行。
3. 運行狀態(Running) ：線程獲取CPU權限進行執行。需要注意的是，線程只能從就緒狀態進入到運行狀態。
4. 阻塞狀態(Blocked) ：阻塞狀態是線程因為某種原因放棄CPU使用權，暫時停止運行。直到線程進入就緒狀態，才有機會轉到運行狀態。阻塞的情況分三種：
① 等待阻塞 — 通過調用線程的wait()方法，讓線程等待某工作的完成。
② 同步阻塞 — 線程在獲取 synchronized 同步鎖失敗(因為鎖被其它線程所佔用)，它會進入同步阻塞狀態。
③ 其他阻塞 — 通過調用線程的sleep()或join()或發出了I/O請求時，線程會進入到阻塞狀態。當sleep()狀態超時、join()等待線程終止或者超時、或者I/O處理完畢時，線程重新轉入就緒狀態。
5. 死亡狀態(Dead) ：線程執行完了或者因異常退出了run()方法，該線程結束生命周期。

四、多線程的原理

五、進程、線程實現多任務模式

（一）、多進程模式（一個進程只有一個線程）

（二）、多線程模式（一個進程有多個線程）

（三）、多進程 + 多線程模式（複雜度最高）

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※別再煩惱如何寫文案,掌握八大原則!

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※超省錢租車方案

※教你寫出一流的銷售文案?

※網頁設計最專業,超強功能平台可客製化

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

“造輪運動”之 ORM框架系列（三）~ 乾貨呈上

Posted on 2021-03-102021-03-10 by admin

　　這一趴裏面，我就來正式介紹一下CoffeeSQL的乾貨。

　首先要給CoffeeSQL來個定位：最開始就是由於本人想要了解ORM框架內部的原理，所以就四處搜尋有關的博客與學習資料，就是在那個夏天，在博客園上看到了一位7tiny老哥的博客（https://www.cnblogs.com/7tiny/p/9575230.html），裏面基本上包含了我所想要了解的全套內容。幸得7tiny老哥的博客和代碼都寫的非常清晰，所以沒花多久時間就看完了源碼並洞悉其中奧妙，於是自己就有個想法：在7tiny的開源代碼的基礎上歸納自己的ORM框架。於是出於學習與自我使用的目的就開始了擴展功能的道路，到現在為止，自己已經在公司的一個項目中用上了，效果還不錯。在這裏也感謝7tiny老哥對我提出的一些問題及時的回復和指導，真心感謝。

一、框架模塊介紹

　　根據CoffeeSQL的功能模塊組成來劃分，可以分為：數據庫連接管理、SQL命令執行入口、SQL命令生成器、SQL查詢引擎、ORM緩存機制、實體數據驗證 這六個部分，CoffeeSQL的操作入口與其他的ORM框架一樣，都是以數據庫上下文（DBContext）的方式進行操作。整體結構圖如下：

下面就大致地介紹一下每一個模塊的具體功能與實現的思路：

1、數據庫連接管理（DBConnectionManagement）

　　數據庫連接的管理實際上就是對數據庫連接字符串與其對應的數據庫連接對象的管理機制，它可以保證在進行一主多從的數據庫部署時ORM幫助我們自動地切換連接的數據庫，而且還支持 <最小使用>與 <輪詢>兩種數據庫連接切換策略。

2、SQL命令執行入口（QueryExecute）

　　QueryExecute是CoffeeSQL生成的所有sql語句執行的入口，執行sql語句並返回結果，貫穿整個CoffeeSQL最核心的功能就是映射sql查詢結果到實體，這裏採用的是構建表達式樹的技術，性能大大優於反射獲取實體的方式，具體的兩者速度對比的實驗在7tiny的博客中有詳細介紹，大家可以移步觀看（https://www.cnblogs.com/7tiny/p/9861166.html），在我的博客（https://www.cnblogs.com/MaMaNongNong/p/12173620.html）中我使用表達式樹的技術造了個簡練版的OOM框架。

　　這裏貼出核心代碼，方便查看：

  1     /// <summary>
  2     /// Auto Fill Adapter
  3     /// => Fill DataRow to Entity
  4     /// </summary>
  5     public class EntityFillAdapter<Entity>
  6     {
  7         private static readonly Func<DataRow, Entity> funcCache = GetFactory();
  8 
  9         public static Entity AutoFill(DataRow row)
 10         {
 11             return funcCache(row);
 12         }
 13 
 14         private static Func<DataRow, Entity> GetFactory()
 15         {
 16             #region get Info through Reflection
 17             var entityType = typeof(Entity);
 18             var rowType = typeof(DataRow);
 19             var convertType = typeof(Convert);
 20             var typeType = typeof(Type);
 21             var columnCollectionType = typeof(DataColumnCollection);
 22             var getTypeMethod = typeType.GetMethod("GetType", BindingFlags.Static | BindingFlags.Public, null, new[] { typeof(string) }, null);
 23             var changeTypeMethod = convertType.GetMethod("ChangeType", BindingFlags.Static | BindingFlags.Public, null, new[] { typeof(object), typeof(Type) }, null);
 24             var containsMethod = columnCollectionType.GetMethod("Contains");
 25             var rowIndexerGetMethod = rowType.GetMethod("get_Item", BindingFlags.Instance | BindingFlags.Public, null, new[] { typeof(string) }, new[] { new ParameterModifier(1) });
 26             var columnCollectionIndexerGetMethod = columnCollectionType.GetMethod("get_Item", BindingFlags.Instance | BindingFlags.Public, null, new[] { typeof(int) }, new[] { new ParameterModifier(1) });
 27             var entityIndexerSetMethod = entityType.GetMethod("set_Item", BindingFlags.Instance | BindingFlags.NonPublic, null, new[] { typeof(string), typeof(object) }, null);
 28             var properties = entityType.GetProperties(BindingFlags.Instance | BindingFlags.Public);
 29             #endregion
 30 
 31             #region some Expression class that can be repeat used
 32             //DataRow row
 33             var rowDeclare = Expression.Parameter(rowType, "row");
 34             //Student entity
 35             var entityDeclare = Expression.Parameter(entityType, "entity");
 36             //Type propertyType
 37             var propertyTypeDeclare = Expression.Parameter(typeof(Type), "propertyType");
 38             //new Student()
 39             var newEntityExpression = Expression.New(entityType);
 40             //row == null
 41             var rowEqualnullExpression = Expression.Equal(rowDeclare, Expression.Constant(null));
 42             //row.Table.Columns
 43             var rowTableColumns = Expression.Property(Expression.Property(rowDeclare, "Table"), "Columns");
 44             //int loopIndex
 45             var loopIndexDeclare = Expression.Parameter(typeof(int), "loopIndex");
 46             //row.Table.Columns[loopIndex].ColumnName
 47             var columnNameExpression = Expression.Property(Expression.Call(rowTableColumns, columnCollectionIndexerGetMethod, loopIndexDeclare), "ColumnName");
 48             //break;
 49             LabelTarget labelBreak = Expression.Label();
 50             //default(Student)
 51             var defaultEntityValue = Expression.Default(entityType);
 52             #endregion
 53 
 54             var setRowNotNullBlockExpressions = new List<Expression>();
 55                         
 56             #region entity = new Student();loopIndex = 0;
 57             setRowNotNullBlockExpressions.Add(Expression.Assign(entityDeclare, newEntityExpression));
 58             setRowNotNullBlockExpressions.Add(Expression.Assign(loopIndexDeclare, Expression.Constant(0)));
 59 
 60             #endregion
 61 
 62             #region loop Fill DataRow's field to Entity Indexer
 63             /*
 64              * while (true)
 65              * {
 66              *     if (loopIndex < row.Table.Columns.Count)
 67              *     {
 68              *         entity[row.Table.Columns[loopIndex].ColumnName] = row[row.Table.Columns[loopIndex].ColumnName];
 69              *         loopIndex++;
 70              *     }
 71              *     else break;
 72              * } 
 73              */
 74 
 75             setRowNotNullBlockExpressions.Add(
 76 
 77                 Expression.Loop(
 78                     Expression.IfThenElse(
 79                         Expression.LessThan(loopIndexDeclare, Expression.Property(rowTableColumns, "Count")),
 80                         Expression.Block(
 81                             Expression.Call(entityDeclare, entityIndexerSetMethod, columnNameExpression, Expression.Call(rowDeclare, rowIndexerGetMethod, columnNameExpression)),
 82                             Expression.PostIncrementAssign(loopIndexDeclare)
 83                         ),
 84                         Expression.Break(labelBreak)
 85                     ),
 86                     labelBreak
 87                 )
 88             );
 89             #endregion
 90 
 91             #region assign for Entity property
 92             foreach (var propertyInfo in properties)
 93             {
 94                 var columnAttr = propertyInfo.GetCustomAttribute(typeof(ColumnAttribute), true) as ColumnAttribute;
 95 
 96                 // no column , no translation
 97                 if (null == columnAttr) continue;
 98 
 99                 if (propertyInfo.CanWrite)
100                 {
101                     var columnName = Expression.Constant(columnAttr.GetName(propertyInfo.Name), typeof(string));
102 
103                     //entity.Id
104                     var propertyExpression = Expression.Property(entityDeclare, propertyInfo);
105                     //row["Id"]
106                     var value = Expression.Call(rowDeclare, rowIndexerGetMethod, columnName);
107                     //default(string)
108                     var defaultValue = Expression.Default(propertyInfo.PropertyType);
109                     //row.Table.Columns.Contains("Id")
110                     var checkIfContainsColumn = Expression.Call(rowTableColumns, containsMethod, columnName);
111                     //!row["Id"].Equals(DBNull.Value)
112                     var checkDBNull = Expression.NotEqual(value, Expression.Constant(System.DBNull.Value));
113                     
114                     var propertyTypeName = Expression.Constant(propertyInfo.PropertyType.ToString(), typeof(string));
115 
116                     /*
117                      * if (row.Table.Columns.Contains("Id") && !row["Id"].Equals(DBNull.Value))
118                      * {
119                      *     propertyType = Type.GetType("System.String");
120                      *     entity.Id = (string)Convert.ChangeType(row["Id"], propertyType);
121                      * }
122                      * else
123                      *     entity.Id = default(string);
124                      */
125                     setRowNotNullBlockExpressions.Add(
126 
127                         Expression.IfThenElse(
128                             Expression.AndAlso(checkIfContainsColumn, checkDBNull),
129                             Expression.Block(
130                                 Expression.Assign(propertyTypeDeclare, Expression.Call(getTypeMethod, propertyTypeName)),
131                                 Expression.Assign(propertyExpression, Expression.Convert(Expression.Call(changeTypeMethod, value, propertyTypeDeclare), propertyInfo.PropertyType))
132                             ),
133                             Expression.Assign(propertyExpression, defaultValue)
134                         )
135                     );
136                 }
137             }
138 
139             #endregion
140 
141             var checkIfRowIsNull = Expression.IfThenElse(
142                 rowEqualnullExpression,
143                 Expression.Assign(entityDeclare, defaultEntityValue),
144                 Expression.Block(setRowNotNullBlockExpressions)
145             );
146 
147             var body = Expression.Block(
148 
149                 new[] { entityDeclare, loopIndexDeclare, propertyTypeDeclare },
150                 checkIfRowIsNull,
151                 entityDeclare   //return Student;
152             );
153 
154             return Expression.Lambda<Func<DataRow, Entity>>(body, rowDeclare).Compile();
155         }
156     }
157 
158     #region
159     //public class Student : EntityDesign.EntityBase
160     //{
161     //    [Column]
162     //    public string Id { get; set; }
163 
164     //    [Column("StudentName")]
165     //    public string Name { get; set; }
166     //}
167     ////this is the template of "GetFactory()" created.
168     //public static Student StudentFillAdapter(DataRow row)
169     //{
170     //    Student entity;
171     //    int loopIndex;
172     //    Type propertyType;
173 
174     //    if (row == null)
175     //        entity = default(Student);
176     //    else
177     //    {
178     //        entity = new Student();
179     //        loopIndex = 0;
180 
181     //        while (true)
182     //        {
183     //            if (loopIndex < row.Table.Columns.Count)
184     //            {
185     //                entity[row.Table.Columns[loopIndex].ColumnName] = row[row.Table.Columns[loopIndex].ColumnName];
186     //                loopIndex++;
187     //            }
188     //            else break;
189     //        }
190 
191     //        if (row.Table.Columns.Contains("Id") && !row["Id"].Equals(DBNull.Value))
192     //        {
193     //            propertyType = Type.GetType("System.String");
194     //            entity.Id = (string)Convert.ChangeType(row["Id"], propertyType);
195     //        }
196     //        else
197     //            entity.Id = default(string);
198 
199     //        if (row.Table.Columns.Contains("StudentName") && !row["StudentName"].Equals(DBNull.Value))
200     //        {
201     //            propertyType = Type.GetType("System.String");
202     //            entity.Name = (string)Convert.ChangeType(row["StudentName"], propertyType);
203     //        }
204     //        else
205     //            entity.Name = default(string);
206     //    }
207 
208     //    return entity;
209     //}
210     #endregion

EntityFillAdapter（表達式樹技術）

3、SQL查詢引擎（QueryEngine）

　　SQL查詢引擎的功能主要就是以函數的形式來構建查詢SQL的結構。將sql語句使用高級語言的函數來進行構建能大大減輕程序員必須一絲不苟編寫sql語句的壓力。特別是在使用強類型查詢引擎時以Lambda表達式的方式編寫程序，相當舒適的體驗；對於稍微複雜的sql，建議使用弱類型查詢引擎來構建sql查詢語句，同時也提供方便的分頁功能，用法與Dapper類似；再複雜一點的數據庫查詢邏輯可能你就要考慮使用存儲過程查詢引擎了，總之，有了這三個查詢引擎，所有的查詢需求都能滿足了。最後一個是update的執行引擎，它被用來構建update的語句。

4、實體數據驗證（EntityValidation）

　　實體數據驗證是完全獨立的一部分，主要用來檢驗實體類中字段值的合法性，相當於在高級語言層面對即將持久化到數據庫表中的數據進行預先的字段合法性校驗，避免在持久化過程中發生不必要的字段格式不合法的錯誤。

5、ORM緩存機制（ORMCache）

　　這裏的ORM緩存主要分為兩級緩存，一級緩存為以sql語句為緩存鍵的緩存，緩存的內容就是當前執行的sql語句的執行結果；而二級緩存則是以表名為緩存鍵的表緩存，就是會把一整個表的數據全部存入緩存中，所以表緩存最適合那些數據量不大且查詢頻繁的表。

6、SQL命令生成器【強類型】（CommandTextGenerator）

　　在使用諸如強類型查詢引擎、Update執行引擎等進行了強類型的SQL語句構造后，相應的sql構造信息都要通過SQL命令生成器來生成最終可由數據庫執行的sql語句。SQL命令生成器扮演的就是類似於翻譯官的角色，將高級語言中的語句轉化為數據庫中的sql語句。在實際的應用場景中還可以根據不同的數據庫類型將SQL命令生成器擴展成諸如Mysql-SQL命令生成器或者Oracle-SQL命令生成器以符合不同類型數據庫的不同sql語法。

7、數據庫上下文（DBContext）

　　作為整個CoffeeSQL的操作入口，DBContext類涵蓋了各種配置參数字段與增刪改查的API調用函數。其中在事務處理中，由於寫操作都是通過對主庫的操作，所以在事務處理中是以主庫作為事務處理的對象。

二、使用方式

　　下載CoffeeSql源碼進行編譯，你會得到 CoffeeSql.Core.dll、CoffeeSql.Oracle.dll、CoffeeSql.Mysql.dll 三個dll文件，其中CoffeeSql.Core.dll為必選，然後根據你的數據庫類型選擇是CoffeeSql.Oracle.dll或者CoffeeSql.Mysql.dll，目前還只支持這兩種數據庫，後續會支持更多數據庫。

三、展望

　　路漫漫其修遠兮，吾將上下而求索，對比市面上火熱的ORM框架，CoffeeSQL還是缺少了一些實用的功能，對這個ORM框架的展望中我會考慮以下一些功能：

　 1、CodeFirst、DbFirst功能的支持，可以快捷方便地進行實體類與數據庫建表sql的生成；

　 2、批量插入操作的實現，可以提高批量插入數據的性能；

　 3、對多表聯合查詢的lambda語法支持；

　　

　　介紹的再多都不如讀一遍源碼來的實在，有想深入了解orm原理的小夥伴可以閱讀一下源碼，真的SO EASY!

　　源碼地址：https://gitee.com/xiaosen123/CoffeeSqlORM

　　本文為作者原創，轉載請註明出處：https://www.cnblogs.com/MaMaNongNong/p/12896787.html

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※網頁設計最專業,超強功能平台可客製化

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※回頭車貨運收費標準

※推薦評價好的iphone維修中心

※教你寫出一流的銷售文案?

※台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!

※台中搬家公司費用怎麼算?

Alink漫談(六) : TF-IDF算法的實現

Posted on 2021-03-102021-03-10 by admin

Alink漫談(六) : TF-IDF算法的實現

目錄

Alink漫談(六) : TF-IDF算法的實現
- 0x00 摘要
- 0x01 TF-IDF
  - 1.1 原理
  - 1.2 計算方法
- 0x02 Alink示例代碼
  - 2.1 示例代碼
  - 2.2 TF-IDF模型
  - 2.3 TF-IDF預測
- 0x03 分詞 Segment
  - 3.1 結巴分詞
  - 3.2 分詞過程
- 0x04 訓練
  - 4.1 計算IDF
  - 4.2 排序
    - 4.2.1 SortUtils.pSort
      - 採樣SampleSplitPoint
      - 歸併 SplitPointReducer
      - SplitData把真實數據IDF插入
      - reduceGroup計算同類型單詞數目
    - 4.2.2 localSort
  - 4.3 過濾
- 0x05 生成模型
  - 5.1 DocCountVectorizerModelData
  - 5.2 BuildDocCountModel
- 0x06 預測
- 0x07 參考

0x00 摘要

Alink 是阿里巴巴基於實時計算引擎 Flink 研發的新一代機器學習算法平台，是業界首個同時支持批式算法、流式算法的機器學習平台。TF-IDF（term frequency–inverse document frequency）是一種用於信息檢索與數據挖掘的常用加權技術。本文將為大家展現Alink如何實現TF-IDF。

0x01 TF-IDF

TF-IDF（term frequency–inverse document frequency）是一種統計方法，一種用於信息檢索與數據挖掘的常用加權技術。

TF是詞頻(Term Frequency)，IDF是逆文本頻率指數(Inverse Document Frequency)。

為什麼要用TF-IDF？因為計算機只能識別数字，對於一個一個的單詞，計算機是看不懂的，更別說是一句話，或是一篇文章。而TF-IDF就是用來將文本轉換成計算機看得懂的語言，或者說是機器學習或深度學習模型能夠進行學習訓練的數據集。

1.1 原理

TF-IDF用以評估一個詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加，但同時會隨着它在語料庫中出現的頻率成反比下降。

TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。

TF-IDF實際上是：TF * IDF，TF詞頻(Term Frequency)，IDF逆向文件頻率(Inverse Document Frequency)。

詞頻（term frequency，TF）指的是某一個給定的詞語在該文件中出現的頻率。這個数字是對詞數(term count)的歸一化，以防止它偏向長的文件（同一個詞語在長文件里可能會比短文件有更高的詞數，而不管該詞語重要與否）。

而IDF逆向文件頻率 (inverse document frequency, IDF)反應了一個詞在所有文本（整個文檔）中出現的頻率，如果一個詞在很多的文本中出現，那麼它的IDF值應該低。而反過來如果一個詞在比較少的文本中出現，那麼它的IDF值應該高。比如一些專業的名詞如“Machine Learning”。這樣的詞IDF值應該高。一個極端的情況，如果一個詞在所有的文本中都出現，那麼它的IDF值應該為0。

如果單單以TF或者IDF來計算一個詞的重要程度都是片面的，因此TF-IDF綜合了TF和IDF兩者的優點，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加，但同時會隨着它在語料庫中出現的頻率成反比下降。上述引用總結就是：一個詞語在一篇文章中出現次數越多, 同時在所有文檔中出現次數越少, 越能夠代表該文章，越能與其它文章區分開來。

1.2 計算方法

TF的計算公式如下：

\[TF_w = \frac {N_w}{N} \]

其中 N_w 是在某一文本中詞條w出現的次數，N 是該文本總詞條數。

IDF的計算公式如下：

\[IDF_w = log(\frac {Y}{Y_w + 1}) \]

其中 Y 是語料庫的文檔總數，Y_w 是包含詞條w的文檔數，分母加一是為了避免w 未出現在任何文檔中從而導致分母為0 的情況。

TF-IDF 就是將TF和IDF相乘 :

\[TF-IDF_w = TF_w * IDF_w \]

從以上計算公式便可以看出，某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向於過濾掉常見的詞語，保留重要的詞語。

0x02 Alink示例代碼

2.1 示例代碼

首先我們給出示例代碼，下文是通過一些語料來訓練出一個模型，然後用這個模型來做預測：

public class DocCountVectorizerExample {

    AlgoOperator getData(boolean isBatch) {
        Row[] rows = new Row[]{
                Row.of(0, "二手舊書:醫學電磁成像"),
                Row.of(1, "二手美國文學選讀（ 下冊 ）李宜燮南開大學出版社 9787310003969"),
                Row.of(2, "二手正版圖解象棋入門/謝恩思主編/華齡出版社"),
                Row.of(3, "二手中國糖尿病文獻索引"),
                Row.of(4, "二手郁達夫文集（ 國內版 ）全十二冊館藏書")
        };

        String[] schema = new String[]{"id", "text"};

        if (isBatch) {
            return new MemSourceBatchOp(rows, schema);
        } else {
            return new MemSourceStreamOp(rows, schema);
        }
    }

    public static void main(String[] args) throws Exception {
        DocCountVectorizerExample test = new DocCountVectorizerExample();
        BatchOperator batchData = (BatchOperator) test.getData(true);

         // 分詞
        SegmentBatchOp segment = new SegmentBatchOp() 
                                                .setSelectedCol("text")
                                                .linkFrom(batchData);
        // TF-IDF訓練
        DocCountVectorizerTrainBatchOp model = new DocCountVectorizerTrainBatchOp()
                                                .setSelectedCol("text")
                                                .linkFrom(segment);
        // TF-IDF預測
        DocCountVectorizerPredictBatchOp predictBatch = new 
            																		DocCountVectorizerPredictBatchOp()
                                                .setSelectedCol("text")
                                                .linkFrom(model, segment);
        model.print();
        predictBatch.print();
    }
}

2.2 TF-IDF模型

TF-IDF模型打印出來如下：

model_id|model_info
--------|----------
0|{"minTF":"1.0","featureType":"\"WORD_COUNT\""}
1048576|{"f0":"二手","f1":0.0,"f2":0}
2097152|{"f0":"/","f1":1.0986122886681098,"f2":1}
3145728|{"f0":"出版社","f1":0.6931471805599453,"f2":2}
4194304|{"f0":"）","f1":0.6931471805599453,"f2":3}
5242880|{"f0":"（","f1":0.6931471805599453,"f2":4}
6291456|{"f0":"入門","f1":1.0986122886681098,"f2":5}
......
36700160|{"f0":"美國","f1":1.0986122886681098,"f2":34}
37748736|{"f0":"謝恩","f1":1.0986122886681098,"f2":35}
38797312|{"f0":"象棋","f1":1.0986122886681098,"f2":36}

2.3 TF-IDF預測

TF-IDF預測結果如下：

id|text
--|----
0|$37$0:1.0 6:1.0 10:1.0 25:1.0 26:1.0 28:1.0
1|$37$0:1.0 1:1.0 2:1.0 4:1.0 11:1.0 15:1.0 16:1.0 19:1.0 20:1.0 32:1.0 34:1.0
2|$37$0:1.0 3:2.0 4:1.0 5:1.0 8:1.0 22:1.0 23:1.0 24:1.0 29:1.0 35:1.0 36:1.0
3|$37$0:1.0 12:1.0 27:1.0 31:1.0 33:1.0
4|$37$0:1.0 1:1.0 2:1.0 7:1.0 9:1.0 13:1.0 14:1.0 17:1.0 18:1.0 21:1.0 30:1.0

0x03 分詞 Segment

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

示例代碼中，分詞部分如下：

    SegmentBatchOp segment = new SegmentBatchOp() 
                                            .setSelectedCol("text")
                                            .linkFrom(batchData);

分詞主要是如下兩個類，其作用就是把中文文檔分割成單詞。

public final class SegmentBatchOp extends MapBatchOp <SegmentBatchOp>
	implements SegmentParams <SegmentBatchOp> {

	public SegmentBatchOp(Params params) {
		super(SegmentMapper::new, params);
	}
}

public class SegmentMapper extends SISOMapper {
	private JiebaSegmenter segmentor;
}

3.1 結巴分詞

有經驗的同學看到這裏就會露出微笑：結巴分詞。

jieba分詞是國內使用人數最多的中文分詞工具https://github.com/fxsjy/jieba。jieba分詞支持四種分詞模式：

精確模式，試圖將句子最精確地切開，適合文本分析；
全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。
paddle模式，利用PaddlePaddle深度學習框架，訓練序列標註（雙向GRU）網絡模型實現分詞。

Alink使用了com.alibaba.alink.operator.common.nlp.jiebasegment.viterbi.FinalSeg;來完成分詞。具體是在https://github.com/huaban/jieba-analysis的基礎上稍微做了調整。

public class JiebaSegmenter implements Serializable {
    private static FinalSeg finalSeg = FinalSeg.getInstance();
    private WordDictionary wordDict;
    ......
    private Map<Integer, List<Integer>> createDAG(String sentence) 
}

從Alink代碼中看，實現了索引分詞和查詢分詞兩種模式，應該是有分詞粒度粗細之分。

createDAG函數的作用是：在處理句子過程中，基於前綴詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)。

結巴分詞對於未登錄詞，採用了基於漢字成詞能力的 HMM 模型，使用了 Viterbi 算法。

3.2 分詞過程

分詞過程主要是在SegmentMapper.mapColumn函數中完成的，當輸入是 “二手舊書:醫學電磁成像”，結巴分詞將這個句子分成了六個單詞。具體參見如下：

input = "二手舊書:醫學電磁成像"
tokens = {ArrayList@9619}  size = 6
 0 = {SegToken@9630} "[二手, 0, 2]"
 1 = {SegToken@9631} "[舊書, 2, 4]"
 2 = {SegToken@9632} "[:, 4, 5]"
 3 = {SegToken@9633} "[醫學, 5, 7]"
 4 = {SegToken@9634} "[電磁, 7, 9]"
 5 = {SegToken@9635} "[成像, 9, 11]"
 
mapColumn:44, SegmentMapper (com.alibaba.alink.operator.common.nlp)
apply:-1, 35206803 (com.alibaba.alink.common.mapper.SISOMapper$$Lambda$646)
handleMap:75, SISOColsHelper (com.alibaba.alink.common.mapper)
map:52, SISOMapper (com.alibaba.alink.common.mapper)
map:21, MapperAdapter (com.alibaba.alink.common.mapper)
map:11, MapperAdapter (com.alibaba.alink.common.mapper)
collect:79, ChainedMapDriver (org.apache.flink.runtime.operators.chaining)
collect:35, CountingCollector (org.apache.flink.runtime.operators.util.metrics)
invoke:196, DataSourceTask (org.apache.flink.runtime.operators)

0x04 訓練

訓練是在DocCountVectorizerTrainBatchOp類完成的，其通過linkFrom完成了模型的構建。其實計算TF IDF相對簡單，複雜之處在於之後的大規模排序。

public DocCountVectorizerTrainBatchOp linkFrom(BatchOperator<?>... inputs) {
        BatchOperator<?> in = checkAndGetFirst(inputs);
  
        DataSet<DocCountVectorizerModelData> resDocCountModel = generateDocCountModel(getParams(), in);

        DataSet<Row> res = resDocCountModel.mapPartition(new MapPartitionFunction<DocCountVectorizerModelData, Row>() {
            @Override
            public void mapPartition(Iterable<DocCountVectorizerModelData> modelDataList, Collector<Row> collector) {
                new DocCountVectorizerModelDataConverter().save(modelDataList.iterator().next(), collector);
            }
        });
        this.setOutput(res, new DocCountVectorizerModelDataConverter().getModelSchema());
        return this;
}

4.1 計算IDF

計算 IDF 的工作是在generateDocCountModel完成的，具體步驟如下：

第一步通過DocWordSplitCount和UDTF的混合使用得到了文檔中的單詞數目docWordCnt。

BatchOperator<?> docWordCnt = in.udtf(
        params.get(SELECTED_COL),
        new String[] {WORD_COL_NAME, DOC_WORD_COUNT_COL_NAME},
        new DocWordSplitCount(NLPConstant.WORD_DELIMITER),
        new String[] {});

DocWordSplitCount.eval的輸入是已經分詞的句子，然後按照空格分詞，按照單詞計數。其結果是：

map = {HashMap@9816}  size = 6
 "醫學" -> {Long@9833} 1
 "電磁" -> {Long@9833} 1
 ":" -> {Long@9833} 1
 "成像" -> {Long@9833} 1
 "舊書" -> {Long@9833} 1
 "二手" -> {Long@9833} 1

第二步得到了文檔數目docCnt

BatchOperator docCnt = in.select("COUNT(1) AS " + DOC_COUNT_COL_NAME);

這個數目會廣播出去 .withBroadcastSet(docCnt.getDataSet(), "docCnt");，後面的CalcIdf會繼續使用，進行行數統計。

第三步會通過CalcIdf計算出每一個單詞的DF和IDF。

open時候會獲取docCnt。然後reduce會計算IDF，具體計算如下：

double idf = Math.log((1.0 + docCnt) / (1.0 + df));
collector.collect(Row.of(featureName, -wordCount, idf));

具體得到如下

df = 1.0
wordCount = 1.0
featureName = "中國"
idf = 1.0986122886681098
docCnt = 5

這裏一個重點是：返回值中，是 -wordCount，因為單詞越多權重越小，為了比較所以取負。

4.2 排序

得到所有單詞的IDF之後，就得到了一個IDF字典，這時候需要對字典按照權重進行排序。排序具體分為兩步。

4.2.1 SortUtils.pSort

第一步是SortUtils.pSort，大規模并行抽樣排序。

Tuple2<DataSet<Tuple2<Integer, Row>>, DataSet<Tuple2<Integer, Long>>> partitioned = SortUtils.pSort(sortInput, 1);

這步非常複雜，Alink參考了論文，如果有興趣的兄弟可以深入了解下。

* reference: Yang, X. (2014). Chong gou da shu ju tong ji (1st ed., pp. 25-29).
* Note: This algorithm is improved on the base of the parallel sorting by regular sampling(PSRS).

pSort返回值是：

* @return f0: dataset which is indexed by partition id, f1: dataset which has partition id and count.

pSort中又分如下幾步

採樣SampleSplitPoint

SortUtils.SampleSplitPoint.mapPartition這裏完成了採樣。

DataSet <Tuple2 <Object, Integer>> splitPoints = input
   .mapPartition(new SampleSplitPoint(index))
   .reduceGroup(new SplitPointReducer());

這裏的輸入row就是上文IDF的返回數值。

用allValues記錄了本task目前處理的句子有多少個單詞。

用splitPoints做了採樣。如何選擇呢，通過genSampleIndex函數。

public static Long genSampleIndex(Long splitPointIdx, Long count, Long splitPointSize) {
   splitPointIdx++;
   splitPointSize++;

   Long div = count / splitPointSize;
   Long mod = count % splitPointSize;

   return div * splitPointIdx + ((mod > splitPointIdx) ? splitPointIdx : mod) - 1;
}

後續操作也使用同樣的genSampleIndex函數來做選擇，這樣保證在操作所有序列上可以選取同樣的採樣點。

allValues = {ArrayList@10264}  size = 8  //本task有多少單詞
 0 = {Double@10266} -2.0
 1 = {Double@10271} -1.0
 2 = {Double@10272} -1.0
 3 = {Double@10273} -1.0
 4 = {Double@10274} -1.0
 5 = {Double@10275} -1.0
 6 = {Double@10276} -1.0
 7 = {Double@10277} -1.0
 
splitPoints = {ArrayList@10265}  size = 7 //採樣了7個
 0 = {Double@10266} -2.0
 1 = {Double@10271} -1.0
 2 = {Double@10272} -1.0
 3 = {Double@10273} -1.0
 4 = {Double@10274} -1.0
 5 = {Double@10275} -1.0
 6 = {Double@10276} -1.0

最後返回採樣數據，返回時候附帶當前taskIDnew Tuple2 <Object, Integer>(obj,taskId)。

這裡有一個trick點

  for (Object obj : splitPoints) {
     Tuple2 <Object, Integer> cur
        = new Tuple2 <Object, Integer>(
        obj,
        taskId); //這裏返回的是類似 (-5.0,2) ：其中2就是task id，-5.0是-wordcount。
     out.collect(cur);
  }

  out.collect(new Tuple2(
     getRuntimeContext().getNumberOfParallelSubtasks(),
     -taskId - 1));//這裏返回的是一個特殊元素，類似(4,-2) ：其中4是本應用中并行task數目，-2是當前-taskId - 1。這個task數目後續就會用到。

具體數據參見如下：

row = {Row@10211} "中國,-1.0,1.0986122886681098"
 fields = {Object[3]@10214} 
 
cur = {Tuple2@10286} "(-5.0,2)" // 返回採樣數據，返回時候附帶當前taskID
 f0 = {Double@10285} -5.0 // -wordcount。
 f1 = {Integer@10300} 2 // 當前taskID

歸併 SplitPointReducer

歸併所有task生成的sample。然後再次sample，把sample數據組成一個數據塊，這個數據塊選擇的原則是：每個task都盡量選擇若干sample。

這裏其實是有一個轉換，就是從正常單詞的抽樣轉換到某一類單詞的抽樣，這某一類的意思舉例是：出現次數為一，或者出現次數為五這種單詞。

這裏all是所有採樣數據，其中一個元素內容舉例 (-5.0,2) ：其中2就是task id，-5.0是-wordcount。

這裏用 Collections.sort(all, new PairComparator()); 來對所有採樣數據做排序。排序基準是首先對 -wordcount，然後對task ID。

SplitPointReducer的返回採樣數值就作為廣播變量存儲起來：.withBroadcastSet(splitPoints, "splitPoints");

這裏的trick點是：

for (Tuple2 <Object, Integer> value : values) {
   if (value.f1 < 0) { 
      instanceCount = (int) value.f0;  // 特殊數據，類似(4,-2) ：其中4是本應用中task數目，這個就是後續選擇哪些taskid的基準
      continue;
   }
   all.add(new Tuple2 <>(value.f0, value.f1)); // (-5.0,2) 正常數據
}

選擇sample index splitPoints.add(allValues.get(index));也使用了同樣的genSampleIndex。

計算中具體數據如下：

for (int i = 0; i < splitPointSize; ++i) {
		int index = genSampleIndex(
					Long.valueOf(i),
					Long.valueOf(count),
					Long.valueOf(splitPointSize))
					.intValue();
		spliters.add(all.get(index));
}
for (Tuple2 <Object, Integer> spliter : spliters) {
		out.collect(spliter);
}

count = 33
all = {ArrayList@10245}  size = 33 // 所有採樣數據，
0 = {Tuple2@10256} "(-5.0,2)"// 2就是task id，-5.0是-wordcount。
1 = {Tuple2@10285} "(-2.0,0)"
......
6 = {Tuple2@10239} "(-1.0,0)"
7 = {Tuple2@10240} "(-1.0,0)"
8 = {Tuple2@10241} "(-1.0,0)"
9 = {Tuple2@10242} "(-1.0,0)"
10 = {Tuple2@10243} "(-1.0,0)"
11 = {Tuple2@10244} "(-1.0,1)"
......
16 = {Tuple2@10278} "(-1.0,1)"
......
24 = {Tuple2@10279} "(-1.0,2)"
......
32 = {Tuple2@10313} "(-1.0,3)"
  
// spliters是返回結果，這裏分別選取了all中index為8,16,24這個三個record。每個task都選擇了一個元素。
spliters = {HashSet@10246}  size = 3
 0 = {Tuple2@10249} "(-1.0,0)" // task 0 被選擇。就是說，這裏從task 0中選擇了一個count是1的元素，具體選擇哪個單詞其實不重要，就是為了選擇count是1的這種即可。
 1 = {Tuple2@10250} "(-1.0,1)" // task 1 被選擇。具體同上。
 2 = {Tuple2@10251} "(-1.0,2)" // task 2 被選擇。具體同上。

SplitData把真實數據IDF插入

use binary search to partition data into sorted subsets。前面函數給出的是詞的count，但是沒有IDF。這裏將用二分法查找找到IDF，然後把IDF插入到partition data中。

首先要注意一點：splitData的輸入就是原始輸入input, 和splitPoints的輸入是一樣的。

DataSet <Tuple2 <Integer, Row>> splitData = input
   .mapPartition(new SplitData(index))
   .withBroadcastSet(splitPoints, "splitPoints");

open函數中會取出廣播變量 splitPoints。

splitPoints = {ArrayList@10248}  size = 3
 0 = {Tuple2@10257} "(-1.0,0)"
 1 = {Tuple2@10258} "(-1.0,1)"
 2 = {Tuple2@10259} "(-1.0,2)"

本函數的輸入舉例

row = {Row@10232} "入門,-1.0,1.0986122886681098"

會在splitPoints中二分法查找，得到splits中每一個 sample 對應的真實IDF。然後發送出去。

這裏需要特殊說明下，這個二分法查找查找的是IDF數值，比如count為1的這種單詞對應的IDF數值，可能很多單詞都是count為1，所以找到一個這樣單詞的IDF即可。

splitPoints = {ArrayList@10223}  size = 3
 0 = {Tuple2@10229} "(-1.0,0)"
 1 = {Tuple2@10230} "(-1.0,1)"
 2 = {Tuple2@10231} "(-1.0,2)"
curTuple.f0 = {Double@10224} -1.0
  
int bsIndex = Collections.binarySearch(splitPoints, curTuple, new PairComparator());

		int curIndex;
		if (bsIndex >= 0) {
			curIndex = bsIndex;
		} else {
			curIndex = -bsIndex - 1;
		}

// 假設單詞是 "入門"，則發送的是 "入門" 這類單詞在本partition的index，和 "入門" 的單詞本身
// 其實，從調試過程看，是否發送單詞信息本身並不重要，因為接下來的那一步操作中，並沒有用到單詞本身信息
out.collect(new Tuple2 <>(curIndex, row));

reduceGroup計算同類型單詞數目

這裡是計算在某一partition中，某一種類單詞的數目。比如count為1的單詞，這種單詞總共有多少個。

後續會把new Tuple2 <>(id, count)作為partitionCnt廣播變量存起來。

id就是這類單詞在這partition中間的index，我們暫時稱之為partition index。count就是這類單詞在本partition的數目。

// 輸入舉例
value = {Tuple2@10312} "(0,入門,-1.0,1.0986122886681098)"
 f0 = {Integer@10313} 0
 
// 計算數目
for (Tuple2 <Integer, Row> value : values) {
		id = value.f0;
		count++;
}

out.collect(new Tuple2 <>(id, count));  
  
// 輸出舉例，假如是序號為0的這類單詞，其總體數目是12。這個序號0就是這類單詞在某一partition中的序號。就是上面的 curIndex。
id = {Integer@10313} 0
count = {Long@10338} 12

4.2.2 localSort

第二步是localSort。Sort a partitioned dataset. 最終排序並且會返回最終數值，比如 (29, “主編,-1.0,1.0986122886681098″)， 29就是”主編” 這個單詞在 IDF字典中的序號。

DataSet<Tuple2<Long, Row>> ordered = localSort(partitioned.f0, partitioned.f1, 1);

open函數中會獲取partitionCnt。然後計算出某一種類單詞，其在本partition之前所有partition中，這類單詞數目。

public void open(Configuration parameters) throws Exception {
		List <Tuple2 <Integer, Long>> bc = getRuntimeContext().getBroadcastVariable("partitionCnt");
		startIdx = 0L;
		int taskId = getRuntimeContext().getIndexOfThisSubtask();
		for (Tuple2 <Integer, Long> pcnt : bc) {
			if (pcnt.f0 < taskId) {
					startIdx += pcnt.f1;
			}
		}
}

bc = {ArrayList@10303}  size = 4
 0 = {Tuple2@10309} "(0,12)"  // 就是task0裏面，這種單詞有12個
 1 = {Tuple2@10310} "(2,9)"// 就是task1裏面，這種單詞有2個
 2 = {Tuple2@10311} "(1,7)"// 就是task2裏面，這種單詞有1個
 3 = {Tuple2@10312} "(3,9)"// 就是task3裏面，這種單詞有3個
// 如果本task id是4,則其startIdx為30。就是所有partition之中，它前面index所有單詞的和。

然後進行排序。Collections.sort(valuesList, new RowComparator(field));

valuesList = {ArrayList@10405}  size = 9
 0 = {Row@10421} ":,-1.0,1.0986122886681098"
 1 = {Row@10422} "主編,-1.0,1.0986122886681098"
 2 = {Row@10423} "國內,-1.0,1.0986122886681098"
 3 = {Row@10424} "文獻,-1.0,1.0986122886681098"
 4 = {Row@10425} "李宜燮,-1.0,1.0986122886681098"
 5 = {Row@10426} "糖尿病,-1.0,1.0986122886681098"
 6 = {Row@10427} "美國,-1.0,1.0986122886681098"
 7 = {Row@10428} "謝恩,-1.0,1.0986122886681098"
 8 = {Row@10429} "象棋,-1.0,1.0986122886681098"
  
  
// 最後返回時候，就是  (29, "主編,-1.0,1.0986122886681098")，29就是“主編”這個單詞在最終字典中的序號。
// 這個序號是startIdx + cnt，startIdx是某一種類單詞，其在本partition之前所有partition中，這類單詞數目。比如在本partition之前，這類單詞有28個，則本partition中，從29開始計數。就是最終序列號
	for (Row row : valuesList) {
		out.collect(Tuple2.of(startIdx + cnt, row));
		cnt++; // 這裏就是在某一類單詞中，單調遞增，然後賦值一個字典序列而已
	}  
cnt = 1
row = {Row@10336} "主編,-1.0,1.0986122886681098"
 fields = {Object[3]@10339} 
startIdx = 28

4.3 過濾

最後還要進行過濾，如果文字個數超出了字典大小，就拋棄多餘文字。

ordered.filter(new FilterFunction<Tuple2<Long, Row>>() {
    @Override
    public boolean filter(Tuple2<Long, Row> value) {
        return value.f0 < vocabSize;
    }
})

0x05 生成模型

具體生成模型代碼如下。

DataSet<DocCountVectorizerModelData> resDocCountModel = ordered.filter(new FilterFunction<Tuple2<Long, Row>>() {
    @Override
    public boolean filter(Tuple2<Long, Row> value) {
        return value.f0 < vocabSize;
    }
}).mapPartition(new BuildDocCountModel(params)).setParallelism(1);
return resDocCountModel;

其中關鍵類是 DocCountVectorizerModelData 和 BuildDocCountModel。

5.1 DocCountVectorizerModelData

這是向量信息。

/**
 * Save the data for DocHashIDFVectorizer.
 *
 * Save a HashMap: index(MurMurHash3 value of the word), value(Inverse document frequency of the word).
 */
public class DocCountVectorizerModelData {
    public List<String> list;
    public String featureType;
    public double minTF;
}

5.2 BuildDocCountModel

最終生成的模型信息如下，這個也就是之前樣例代碼給出的輸出。

modelData = {DocCountVectorizerModelData@10411} 
 list = {ArrayList@10409}  size = 37
  0 = "{"f0":"9787310003969","f1":1.0986122886681098,"f2":19}"
  1 = "{"f0":"下冊","f1":1.0986122886681098,"f2":20}"
  2 = "{"f0":"全","f1":1.0986122886681098,"f2":21}"
  3 = "{"f0":"華齡","f1":1.0986122886681098,"f2":22}"
  4 = "{"f0":"圖解","f1":1.0986122886681098,"f2":23}"
  5 = "{"f0":"思","f1":1.0986122886681098,"f2":24}"
  6 = "{"f0":"成像","f1":1.0986122886681098,"f2":25}"
  7 = "{"f0":"舊書","f1":1.0986122886681098,"f2":26}"
  8 = "{"f0":"索引","f1":1.0986122886681098,"f2":27}"
  9 = "{"f0":":","f1":1.0986122886681098,"f2":28}"
  10 = "{"f0":"主編","f1":1.0986122886681098,"f2":29}"
  11 = "{"f0":"國內","f1":1.0986122886681098,"f2":30}"
  12 = "{"f0":"文獻","f1":1.0986122886681098,"f2":31}"
  13 = "{"f0":"李宜燮","f1":1.0986122886681098,"f2":32}"
  14 = "{"f0":"糖尿病","f1":1.0986122886681098,"f2":33}"
  15 = "{"f0":"美國","f1":1.0986122886681098,"f2":34}"
  16 = "{"f0":"謝恩","f1":1.0986122886681098,"f2":35}"
  17 = "{"f0":"象棋","f1":1.0986122886681098,"f2":36}"
  18 = "{"f0":"二手","f1":0.0,"f2":0}"
  19 = "{"f0":"）","f1":0.6931471805599453,"f2":1}"
  20 = "{"f0":"/","f1":1.0986122886681098,"f2":2}"
  21 = "{"f0":"出版社","f1":0.6931471805599453,"f2":3}"
  22 = "{"f0":"（","f1":0.6931471805599453,"f2":4}"
  23 = "{"f0":"入門","f1":1.0986122886681098,"f2":5}"
  24 = "{"f0":"醫學","f1":1.0986122886681098,"f2":6}"
  25 = "{"f0":"文集","f1":1.0986122886681098,"f2":7}"
  26 = "{"f0":"正版","f1":1.0986122886681098,"f2":8}"
  27 = "{"f0":"版","f1":1.0986122886681098,"f2":9}"
  28 = "{"f0":"電磁","f1":1.0986122886681098,"f2":10}"
  29 = "{"f0":"選讀","f1":1.0986122886681098,"f2":11}"
  30 = "{"f0":"中國","f1":1.0986122886681098,"f2":12}"
  31 = "{"f0":"書","f1":1.0986122886681098,"f2":13}"
  32 = "{"f0":"十二冊","f1":1.0986122886681098,"f2":14}"
  33 = "{"f0":"南開大學","f1":1.0986122886681098,"f2":15}"
  34 = "{"f0":"文學","f1":1.0986122886681098,"f2":16}"
  35 = "{"f0":"郁達夫","f1":1.0986122886681098,"f2":17}"
  36 = "{"f0":"館藏","f1":1.0986122886681098,"f2":18}"
 featureType = "WORD_COUNT"
 minTF = 1.0

0x06 預測

預測業務邏輯是DocCountVectorizerModelMapper

首先我們可以看到 FeatureType，這個可以用來配置輸出哪種信息。比如可以輸出以下若干種：

public enum FeatureType implements Serializable {
    /**
     * IDF type, the output value is inverse document frequency.
     */
    IDF(
        (idf, termFrequency, tokenRatio) -> idf
    ),
    /**
     * WORD_COUNT type, the output value is the word count.
     */
    WORD_COUNT(
        (idf, termFrequency, tokenRatio) -> termFrequency
    ),
    /**
     * TF_IDF type, the output value is term frequency * inverse document frequency.
     */
    TF_IDF(
        (idf, termFrequency, tokenRatio) -> idf * termFrequency * tokenRatio
    ),
    /**
     * BINARY type, the output value is 1.0.
     */
    BINARY(
        (idf, termFrequency, tokenRatio) -> 1.0
    ),
    /**
     * TF type, the output value is term frequency.
     */
    TF(
        (idf, termFrequency, tokenRatio) -> termFrequency * tokenRatio
    );
}

其次，在open函數中，會加載模型，比如：

wordIdWeight = {HashMap@10838}  size = 37
 "醫學" -> {Tuple2@10954} "(6,1.0986122886681098)"
 "選讀" -> {Tuple2@10956} "(11,1.0986122886681098)"
 "十二冊" -> {Tuple2@10958} "(14,1.0986122886681098)"
...
 "華齡" -> {Tuple2@11022} "(22,1.0986122886681098)"
 "索引" -> {Tuple2@11024} "(27,1.0986122886681098)"
featureType = {DocCountVectorizerModelMapper$FeatureType@10834} "WORD_COUNT"

最後，預測時候調用predictSparseVector函數，會針對輸入 二手舊書 : 醫學電磁成像來進行匹配。生成稀疏向量SparseVector。

0|$37$0:1.0 6:1.0 10:1.0 25:1.0 26:1.0 28:1.0

以上表示那幾個單詞分別對應0 6 10 25 26 28 這幾個字典中對應序號的單詞，其在本句對應的出現數目都是一個。

0x07 參考

Tf-Idf詳解及應用

https://github.com/fxsjy/jieba

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※回頭車貨運收費標準

※推薦評價好的iphone維修中心

※超省錢租車方案

※台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

※推薦台中搬家公司優質服務,可到府估價