ゲストさん [ログイン]

大学特許のキーワード抽出および重要度分析について [印刷用 タイトルあり] [タイトルなし]

本サイトまたはコンテンツに関する お問合せ


キーワード分析TOP 「大学特許」年度別推移 「大学特許」大学別一覧 「大学特許」産学連携企業一覧

大学特許のキーワード抽出および重要度分析について


  1. 分析目的
  2. 分析方法
    1. ソフトウェア
    2. 利用モジュール
    3. キーワード抽出および重要度分析方法
      1. 1、インストール
      2. 2.分析データ
      3. 3.日本語形態素解析器「Mecab」を利用して形態素解析を行う。
      4. 4.専門用語抽出ソフトウェア「termextract」を利用してキーワードと重要度を抽出する。
  3. 参考

分析目的

大学特許で重要キーワードはなにか。

キーワードの重要度順はどうか。

重要キーワードの年別変化はどうか。

大学別に重要キーワードの分布はどうか。

産学連携特許において企業別重要キーワードの分布はどうか。

重要キーワードの類似語(関連語)はどうか。→ AI機械学習を利用して抽出。


分析方法

ソフトウェア

専門用語(キーワード)自動抽出システム

「専門用語自動抽出システム」は 東京大学情報基盤センター図書館電子化部門中川裕志教授および 横浜国立大学環境情報研究院森辰則助教授が共同で開発・提供しているものです。...[詳しくはもっとみる]


利用モジュール

専門用語(キーワード)自動抽出Python3モジュールtermextract【β版】

termextractはテキストデータから専門用語を取り出すためのPython3モジュールである。


コンセプト:専門用語の抽出とその重要度の計算
コンセプト:専門用語(キーワード)自動抽出Python3モジュールtermextract【β版】。 引用元:「専門用語(キーワード)自動抽出システム」
コンセプト:専門用語(キーワード)自動抽出Python3モジュールtermextract【β版】。 引用元:「専門用語(キーワード)自動抽出システム


キーワード抽出および重要度分析方法

1、インストール

Linuxサーバーにpythonをインストールした後、専門用語(キーワード)自動抽出Python3モジュールtermextract【β版】をインストール。


2.分析データ

大学特許「名称」約7万件(2017年12月末基準、公開特許)

分析データの一部を以下に表示。

変性ポリエチレングリコール溶液でガス中のSOxを除去する方法
フェムト秒レーザーパルスを用いた制御放出のための方法
スペクトラム拡散信号生成方法、生成装置、受信方法、および受信装置
ラミニンの角膜内皮細胞培養への応用
固定幅可変長の画素サンプル値文字列のマッチングが強化された画像圧縮方法及び装置
衛星信号伝送システムにおける予歪み
X線格子位相コントラストイメージング装置及び方法
アスコルビン酸トランスポーター
電子ビーム拡散断面用修整装置及び修整方法
光パラメトリック発振器のネットワークを使用する計算
アグリカナーゼ関連疾患の治療のためのアグリカナーゼ型ADAMTS種に対するヒト抗体
:
:


3.日本語形態素解析器「Mecab」を利用して形態素解析を行う。

import termextract.mecab
import termextract.core
from pprint import pprint 
f = open("mecab_out_sample.txt", "r", encoding="utf-8")
tagged_text = f.read()
print(tagged_text)

形態素解析結果の一部を以下に表示。

有機	名詞,一般,*,*,*,*,有機,ユウキ,ユーキ
電界	名詞,一般,*,*,*,*,電界,デンカイ,デンカイ
発光	名詞,サ変接続,*,*,*,*,発光,ハッコウ,ハッコー
素子	名詞,一般,*,*,*,*,素子,ソシ,ソシ
及び	接続詞,*,*,*,*,*,及び,オヨビ,オヨビ
その	連体詞,*,*,*,*,*,その,ソノ,ソノ
制作	名詞,サ変接続,*,*,*,*,制作,セイサク,セイサク
方法	名詞,一般,*,*,*,*,方法,ホウホウ,ホーホー
 
 	記号,一般,*,*,*,*,*
EOS
液体	名詞,一般,*,*,*,*,液体,エキタイ,エキタイ
:
:


4.専門用語抽出ソフトウェア「termextract」を利用してキーワードと重要度を抽出する。

日本語形態素解析器の和文解析結果をもとに、専門用語抽出ソフトウェア「termextract」を利用してキーワードと重要度を抽出する。重要度が高い順に整列する。

import collections
import dbm
import termextract.mecab
import termextract.core
 
def output(data):
    f = open("sample.mecab.termex.txt", "w", encoding="utf-8")
#   f = open("patent-all.mecab.termex.txt", "w", encoding='shift_jis') 
#   data_collection = collections.Counter(data)
    data_collection = collections.Counter(term_imp)
    for cmp_noun, value in data_collection.most_common():
        f.write(termextract.core.modify_agglutinative_lang(cmp_noun))
        f.write("\t")
       f.write(str(value))
        f.write("\n")
    f.close
if __name__ == "__main__":
    f = open("sample.mecab.txt", "r", encoding="utf-8")
#   f = open("patent-all.mecab.txt", "r", encoding='shift_jis')
    tagged_text = f.read()
    f.close
    frequency = termextract.mecab.cmp_noun_dict(tagged_text)
    #term_list = termextract.mecab.cmp_noun_list(tagged_text)
    LR = termextract.core.score_lr(frequency,
             ignore_words=termextract.mecab.IGNORE_WORDS,
             lr_mode=1, average_rate=1
         )
    term_imp = termextract.core.term_importance(frequency, LR)
    output(term_imp)

キーワードと重要度結果の一部を以下に表示。

製造方法	301923.82921235514
装置	31935.891814696515
方法	19086.836511061756
電池	17394.813364908518
組成物	15048.615240759338
製造装置	13343.195342168548
化合物	12387.288316169119
検出方法	9519.658892845495
制御装置	8088.162042295405
測定装置	7366.309361919743
制御方法	6904.262078188141
プログラム	6854.234092880108
細胞	6448.255578061403
治療剤	5898.255212821838
測定方法	5861.760318217897
半導体装置	5776.030944760652
処理方法	5620.22171834216
金属	5259.092126974008
:
:

参考

専門用語(キーワード)自動抽出システム

専門用語(キーワード)自動抽出Pythonモジュールtermextract

和布蕪(日本語)による用語抽出


前後のページ
大学特許のキーワード抽出および重要度分析について

アクセス数 0 (0)
ウォッチ数 0
読み だいがくとっきょのきーわーどちゅうしゅつ...
作成者 anzenmon
作成日時 2018年2月21日 09:38:45
最終更新者 anzenmon
最終更新日時 2018年2月25日 21:53:31
スキーマ (なし)