求教同义话题如何合并?
现在网站的一些话题因为简繁体的缘故没有自动合并,成了两个话题:
光复香港https://pincong.rocks/topic/%E5%85%89%E5%BE%A9%E9%A6%99%E6%B8%AF
光復香港https://pincong.rocks/topic/%E5%85%89%E5%A4%8D%E9%A6%99%E6%B8%AF
廣州https://pincong.rocks/topic/%E5%BB%A3%E5%B7%9E
广州https://pincong.rocks/topic/%E5%B9%BF%E5%B7%9E
还有一些可以视为同义词的话题没有合并:
征信https://pincong.rocks/topic/%E5%BE%81%E4%BF%A1
社会信用体系https://pincong.rocks/topic/%E7%A4%BE%E4%BC%9A%E4%BF%A1%E7%94%A8%E4%BD%93%E7%B3%BB
我看到之前有一些话题是被合并的,例如
https://pincong.rocks/topic/%E4%B8%AD%E5%9B%BD?rf=130
https://pincong.rocks/topic/%E5%8F%B0%E6%B9%BE?rf=229
https://pincong.rocks/topic/%E4%B8%AD%E5%85%B1?rf=126
https://pincong.rocks/topic/%E5%88%98%E4%BB%B2%E6%95%AC?rf=849
这个操作目前看来还是依靠人工,但我尚未找到实现该操作的入口。
光复香港https://pincong.rocks/topic/%E5%85%89%E5%BE%A9%E9%A6%99%E6%B8%AF
光復香港https://pincong.rocks/topic/%E5%85%89%E5%A4%8D%E9%A6%99%E6%B8%AF
廣州https://pincong.rocks/topic/%E5%BB%A3%E5%B7%9E
广州https://pincong.rocks/topic/%E5%B9%BF%E5%B7%9E
还有一些可以视为同义词的话题没有合并:
征信https://pincong.rocks/topic/%E5%BE%81%E4%BF%A1
社会信用体系https://pincong.rocks/topic/%E7%A4%BE%E4%BC%9A%E4%BF%A1%E7%94%A8%E4%BD%93%E7%B3%BB
我看到之前有一些话题是被合并的,例如
https://pincong.rocks/topic/%E4%B8%AD%E5%9B%BD?rf=130
https://pincong.rocks/topic/%E5%8F%B0%E6%B9%BE?rf=229
https://pincong.rocks/topic/%E4%B8%AD%E5%85%B1?rf=126
https://pincong.rocks/topic/%E5%88%98%E4%BB%B2%E6%95%AC?rf=849
这个操作目前看来还是依靠人工,但我尚未找到实现该操作的入口。
品葱可以专门设置一个管理标签的用户组,这样窝可以帮你们维护标签(模仿九头鸟
更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。
1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋 / 恋爱
品 / 评价
摄影 / 修养
探子 / 特工
舆论 / 舆情
思想 / 主义
国共 / 中共
启蒙 / 教育
世界 / 寰宇
国民 / 公民
华人 / 华裔
寿终正寝 / 死亡
特工 / 信息员
青年 / 青年人
枪 / 枪械
官逼民反 / 造反
经济 / 占便宜
道 / 道家
八路 / 志愿军
金融 / 财经
道 / 艺术
右翼 / 右派
传言 / 小道消息
剧本 / 脚本
反驳 / 辩论
建议 / 提议
举报 / 告密
道 / 德性
公司 / 供销社
黑幕 / 内幕
中华民族 / 民族
同胞 / 国人
派系 / 法家
人民 / 公民
共 / 共产党
思想 / 心理
宪政 / 党政
举报 / 反馈
漫画 / 卡通
分裂 / 解体
义士 / 武侠
党 / 中国共产党
推理 / 推演
外文 / 外语
改进 / 改良
性 / 人性
空想 / 胡思乱想
辩论 / 理论
造反 / 官逼民反
解体 / 分裂
书籍 / 书本
理论 / 主义
叛国 / 卖国
助纣为虐 / 为虎作伥
时政 / 党政
演说 / 演讲
黑社会 / 黑帮
理论 / 反驳
诗 / 诗词
市场 / 商场
情绪 / 心态
乡土 / 家乡
汉语 / 中文
空想 / 白日梦
后代 / 接班人
左派 / 左翼
书 / 书籍
时 / 时间
审核 / 审查
中国共产党 / 中共
间谍 / 信息员
意识 / 发现
老百姓 / 公民
道 / 道德
老百姓 / 人民
努力 / 斗争
经济 / 金融
汉奸 / 狗腿子
历史 / 旧闻
歌 / 歌曲
告密 / 检举
恋爱 / 婚恋
探子 / 信息员
愚昧 / 愚蠢
通货膨胀 / 毛
间谍 / 特务
以史为鉴 / 前车之鉴
英雄 / 勇武
神经病 / 精神病
民俗 / 传统
选择 / 精选
志愿军 / 八路
计划 / 设计
党 / 国共
教师 / 老师
屠杀 / 大屠杀
观念 / 价值观
揪斗 / 格斗
文艺 / 文学
精选 / 选择
==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。
可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟
==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词
品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并
==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:
最后发现有174个可以合并的标签,一部分输出大概这样:
==========
我好像现在有这个权限了赵家人,点开某个topic在右侧栏有操作入口
(√): 已合并
Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。
学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国
Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签
言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)
各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)
Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。
色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。
1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋 / 恋爱
品 / 评价
摄影 / 修养
探子 / 特工
舆论 / 舆情
思想 / 主义
国共 / 中共
启蒙 / 教育
世界 / 寰宇
国民 / 公民
华人 / 华裔
寿终正寝 / 死亡
特工 / 信息员
青年 / 青年人
枪 / 枪械
官逼民反 / 造反
经济 / 占便宜
道 / 道家
八路 / 志愿军
金融 / 财经
道 / 艺术
右翼 / 右派
传言 / 小道消息
剧本 / 脚本
反驳 / 辩论
建议 / 提议
举报 / 告密
道 / 德性
公司 / 供销社
黑幕 / 内幕
中华民族 / 民族
同胞 / 国人
派系 / 法家
人民 / 公民
共 / 共产党
思想 / 心理
宪政 / 党政
举报 / 反馈
漫画 / 卡通
分裂 / 解体
义士 / 武侠
党 / 中国共产党
推理 / 推演
外文 / 外语
改进 / 改良
性 / 人性
空想 / 胡思乱想
辩论 / 理论
造反 / 官逼民反
解体 / 分裂
书籍 / 书本
理论 / 主义
叛国 / 卖国
助纣为虐 / 为虎作伥
时政 / 党政
演说 / 演讲
黑社会 / 黑帮
理论 / 反驳
诗 / 诗词
市场 / 商场
情绪 / 心态
乡土 / 家乡
汉语 / 中文
空想 / 白日梦
后代 / 接班人
左派 / 左翼
书 / 书籍
时 / 时间
审核 / 审查
中国共产党 / 中共
间谍 / 信息员
意识 / 发现
老百姓 / 公民
道 / 道德
老百姓 / 人民
努力 / 斗争
经济 / 金融
汉奸 / 狗腿子
历史 / 旧闻
歌 / 歌曲
告密 / 检举
恋爱 / 婚恋
探子 / 信息员
愚昧 / 愚蠢
通货膨胀 / 毛
间谍 / 特务
以史为鉴 / 前车之鉴
英雄 / 勇武
神经病 / 精神病
民俗 / 传统
选择 / 精选
志愿军 / 八路
计划 / 设计
党 / 国共
教师 / 老师
屠杀 / 大屠杀
观念 / 价值观
揪斗 / 格斗
文艺 / 文学
精选 / 选择
==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。
可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟
==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词
品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并
==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:
# 简繁判断
def is_simplified_chinese(s):
is_simplified = False
try:
s.encode('big5hkscs')
except UnicodeEncodeError:
is_simplified = True
return is_simplified
# 测试
s1 = '光复香港,时代革命'
s2 = '光復香港,時代革命'
print('s1:', is_simplified_chinese(s1))
print('s2:', is_simplified_chinese(s2))
# hanziconv这个包可以做简繁转换
# 安装: pip install hanziconv
# 查找可以合并的繁体标签
topic_name = [a[0] for a in query('select XXXX from YYYY')] # your database
simplified_tag = []
traditional_tag = []
for name in topic_name:
if is_simplified_chinese(name):
simplified_tag.append(name)
else:
traditional_tag.append(name)
print(f'We got {len(simplified_tag)} simplified tag, {len(traditional_tag)} traditional tag.')
t2s = [HanziConv.toSimplified(a).strip() for a in traditional_tag]
merge = {s: d for s, d in zip(traditional_tag, t2s) if d in set(simplified_tag)}
print(merge) # 测试
最后发现有174个可以合并的标签,一部分输出大概这样:
{'不排華行嗎': '不排华行吗', '世界大戰': '世界大战', '中國間諜': '中国间谍',
'中美關係': '中美关系', '九二共識': '九二共识'}
==========
我好像现在有这个权限了
(√): 已合并
Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。
学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国
Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签
言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)
各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)
Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。
色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
剛剛又給我發現幾個可以合併的話題:(✅=已完成,💹=需要圖標)
- 獨裁/独裁✅
- 武漢/武汉✅
- 新聞/新闻✅
- 法國/法国✅
- 言论管制/言论审查✅
- 價值觀/价值观✅
- 俄羅斯/俄罗斯/俄国✅
- 常凯申/蒋介石✅
- 習明澤/习明泽✅
- 中華民國/中华民国✅
- 民進黨/民进党✅
- 中國夢/中国梦✅
- 毛主义/毛左✅
- 臉書/脸书/Facebook✅
- 女权/女权主义/女性权益✅
- 臺灣大選/中華民國大選/台灣選舉/2020大选/台湾大选/台灣總統大選✅
- 武漢肺炎/武汉肺炎/不明原因肺炎/SARS2.0/武汉SARS/武漢新沙士✅
- 蘇萊曼尼/苏莱曼尼✅
- 中国国民党/国民党/中國國民黨
- 澳洲/澳大利亚✅
- 大陆/中国大陆✅
- 媒體/媒体/新闻媒体
- 戰爭/战争✅
- 大清/清朝✅
- 網軍/网军/水军✅
- 經濟/经济✅
- 返送中/反送中✅
- 伊斯兰/伊斯兰教✅
- 孫中山/孙中山✅
- 香港独立/港独✅
- 茂名/广东茂名✅
- 中美关系/美中关系✅
- 米格道/MGTOW✅
- 防毒面具/豬嘴✅
- 影视/影视剧✅
- 電視劇/电视剧✅
- 動漫/动漫✅
- 華人/华人✅
- 汉族/汉人✅
- 學運/学运✅
- 愛國主義/爱国主义✅
- 社會/社会✅
- 納粹/纳粹✅
- 反賊/反贼✅
- 馬來西亞/马来西亚✅
- 天安门大屠杀/六四事件✅
- 資安/隐私安全/通信安全
- 逃犯條例/逃犯条例✅
- 敦文贵/郭文贵✅
- 憲法/宪法✅
- 中國人/中国人✅
- 電影/电影✅
- 統一/统一/大一统✅
- 澳洲山火/澳大利亞山火➡️澳大利亚山火✅
- 如何评价/如何评价X✅
- 廢除死刑/廢死➡️废死✅
- BDSM/sm✅
- 香港電台/香港电台/RTHK✅
- 第三次世界大战/WW3✅
- 抖音/tiktok✅
- 徐曉冬/徐晓冬✅
- 警察暴行/警暴✅
- 農村/农村✅
- 通货膨胀/通胀✅
- 黑警/香港公安
- 沃門/澳门✅
- 鏗鏘集➡️铿锵集✅
- 廣州地下鐵➡️广州地铁✅
- 家乡/故鄉✅
- 贸易战/中美贸易战✅
又看到几个建议合并的话题:
文革 文化大革命
新文革 文革2.0
文革 文化大革命
新文革 文革2.0
@K8kMrgQwRR 搞清楚怎么合并了。做好事不留名(误),最新的合并需求已搞定。如果有新的需求可以继续弄
不小心误操作了一个苏莱曼尼被锁定了(admin已协助解决)
要求记录tag编辑情况使用emoji勾,以便移动端阅读方便
已完成@沉默的广场的PART 1,搏击俱乐部的PART 2和趴3
以下tag合并,若有意见请讨论
大陆和中国大陆合并有点怪,大陆不只代表中国大陆,虽然目前使用改话题的均指中国大陆。已合并
影视和影视剧合并
天安门大屠杀和六四事件合并
华人和汉人合并好像有些怪怪的?(模仿Tashkent说话)汉人应该和汉族合并吧 【无操作】
所有和台湾选举有关的我通通合并为台湾大选
女性权益合并在女权
不明肺炎、武汉SARS等全部和武汉肺炎合并
港独有贬义,建议合并到香港独立
电视剧和影视剧没有进行合并操作
汉族合并至汉人
统一和統一合并到大一统
废除死刑合并为废死
不小心误操作了一个苏莱曼尼被锁定了(admin已协助解决)
要求记录tag编辑情况使用emoji勾,以便移动端阅读方便
已完成@沉默的广场的PART 1,搏击俱乐部的PART 2和趴3
以下tag合并,若有意见请讨论
大陆和中国大陆合并有点怪,大陆不只代表中国大陆,虽然目前使用改话题的均指中国大陆。已合并
影视和影视剧合并
天安门大屠杀和六四事件合并
华人和汉人合并好像有些怪怪的?(模仿Tashkent说话)汉人应该和汉族合并吧 【无操作】
所有和台湾选举有关的我通通合并为台湾大选
女性权益合并在女权
不明肺炎、武汉SARS等全部和武汉肺炎合并
港独有贬义,建议合并到香港独立
电视剧和影视剧没有进行合并操作
汉族合并至汉人
统一和統一合并到大一统
废除死刑合并为废死
高階管理員可以進行合併,讓我先來試試吧
"廣州"與"光復香港"話題已合併完成
"社会信用体系"與"征信"有合併需求嗎?那麼"社会信用"與"信用体系"可不可以順便合併呢?
個人覺得除了簡繁字之外的合併還是先討論一下比較好
"中国"與"中國"是我前幾天合併的
另外"劉仲敬"與"阿姨"的話題合併好像有些怪怪的?
雖然個人想不出除了這個之外有什麼文章可以套用"阿姨"的tag就是了...
"廣州"與"光復香港"話題已合併完成
"社会信用体系"與"征信"有合併需求嗎?那麼"社会信用"與"信用体系"可不可以順便合併呢?
個人覺得除了簡繁字之外的合併還是先討論一下比較好
"中国"與"中國"是我前幾天合併的
另外"劉仲敬"與"阿姨"的話題合併好像有些怪怪的?
雖然個人想不出除了這個之外有什麼文章可以套用"阿姨"的tag就是了...
标签都没有图,差评